Нейросети: Рисовать цветную мангу по наброскам, по дизайну персонажей, по фоновым фото

0

3

Уже создают даже фильмы и короткометражки по текстовым описаниям, чисто по голому тексту. Но что если существует общедоступный какой то инструментарий, который пусть и не будет настолько самостоятелен, но всё же позволит наброски рисовать в некоем дизайне, на фоне мебели и прочих предметов, на улицах по фото города?

Если фильм можно сделать даже, то мне кажется нечто, что не претендует на реалистичность, лишь бы просто было так как хочет автор, и сохранялась достаточная связность кадров, может такое существовать. Тем более будет ассистанс от автора, он будет рисовать какие то положения объекта и указывать - а этот объект это вообще то Вася, а не Петя например

Ссылка

←	Признавайтесь, кто придумывал имена для пластика?

Не показывайте это любителям Wayland, они дуреют...

→

Если на каждом кадре только один Вася, один Петя, либо они никогда не взаимодействуют - то прокатит. Как только вам понадобится нарисовать взаимодействующих объектов - туши свет. Очень тяжело создать чисто по голому тексту «Петя одевает скафандр». Будет 2 скафандра, скафандр одевает скафандр, два Пети и 2 скафандра, Петя в скафандре одевает скафандр…

tiinn ★★★★★
(27.01.25 07:10:21 MSK)

Ответ на: комментарий от tiinn 27.01.25 07:10:21 MSK

Как только вам понадобится нарисовать взаимодействующих объектов - туши свет. Очень тяжело создать чисто по голому тексту «Петя одевает скафандр». Будет 2 скафандра, скафандр одевает скафандр, два Пети и 2 скафандра, Петя в скафандре одевает скафандр…

Голый скафандр, следующий кадр — заходит Петя, следующий кадр — Петя достаёт одежду из шкафа, следующий кадр — Петя одевает скафандр, последний кадр — скафандр теперь не голый, а одетый, Петя уходит.

CrX ★★★★★
(27.01.25 07:13:06 MSK)

Ответ на: комментарий от CrX 27.01.25 07:13:06 MSK

Вот-вот. Такое тоже будет.

tiinn ★★★★★
(27.01.25 07:14:17 MSK)

Ссылка

Ответ на: комментарий от CrX 27.01.25 07:13:06 MSK

Голый скафандр, следующий кадр — заходит Петя, следующий кадр — Петя достаёт одежду из шкафа, следующий кадр — Петя одевает скафандр, последний кадр — скафандр теперь не голый, а одетый, Петя уходит.

Каннский кинофестиваль. Фильм про Петю в скафандре получает гран-при. Все уходят.

vaddd ★☆
(27.01.25 07:29:55 MSK)

Ответ на: комментарий от vaddd 27.01.25 07:29:55 MSK

Каннский кинофестиваль.

Если Канский, то, да!

tiinn ★★★★★
(27.01.25 07:33:56 MSK)

Ссылка

на улицах по фото города? Если фильм можно сделать даже, то мне кажется нечто, что не претендует на реалистичность, лишь бы просто было так как хочет автор, и сохранялась достаточная связность кадров, может такое существовать. Тем более будет ассистанс от автора, он будет рисовать какие то положения объекта и указывать - а этот объект это вообще то Вася, а не Петя например

Если вы претендуете на реалистичность, то вы должны указывать, что этот объект вообще Султанбек, а не Аслан

vaddd ★☆
(27.01.25 07:47:51 MSK)

Ссылка

Ответ на: комментарий от tiinn 27.01.25 07:10:21 MSK

одевает Надежду

Починил.

dataman ★★★★★
(27.01.25 10:49:44 MSK)

Ссылка

Ответ на: комментарий от tiinn 27.01.25 07:10:21 MSK

Тем не менее, куча сайтов на эту тематику присутствует. Но там чисто по тексту работа, результат вероятно будет трудноконтролируемым. Наверное, лет через 5-10 будет решение, а так по отдельности то сё существует, адекватного результата это всё не даст если не принимает на входе осмысленные графические вводные

I-Love-Microsoft ★★★★★
(27.01.25 13:33:03 MSK) автор топика

Ссылка

Но что если существует общедоступный какой то инструментарий, который пусть и не будет настолько самостоятелен, но всё же позволит наброски рисовать в некоем дизайне, на фоне мебели и прочих предметов, на улицах по фото города?

Это уже есть, я пробовал.

Способ 1

(очень похож на старую мультипликацию):

Создаете LoRA файлы с каждым персонажем. Обязательно раздельный для каждого персонажа, никаких миксов.
Генерируете бекграунд без персонажей. Если у вас есть движущаяся камера, то расширяете его в нужную сторону через outpaint.
Создаете через любую подходящую программу долл с позицией тела
Конвертите долл в формат импортируемый в доступный вам controlnet с позой (это для того, чтобы не заниматься любовью в окошке controlnet’а)
Генерируете каждого персонажа отдельно, добавляя фон (через xxx background, как white или black), который будет контрастным на фоне фона из п. 2.
Закидываете персонажа на фон через режим наложения по маске цвета фона.
Повторяете пункты 3-6 для каждого персонажа
Прогоняете img2img на малом значении, чтобы нивелировать разницу стиля
Повторяете пункты 3-8 пока не кончится сцена
Повторяете пункты 2-9 пока не кончатся сцены

Итог: будут скакать мелкие детали каждый кадр (например складки на одежде), но если использовать графику уровня «gravity falls», то там такой детализации нет, будет выглядеть как студенческая поделка.

Следует помнить, что пункт 5 и 2 будет требовать 20-100 итераций генерации-попыток, потому что 80% генераций - шлак, даже если там один персонаж. По итогу на один кадр у вас в лучшем раскладе будет уходить 60 х количество персонажей (одна генерация примерно минуту для 1920х1080). Опытный художник, работающий в мультипликационной графике будет работать примерно с такой же или бОльшей скоростью, выдавая при этом связанный и более качественный результат. Если вы планируете сэкономить - то не выйдет, вам нужна армия генераторов, в которую вы вложите кучу бабок за оборудование + кучу бабок за электричество на каждый кадр. Экономику можете посчитать сами: 2 часа (если в среднем два персонажа в кадре) на кадр х 2 х 60 х 60 = 14 400 часов непрерывного жора электричества. 4090 жрёт примерно киловатт, т.е. за генерацию (в лучшем случае) он сожрёт 14 400 кВтч, с таким потреблением вы влетаете в третий диапазон цен (>3000) и платите 10,52 руб./кВтч, т.е. примерно 151 488‬ р (для юриков будет на порядок выше). На эти бабки вы можете купить студента на полгода, за полгода силами одного художника рисуется 20 минут мультфильма. Если худов несколько - то один лайнит, другой красит, третий бек - за полгода можно сделать 30-50 минут. Результат даже у студента будет выше, чем у нейронки, которая каждый кадр перегенеривает теряя детали.

Способ 2

(более простой, но требует художника)

Вы берете все пункты 1-10, но на пункте 5 делаете не генерацию с нуля, а ее вам рисует скетч-художник (лучше с опытом анимации), поверх которой вы делаете img2img на значениях выше средних. Получается быстрее чем просто с голяка, но вы теряете на зп художника.

Вы можете сами сделать 5 секунд анимации следуя инструкциям выше и проверить, насколько получается нормальный материал (спойлер: не получается).

PPP328 ★★★★★
(27.01.25 20:04:00 MSK)

Ответ на: комментарий от PPP328 27.01.25 20:04:00 MSK

Спасибо, очень полезный интересный комментарий. Анимацию и не мечтаю, максимум типа манги

I-Love-Microsoft ★★★★★
(27.01.25 20:35:03 MSK) автор топика

Ответ на: комментарий от I-Love-Microsoft 27.01.25 20:35:03 MSK

Тогда та же инструкция, но без п.9

PPP328 ★★★★★
(27.01.25 20:37:57 MSK)

Ссылка

Ответ на: комментарий от I-Love-Microsoft 27.01.25 20:35:03 MSK

На acomics вроде были варианты сделанные с помощью ИИ. Авторы канеш фотошопят до неузнаваемости, но всё же.

Со своей стороны сказал бы, что как читателю мне было бы приятнее видеть отфотошопленные фото (как в Max Payne), чем ИИ. Делаете примитивный косплей костюма, становитесь в позу, фоткаете, потом фотошопите, накладываете тонну фильтров и сводите в комикс. Этим даже Marvel промышляет, часть современных комиксов - это обрисовка фото. А Punisher - это вообще набор фоток, зачастую даже криво отфотошопленных. https://bleedingcool.com/wp-content/uploads/2022/03/Screenshot-2022-03-09-000801.jpg

PPP328 ★★★★★
(27.01.25 20:54:06 MSK)
Последнее исправление: PPP328 27.01.25 20:59:07 MSK (всего исправлений: 3)

Ссылка

нервосеть может лишь рандомное нечто разово высрать. чем больше будешь пытаться заставлять что-то конкретное получать и тащить в следующие итерации - тем меньше годных результатов будет вообще.

нервосети явно не про конкретность и консистентность. а если твой прумтп будет превышать оригинальный лимит твиттерного формата сообщений, тем больше процесс работы с нервосетью будет походить на азартные игры с «одноруким бандитом». хотя может после 100-ой неудачной попытки ты понизишь планку качества и смиришься и возьмешь какой-нибудь из получившихся высеров.

чтоб ты знал: сделать нормальный кавер на говновоз (когда текст уже есть и песня подобрана и все подгтовлено) - занимает минимум полдня и чуть ли не весь месячный лимит кредитов тратится. просто сидишь и дергаешь эту рулетку, пытаясь выдавить хоть что-то годное, постепенно уменьшая скоуп (от готового целого текста с парой куплетов и привевом, крамсая все вплоть до отдельных строчек из песни, или даже отдельных слов)

одно дело рамномную картинку на превью сгенерить, может из сотни-другой попыток и отберешь не самую отвратную. а ты на аж на целое видео замахнулся! реальность очень быстро поставит тебя на место!

n_play ☆
(28.01.25 01:22:15 MSK)

Ответ на: комментарий от n_play 28.01.25 01:22:15 MSK

а ты на аж на целое видео замахнулся

Манга, просто иллюстрации. Но я понял уже по ответам что результат будет плохой

реальность очень быстро поставит тебя на место

Уже на месте :)

I-Love-Microsoft ★★★★★
(28.01.25 02:39:21 MSK) автор топика

Ссылка

Давно уже есть ControlNet сети с указанием Pоse от человека. Делает именно то что описали.

Obezyan ☆
(28.01.25 02:49:05 MSK)

Ссылка

Ответ на: комментарий от PPP328 27.01.25 20:04:00 MSK

Вы, кажется, в этом шарите. Не знаете, есть ли для Stable Diffusion приличные датасеты, лицензированные для коммерческого использования? Я скачал нечто стандартное и оно генерит очень грустно по качеству.

Возможно, есть какие-то другие сетки, которые можно запустить локально и которые генерирует пригодные по лицензии для коммерческого использования изображения? Obezyan

P.S. В принципе, локальность запуска даже необязательна, просто хочу иметь поддержку ComfyUI

next_time ★★★★★
(30.01.25 09:45:20 MSK)

Ответ на: комментарий от next_time 30.01.25 09:45:20 MSK

Возможно, есть какие-то другие сетки, которые можно запустить локально и которые генерирует пригодные по лицензии для коммерческого использования изображения?

Есть куча SDXL сетей на civit.ai с разным уровнем лицензирования, в том числе для коммерческого использования, а также lora под любые запросы.

Они все доступны для скачивания, у каждой модели есть несколько примеров работы с конкретными промтами.

Регистрируетесь, в поиске ставите models, сортируете по популярности, качаете и пробуете.

Для пальцев и лиц качаете рефайнеры и настраиваете свой пайплайн чтобы изображение сгенерированное моделью проходило через них. Comfy UI это позволяет. Примеры пайплайнов есть там же.

Obezyan ☆
(30.01.25 10:52:14 MSK)

Ответ на: комментарий от Obezyan 30.01.25 10:52:14 MSK

Этот сайт мне известен, но я не нашёл пруфов, что очередная модель подходит для коммерческого использования. Ну типа автор пишет, что подходит, но при этом, модель бесплатно доступна для скачивания. Сразу закрадываются сомнения, а не на пиратских ли датасетах он её тренировал? Админы сайта этот момент хоть как-то проверяют? У меня сложилось впечатление (м.б. неверное) что там просто джентельменам верят на слово.

next_time ★★★★★
(31.01.25 00:06:58 MSK)

Ответ на: комментарий от next_time 31.01.25 00:06:58 MSK

как будто белые и пушистые модели не тренировались на чистых данных :)

В языковые моделях все парсят гитхаб, стековерфлоу и выхлоп других сетей. С картинками тоже самое ибо не доказать, тк неверифицируемо. А если так не делать то отстанешь от конкурентов.

Obezyan ☆
(31.01.25 00:20:37 MSK)

Ответ на: комментарий от n_play 28.01.25 01:22:15 MSK

аж на целое видео замахнулся!

Qwen через мультимодальный генератор Tongyi Wanxiang совершенно бесплатно по моему запросу создал кино на 5 секунд про овечку. Красивое такое кино. С красивой такой овечкой.

Пока ещё можно над всем этим смеяться, конечно. Но оно уже пришло. И пойдёт дальше. И станет оружием, как и всё, что изобретают люди.

Toxo2 ★★★★
(31.01.25 00:23:08 MSK)

Ссылка

Ответ на: комментарий от Obezyan 31.01.25 00:20:37 MSK

В языковые моделях все парсят гитхаб, стековерфлоу и выхлоп других сетей

И на гитхабе и на стековерфлоу всё хорошо с лицензией на данные.

С картинками тоже самое ибо не доказать, тк неверифицируемо.

Чтобы сильно не уходить в философию: как относится к картинкам, генеренных такой сетью, например, Гугл Плей? Меня могут забанить, если выяснится, что картинки в моём приложении созданы моделью натренированной на пиратских датасетах?

Я о прецендентах вроде не слышал, но могу просто о них и не знать.

next_time ★★★★★
(31.01.25 09:43:44 MSK)

Ответ на: комментарий от next_time 31.01.25 09:43:44 MSK

И на гитхабе и на стековерфлоу всё хорошо с лицензией

Это вы сами так решили?

Obezyan ☆
(31.01.25 10:18:38 MSK)

Ответ на: комментарий от Obezyan 31.01.25 10:18:38 MSK

Стековерфлоу форсит публичную лицензию на все пользовательские посты. Кроме того, есть пункты в законодательстве, которые утверждают, что заурядные решения охране авторским правом не подлежат (типа хеллоуворлдов всяких), а это 99% контента стековерфлоу.

next_time ★★★★★
(02.02.25 13:05:39 MSK)

Ссылка

Закрыто добавление комментариев для недавно зарегистрированных пользователей (со score < 50)

←	Признавайтесь, кто придумывал имена для пластика?

Talks

Не показывайте это любителям Wayland, они дуреют...

→

Способ 1

Способ 2

Похожие темы