У тебя узкоспецифичные запросы. С чебурашкой они условно справились, ну да, в духе «я художник, я так вижу», но всё же. Теперь запрос ещё более специфический. Сетки тренировались всё же на картинках и запросах англоязычных, да и русскоязычные запросы они переводят на английский. Поэтому какие-то русские или пост-советские культурные реалии им не особо понятны. Следующим Лёню Горбункова в лаптях попросишь, или логотип компании ВИД?
Но понимает что нужно нарисовать лучше.
Попробуй какому-нибудь рандомному американскому художнику такой же запрос сделать, не более подробно, а теми же словами. И при этом должно быть условие, что ему нельзя гуглить, как выглядит то, чего хочет клиент. Уверен, будет ещё менее релевантно. Ну вот у сетки те же проблемы с такими запросами.
Вот догадайся, что выводит гугл в картинках по запросу tear-off calendar?
Да, но наличие в гугле по запросу релевантных картинок не гарантирует, что рандомный художник будет знать что это. Равно как и не гарантирует, что картинки с такими отрывными календарями входили в обучающую подборку в достаточном количестве, при этом с правильным описанием.
Тут ещё дополнительно стоит учесть, что рисующие нейросетки в принципе очень плохо работают с изображением текстовой и цифровой информации. Ну то есть, если попросить нарисовать какую-нибудь книгу сказок или уголовный кодекс или библию — тоже так себе получится. А отрывной календарь по сути своей тоже книга. Он что-то похожее рисует, но контент на страницах — какая-то чушь. Пока вот так.
Полностью с вами согласен. Генерил локально на кастомной версии Multimodal Diffusion Transformer (MMDiT) который требует 32Gb видеопамяти. Специально не подбирал ни запрос ни варианты получше. Как есть - первая выжимка.
Но почему оно даже отрывной кадендарь-то нарисовать не может
Потому что таких данных нет в материалах на которых она обучалась.
Нейросеть может нарисовать только то чему её научили и точка. Что там есть в гугле, чего там нет в гугле это значения не имеет. Есть в обучающих материалах? Может нарисовать. Нет в обучающих материалах? Не может нарисовать. Это человек может гугл открыть, посмотреть что там и срисовать. Нейросеть в принципе под такое не заточена.
Я штук 20 разных нейросеток перебрал, обученных на разных датасетов. Нигде календарей, ещё и висячих не видел. Я не знаю откуда вы взяли что это элементарщина. Ни одна нейросеть которую я видел, не умеет это по одной простой причине. Нейросеть обучают на массиве похожих изображений, причем одного стиля. Вы много художников видели, которые отрывные календари рисуют?