
Проект посвящён обучению нейросети Stable Diffusion на работах художницы Марии Медем для создания иллюстраций в ее стиле.
Концепция
У художницы Марии Медем очень необычный стиль иллюстраций — минималистичный, с небольшим количеством деталей и шейдинга, с характерной цветовой палитрой, сочетающие яркие оранжевые и красные оттенки и приглушенные фиолетовые, синие. В иллюстрациях Марии Медем царит атмосфера мечтательных сновидений, которую художница передает через композицию, цветовые решения и сюжеты.


Мне показалось, что работы Медем очень выделяется среди перегруженных деталями иллюстраций многих современных диджитал художников. Он идеально подходит для создания серии плакатов, открыток, обложек на скетчбуки и возможно даже обложек для музыкальных альбомов. Дефолтная модель Stable Diffusion конечно не умеет генерировать изображения в таком минималистичном «плоском» стиле. Поэтому мне захотелось протестировать, сможет ли нейросеть обучиться на довольно абстрактных и минималистичных иллюстрациях Медем.


Мечтательный стиль художницы наталкивает на мысль, что с помощью него можно было бы проиллюстрировать какую-то книгу с атмосферой сновидений. «Алиса в Стране Чудес» Льюиса Кэролла идеально подходит по описанию.
Процесс обучения нейросети
Первым этапом стало создание отдельной директории для картинок, на которых нейросеть будет обучаться, и загрузка изображений в Google Colab. Для обучения были загружены 60 иллюстраций Марии Медем, которые предварительно были обрезаны и подогнаны под разрешение 1024×1024 на онлайн ресурсе.


Далее с помощью BLIP были автоматически созданы описания картинок для последующего обучения нейросети.
Для использования модели был выбран префикс для промптов «illustration in MEDEM style»
Параметры для обучения были сразу выбраны высокие: разрешение 1024, 1000 шагов. Обучение заняло около 4 часов.
После завершения обучения модель была сохранена на huggingface.co
Генерация
С генерацией было много сложностей, так как абстрактные формы на иллюстрациях и местами не самое лучшее качество изображений помешали точности обучения. Модель часто генерирует изображения с артефактами, нарушениями анатомии, незаконченными формами. Картинки не совсем точно соответствуют промпту, если он очень развернутый. Ситуацию не исправило ни увеличение количества шагов генерации (num_inference_steps), ни guidance_scale, ни негативный промпт. Для удачной генерации нужно было просто сделать много попыток.


Также особенность стиля Медем в том, что на ее иллюстрациях иногда присутсвуют элементы комикса или плаката — рамки, дополнительные фреймы поверх основной картинки. Я надеялась, что нейросеть примет это во внимание во время обучения и сможет воспроизвести, но в итоге, видимо, это только помешало ей обучаться.
Итоговая серия изображений




Главную цель — воспроизвести стиль Марии Медем — нейросети удалось неплохо выполнить: получилось воспроизвести основные элементы ее стиля, такие как характерную цветовая гамма, лайнарт, отсутствие теней на плоскостях, минималистичность, рваные формы в сочетании с геометричными. Получились разные виды изображений: портретные и пейзажные. Однако оригинальные иллюстрации выглядят более законченными и продуманными, нейростети не очень хорошо удается работать с композицией и деталями.
Иллюстрации к «Алисе в Стране Чудес»
Так как модель испытывала сложности со следованием промпту, иллюстрации получились довольно абстрактные.


Также пришлось применить постобработку: к первой картинке была применена функция Stable Diffusion image2image — с помощью InPainting была заменена часть иллюстрации с рукой и ножницами, так как на изначальной иллюстрации они были нарисованы с артефактами. Это было сделано через версию SD в виде WebUI.