Генерация изображений по стилю автора с использованием SD на Geograffee

Идея проекта

Для проекта я решил взять работы моей подруги — мне нравится её стиль, но сама она при этом считает, что «своего стиля» у неё нет. Поэтому мне стало интересно взять созданные ею изображения и посмотреть, сможет ли дообученная на них нейросеть Stable Diffusion XL сгенерировать похожие рисунки.

Все исходные изображения были взяты с разрешения автора.

Примеры исходных изображений

Исходный размер 512x512

Процесс обучения

Блокнот в Google Colab

Для создания проекта я использовал модель Stable Diffusion XL с DreamBooth и LoRA. Сперва я загрузил 22 изображения в стиле автора. С помощью BLIP создал автоматические подписи к картинкам для их объяснения нейросети.

После этого начал процесс дообучения: исходный размер изображений 512×512, 500 шагов тренировки с сохранением промежуточного результата каждые 100 шагов.

Исходный размер 654x430

Настройки при обучении модели

Итоговую модель после обучения выгрузил на Hugging Face по ссылке

Получившиеся генерации

Промпт: «photo collage in FILIZARD style, a man with a dark green skin in a big hat»

Первая генерация по получившейся модели нейросети вышла очень хорошо: нейросеть чётко попала в обученный стиль.

Сам автор стиля положительно оценил генерацию и решил доработать образ персонажа на изображении, взяв сгенерированный рисунок за основу.

Исходный размер 583x623

Скетч от автора по образу получившейся генерации нейросети

Следующее изображение (генерация ниже) получилось не совсем вписывающимся в стиль: излишек деталей, недостаточная читаемость образа.

Но всё равно в генерации прослеживаются особенности стиля автора.

Исходный размер 1024x1024

Промпт: «photo collage in FILIZARD style, a man with glowing red and orange horns»

Затем мне стало интересно, насколько точно можно воссоздать с помощью нейросети уже существующий рисунок автора.

Для этого я взял оригинальное изображение, которое не вошло в подборку картинок для обучения модели, и описал по нему промпт для генерации. Вышло достаточно похоже.

Исходное изображение автора // Попытка воссоздать рисунок автора с помощью генерации

Исходный размер 1024x1024

Промпт: «photo collage in FILIZARD style, a portrait of a man with a dinosaur-like head with orange skin and red eyes»

Рогатых персонажей генерировать вышло не очень просто: нейросеть постоянно пыталась нарисовать длинные и ветвистые рога с большим количеством деталей. Но в целом получившиеся генерации хорошо вписывались в стиль.

Исходный размер 1024x1024

Промпт: «photo collage in FILIZARD style, a drawing of a man with dragon head and red eyes in a suit»

Исходный размер 1024x1024

Промпт: «photo collage in FILIZARD style, a drawing of a dragon character with light purple skin, light purple horns and green eyes»

Ещё одной проблемой для модели стала генерация изображений с тёмным фоном: несмотря на присутствие подобных изображений в подборке картинок для обучения, нейросеть отказывалась генерировать изображения с чёрным фоном или в тёмной комнате.

Исходный размер 1024x1024

«photo collage in FILIZARD style, a man with light blue skin in a completely black room»

Исходный размер 1024x1024

«photo collage in FILIZARD style, a woman in pirate clothes and pirate hat»

Итог

Нейросеть отлично уловила и успешно воссоздала особенности стиля автора: матовость рисунков с приглушёнными цветами без обилия отражений и умеренным количеством деталей, подчёркивающими форму и фактуру. И, конечно же, серый фон.

При этом автор оригинальных изображений остался доволен результатом и даже вдохновился на создание новых персонажей на основе генераций.

Описание применения генеративной модели

В проекте использовались следующие модели ИИ:

Stable Diffusion XL в качестве базовой модели для генерации изображений. Ссылка: Stable Diffusion XL
DreamBooth с LoRA — техники для обучения нейросетей. Ссылки: DreamBooth / LoRA
BLIP для генерации описания к исходным изображениям. Ссылка: BLIP