Идея проекта
Для проекта я решил взять работы моей подруги — мне нравится её стиль, но сама она при этом считает, что «своего стиля» у неё нет. Поэтому мне стало интересно взять созданные ею изображения и посмотреть, сможет ли дообученная на них нейросеть Stable Diffusion XL сгенерировать похожие рисунки.
Все исходные изображения были взяты с разрешения автора.
Примеры исходных изображений



Процесс обучения
Для создания проекта я использовал модель Stable Diffusion XL с DreamBooth и LoRA. Сперва я загрузил 22 изображения в стиле автора. С помощью BLIP создал автоматические подписи к картинкам для их объяснения нейросети.
После этого начал процесс дообучения: исходный размер изображений 512×512, 500 шагов тренировки с сохранением промежуточного результата каждые 100 шагов.
Настройки при обучении модели
Итоговую модель после обучения выгрузил на Hugging Face по ссылке
Получившиеся генерации


Промпт: «photo collage in FILIZARD style, a man with a dark green skin in a big hat»
Первая генерация по получившейся модели нейросети вышла очень хорошо: нейросеть чётко попала в обученный стиль.
Сам автор стиля положительно оценил генерацию и решил доработать образ персонажа на изображении, взяв сгенерированный рисунок за основу.
Скетч от автора по образу получившейся генерации нейросети
Следующее изображение (генерация ниже) получилось не совсем вписывающимся в стиль: излишек деталей, недостаточная читаемость образа.
Но всё равно в генерации прослеживаются особенности стиля автора.
Промпт: «photo collage in FILIZARD style, a man with glowing red and orange horns»
Затем мне стало интересно, насколько точно можно воссоздать с помощью нейросети уже существующий рисунок автора.
Для этого я взял оригинальное изображение, которое не вошло в подборку картинок для обучения модели, и описал по нему промпт для генерации. Вышло достаточно похоже.


Исходное изображение автора // Попытка воссоздать рисунок автора с помощью генерации
Промпт: «photo collage in FILIZARD style, a portrait of a man with a dinosaur-like head with orange skin and red eyes»
Рогатых персонажей генерировать вышло не очень просто: нейросеть постоянно пыталась нарисовать длинные и ветвистые рога с большим количеством деталей. Но в целом получившиеся генерации хорошо вписывались в стиль.
Промпт: «photo collage in FILIZARD style, a drawing of a man with dragon head and red eyes in a suit»
Промпт: «photo collage in FILIZARD style, a drawing of a dragon character with light purple skin, light purple horns and green eyes»
Ещё одной проблемой для модели стала генерация изображений с тёмным фоном: несмотря на присутствие подобных изображений в подборке картинок для обучения, нейросеть отказывалась генерировать изображения с чёрным фоном или в тёмной комнате.
«photo collage in FILIZARD style, a man with light blue skin in a completely black room»
«photo collage in FILIZARD style, a woman in pirate clothes and pirate hat»
Итог
Нейросеть отлично уловила и успешно воссоздала особенности стиля автора: матовость рисунков с приглушёнными цветами без обилия отражений и умеренным количеством деталей, подчёркивающими форму и фактуру. И, конечно же, серый фон.
При этом автор оригинальных изображений остался доволен результатом и даже вдохновился на создание новых персонажей на основе генераций.
Описание применения генеративной модели
В проекте использовались следующие модели ИИ:
- Stable Diffusion XL в качестве базовой модели для генерации изображений. Ссылка: Stable Diffusion XL
- DreamBooth с LoRA — техники для обучения нейросетей. Ссылки: DreamBooth / LoRA
- BLIP для генерации описания к исходным изображениям. Ссылка: BLIP










