Обучение генеративной нейросети Stable Diffusion стилю Банк памяти Амигдала на Geograffee

Концепция проекта

В качестве визуального стиля, которому будет обучаться нейросеть Stable Diffusion, был выбран проект моей дипломной работы — интерактивного повествования / видеоигры с элементами авторской анимации Банк Памяти Амигдала. Игра исследует темы человеческой памяти и ностальгии, и её визуальный язык характеризуется контрастной графикой, разнообразием текстур и ограниченной цветовой палитрой.

Основная цель проекта — оценить, насколько точно получится обучить нейросеть на основе имеющихся изображений, и выявить дальнейшие возможности доработки результатов.

Ознакомиться с проектом дипломной работы можно по ссылке:

Обучение нейросети

В качестве материала для обучения были собраны готовые иллюстрации в оригинальном стиле, их количество составило 20 штук. Среди них есть портреты, детали, и изображения пространств; все иллюстрации объединены текстурами и цветовой гаммой, в основе которой три цвета — белый, чёрный и охра.

Все изображения, использованные для обучения, можно посмотреть по ссылке:

некоторые изображения, используемые для обучения

Исходный размер 1096x486

загрузка изображений в Google Colab

После того, как изображения были успешно загружены в Google Colab, необходимо было автоматически сгенерировать их описания с помощью BLIP. В целом описания получились довольно точные (не считая небольших деталей, например, BLIP указал вместо зеркала окно), хотя и достаточно лаконичные.

генерация описаний для изображений с помощью BLIP

Далее был произведен логин с HuggingFace, после чего началось обучение модели. Параметры обучения: разрешение 512, количество шагов 500 с чекпойнтами каждые 100 шагов. Обучение заняло около двух часов. Готовая модель затем была сохранена на HuggingFace.

Исходный размер 1095x595

обучение модели

Генерация изображений

Из-за ограничений в бесплатных возможностях Google Colab для генерации изображений файл с весами модели был выгружен из HuggingFace и загружен и использован локально. Соответствующие изменения в код были внесены с помощью встроенного ассистента Gemini.

Исходный размер 1280x618

загрузка локального файла safetensors

При генерации изображений основной задачей было получить результаты с разными элементами (предметами, людьми, фонами), чтобы оценить успешность обучения.

Во-первых, я попробовала сгенерировать людей в разных ситуациях и окружениях. Некоторые результаты кажутся мне довольно удачными, нейросеть хорошо попала в цвет и формы стиля, хотя и есть недостатки в анатомии.

промпты: a woman drinking a cocktail, dim lights, sad, digital drawing in AMYGDALA style / two people smoking on a balcony, smoke high resolution, black background, digital drawing in AMYGDALA style

Исходный размер 1024x1024

промпт: a portrait of a sad black-haired woman, digital drawing in AMYGDALA style

Во-вторых, я попробовала создать изображения локаций с помощью обученной модели. Первые два результата соответствуют стилю больше, чем последний. Они используют более точные цвета, и на них больше деталей. У всех генераций пространств мне видится общий недостаток — не хватает аккуратности и чёткости линий, нейросеть использует формальные элементы стиля, но плохо передаёт структуру изображений.

Промпты: — a bar with a cabinet of bottles in the background, dim light, floral patterns on the wall, digital drawing in AMYGDALA style; — a dark room with ornamental wallpaper, table in the middle of the room, one candle on the table, intricate floor lamp, dim lights, sad, stylized, posters on a wall digital drawing in AMYGDALA style; — a hallway with checkered tiles on the floor, dim lights, doors on both sides, digital drawing in AMYGDALA style.

сгенерированные бар / комната / коридор

Последней категорией, которую я генерировала, стали предметы. Мне кажется, они получились довольно неплохо, и в целом соответствуют тому, как я их изображала в изначальном стиле. Однако всё ещё заметны неточности и нелогичные текстуры и элементы (например, листья, выходящие из скатерти).

Промпты: — a table with two glasses of wine, dinner, dim lights, moody atmosphere, digital drawing in AMYGDALA style; — a bouquet of flowers on the table, flowers, leafs, dim lights, digital drawing in AMYGDALA style.

сгенерированные изображения предметов

Выводы

Хотя модель и обучилась формальному воспроизведению элементов изначального стиля, в генерациях присутствуют заметные несоответствия. У нейросети получилось правильно определить цветовую гамму и совмещение паттернов с линейным рисованием. Мне кажется, что в генерациях не хватает четкости и аккуратности, которые были в оригинальном стиле. Также серьезными недостатками являются проблемы модели с анатомией и генерация элементов в случайных местах. Могу предположить, что возможности модели были ограничены количеством шагов обучения, относительно небольшой выборкой изображений и общей сложностью стиля.

модель на hugging face

код обучения модели

веса модели