Концепция проекта
В качестве визуального стиля, которому будет обучаться нейросеть Stable Diffusion, был выбран проект моей дипломной работы — интерактивного повествования / видеоигры с элементами авторской анимации Банк Памяти Амигдала. Игра исследует темы человеческой памяти и ностальгии, и её визуальный язык характеризуется контрастной графикой, разнообразием текстур и ограниченной цветовой палитрой.
Основная цель проекта — оценить, насколько точно получится обучить нейросеть на основе имеющихся изображений, и выявить дальнейшие возможности доработки результатов.
Ознакомиться с проектом дипломной работы можно по ссылке:
Обучение нейросети
В качестве материала для обучения были собраны готовые иллюстрации в оригинальном стиле, их количество составило 20 штук. Среди них есть портреты, детали, и изображения пространств; все иллюстрации объединены текстурами и цветовой гаммой, в основе которой три цвета — белый, чёрный и охра.
Все изображения, использованные для обучения, можно посмотреть по ссылке:
некоторые изображения, используемые для обучения
загрузка изображений в Google Colab
После того, как изображения были успешно загружены в Google Colab, необходимо было автоматически сгенерировать их описания с помощью BLIP. В целом описания получились довольно точные (не считая небольших деталей, например, BLIP указал вместо зеркала окно), хотя и достаточно лаконичные.
генерация описаний для изображений с помощью BLIP
Далее был произведен логин с HuggingFace, после чего началось обучение модели. Параметры обучения: разрешение 512, количество шагов 500 с чекпойнтами каждые 100 шагов. Обучение заняло около двух часов. Готовая модель затем была сохранена на HuggingFace.
обучение модели
Генерация изображений
Из-за ограничений в бесплатных возможностях Google Colab для генерации изображений файл с весами модели был выгружен из HuggingFace и загружен и использован локально. Соответствующие изменения в код были внесены с помощью встроенного ассистента Gemini.
загрузка локального файла safetensors
При генерации изображений основной задачей было получить результаты с разными элементами (предметами, людьми, фонами), чтобы оценить успешность обучения.
Во-первых, я попробовала сгенерировать людей в разных ситуациях и окружениях. Некоторые результаты кажутся мне довольно удачными, нейросеть хорошо попала в цвет и формы стиля, хотя и есть недостатки в анатомии.


промпты: a woman drinking a cocktail, dim lights, sad, digital drawing in AMYGDALA style / two people smoking on a balcony, smoke high resolution, black background, digital drawing in AMYGDALA style
промпт: a portrait of a sad black-haired woman, digital drawing in AMYGDALA style
Во-вторых, я попробовала создать изображения локаций с помощью обученной модели. Первые два результата соответствуют стилю больше, чем последний. Они используют более точные цвета, и на них больше деталей. У всех генераций пространств мне видится общий недостаток — не хватает аккуратности и чёткости линий, нейросеть использует формальные элементы стиля, но плохо передаёт структуру изображений.
Промпты: — a bar with a cabinet of bottles in the background, dim light, floral patterns on the wall, digital drawing in AMYGDALA style; — a dark room with ornamental wallpaper, table in the middle of the room, one candle on the table, intricate floor lamp, dim lights, sad, stylized, posters on a wall digital drawing in AMYGDALA style; — a hallway with checkered tiles on the floor, dim lights, doors on both sides, digital drawing in AMYGDALA style.
сгенерированные бар / комната / коридор
Последней категорией, которую я генерировала, стали предметы. Мне кажется, они получились довольно неплохо, и в целом соответствуют тому, как я их изображала в изначальном стиле. Однако всё ещё заметны неточности и нелогичные текстуры и элементы (например, листья, выходящие из скатерти).
Промпты: — a table with two glasses of wine, dinner, dim lights, moody atmosphere, digital drawing in AMYGDALA style; — a bouquet of flowers on the table, flowers, leafs, dim lights, digital drawing in AMYGDALA style.


сгенерированные изображения предметов
Выводы
Хотя модель и обучилась формальному воспроизведению элементов изначального стиля, в генерациях присутствуют заметные несоответствия. У нейросети получилось правильно определить цветовую гамму и совмещение паттернов с линейным рисованием. Мне кажется, что в генерациях не хватает четкости и аккуратности, которые были в оригинальном стиле. Также серьезными недостатками являются проблемы модели с анатомией и генерация элементов в случайных местах. Могу предположить, что возможности модели были ограничены количеством шагов обучения, относительно небольшой выборкой изображений и общей сложностью стиля.













