Обучение генеративной нейросети под стиль готического витража на Geograffee

Идея проекта

Проект посвящен обучению нейросетевой модели Stable Diffusion стилю средневековых готических витражей, характерных для французских соборов XII–XIII веков. Наиболее яркие образцы этого искусства сохранились в Соборе Парижской Богоматери. Отличительными чертами стиля являются минимализм, ограниченная цветовая палитра с доминированием кобальтово-синего, и четкая, контрастная графичность.

Исходный размер 1024x680

Фрагмент залива 121, Роза, Собор Парижской Богоматери

Исходный размер 3195x678

Собор Парижской Богоматери

Витражи состоят из множества отдельных стеклянных фрагментов, складывающихся в единый библейский сюжет или притчу. Для обучения модели была подготовлена база данных, состоящая не из целых витражных полотен, а из их небольших фрагментов круглой формы, что позволит добиться более детальной и точной генерации изображений.

Исходный размер 2111x1024

Фрагменты витражного полотна

Исходный размер 2111x1024

Фрагменты витражного полотна

Процесс обучения модели

Для обучения генеративной нейросети было выбрано около 150 фрагментов витражей, а затем кадрированных 1:1

Исходный размер 2089x1028

Исходный размер 2436x361

Фрагмент кода Google Colab

Исходный размер 2438x400

Фрагмент кода Google Colab

Исходный размер 2435x625

Фрагмент кода Google Colab

Первый этап включал: проверка GPU, установка зависимостей, создание локальной директории и загрузка изображений в Google Colab.

Исходный размер 2435x678

Фрагмент кода Google Colab

Исходный размер 2436x916

Фрагмент кода Google Colab

Затем модель BLIP генерировала описания изображений, к которым добавлялся префикс для стилизации под средневековый витраж. Эти объединенные текстовые данные служили основой для обучения дальнейшей модели.

Исходный размер 2434x622

Фрагмент кода Google Colab

Исходный размер 2432x618

Фрагмент кода Google Colab

После этого был запущен процесс обучения модели с использованием метода LoRA, который занял около двух часов с заданными настройками.

Исходный размер 2423x247

Фрагмент кода Google Colab

Исходный размер 2437x847

Фрагмент кода Google Colab

Исходный размер 2433x560

Фрагмент кода Google Colab

По окончании обучения модель сохраняется, загружается на платформу Hugging Face Hub и становится доступной для использования. Далее можно создавать изображения.

Серия изображений

Благодаря первым пробам генераций я заметно, что нейросеть хорошо улавливает форму и общий стиль, но изображение сильно ухудшается из-за обилия фрагментов мозаики и сколов, которые были переданы генерацией.

Исходный размер 3195x1024

При следующей генерации была убавлена сила checkpoint до -250, что помогло сделать изображения более чистыми.

Исходный размер 2111x1024

Затем я приступила к более сюжетной генерации, используя библейские мотивы, которые были отражены на витражных полотнах собора.

Исходный размер 2111x1024

В завершении, я попробовала совместить два стиля, созданных стиль medieval_stained_glass_style и стиль картин французского художника Анри Матисса «Танец» и «Женщина».

Исходный размер 2111x1024

Описание применения генеративной модели

Основой для дообучения и генерации изображений послужила модель Stable Diffusion. Создание промптов и разработка общей концепции осуществлялись с использованием GPT-ChatBot.

Ноутбук с кодом

https://colab.research.google.com/drive/1Dqz5UlUrlQU38WJ11k6Bzlgyti9FA5KU?usp=sharing