Like Final Fantasy на Geograffee

Введение

Ёситака Амано — культовый японский художник, известный иллюстрациями романа «Охотник на вампиров Ди» и дизайнами персонажей легендарной серии игр «Final Fantasy».

Его узнаваемый стиль породил множество подражателей и поклонников. Для него характерны удлиненные фигуры, специфическая манера изображения лиц, воздушность и готичность.

Я хотела узнать, насколько нейросетевые инструменты способны подражать его мастерству.

Йошитака Амано. Иллюстрации к новелле «Охотник на вампиров Ди».

Цель проекта

Попытаться научить генеративную сеть воспроизводить воздушную мрачную готичность работ Ёситаки Амано.

Были использованы такие методы, как LoRA, который не переобучает всю модель, а добавляет небольшие «адаптеры» (веса) поверх существующей; DreamBooth, который позволяет модели «запомнить» новый концепт; и SDXL — одну из самых мощных open-source моделей, поскольку она понимает сложные стили и детали.

Обучение

Для обучения был собран компактный датасет из 10 изображений — работ и иллюстраций Йошитаки Амано.

Исходный размер 1178x517

Код загрузки изображений

После установки зависимостей и импорта библиотек, подключается диск с картинками. Проходит поиск и загрузка изображений.

Исходный размер 766x866

Код генерации описаний BLIP

Далее BLIP анализирует каждое изображение и создает текстовое описание, к которому добавляется префикс стиля.

Исходный размер 644x261

Код создания датасета HuggingFace

Далее формируется структурированный датасет, где каждому изображению соответствует текстовый промпт.

Исходный размер 1035x713

Код обучения LoRa

В конце запускается LoRA с подключением официального скрипта обучения, а затем происходит генерация в соответствии с промптами.

Исходный размер 899x484

Промпты генерации

По завершении генерации результат сохраняется архивом.

Результаты

Результаты генерации после обучения

Вывод

Сотни сообщений об ошибках, несколько суток упорной работы позволили добиться своего — были собраны 5 вариаций генерации, по одному на каждый промпт.

Результат плачевен — на выходе мы получили лишь посредственную имитацию гения, лишенную художественной ценности.

Генеративные ИИ

Stable Diffusion XL — базовая модель генерации изображений. BLIP — генерация описаний. LoRA — техника обучения модели на новом стиле. DeepSeek — исправление ошибок кода.

Ссылки

Код: https://colab.research.google.com/drive/1b32URrfBbFkqD3f2RrxMT4r1YHuGClsl?usp=sharing
Комплект произведений для обучения: https://drive.google.com/drive/folders/1xM_O87crVLCfQskUmDJnTovO_gKZf-uB?usp=drive_link