Введение
Ёситака Амано — культовый японский художник, известный иллюстрациями романа «Охотник на вампиров Ди» и дизайнами персонажей легендарной серии игр «Final Fantasy».
Его узнаваемый стиль породил множество подражателей и поклонников. Для него характерны удлиненные фигуры, специфическая манера изображения лиц, воздушность и готичность.
Я хотела узнать, насколько нейросетевые инструменты способны подражать его мастерству.
Йошитака Амано. Иллюстрации к новелле «Охотник на вампиров Ди».
Цель проекта
Попытаться научить генеративную сеть воспроизводить воздушную мрачную готичность работ Ёситаки Амано.
Были использованы такие методы, как LoRA, который не переобучает всю модель, а добавляет небольшие «адаптеры» (веса) поверх существующей; DreamBooth, который позволяет модели «запомнить» новый концепт; и SDXL — одну из самых мощных open-source моделей, поскольку она понимает сложные стили и детали.
Обучение
Для обучения был собран компактный датасет из 10 изображений — работ и иллюстраций Йошитаки Амано.
Код загрузки изображений
После установки зависимостей и импорта библиотек, подключается диск с картинками. Проходит поиск и загрузка изображений.
Код генерации описаний BLIP
Далее BLIP анализирует каждое изображение и создает текстовое описание, к которому добавляется префикс стиля.
Код создания датасета HuggingFace
Далее формируется структурированный датасет, где каждому изображению соответствует текстовый промпт.
Код обучения LoRa
В конце запускается LoRA с подключением официального скрипта обучения, а затем происходит генерация в соответствии с промптами.
Промпты генерации
По завершении генерации результат сохраняется архивом.
Результаты
Результаты генерации после обучения
Вывод
Сотни сообщений об ошибках, несколько суток упорной работы позволили добиться своего — были собраны 5 вариаций генерации, по одному на каждый промпт.
Результат плачевен — на выходе мы получили лишь посредственную имитацию гения, лишенную художественной ценности.
Генеративные ИИ
Stable Diffusion XL — базовая модель генерации изображений. BLIP — генерация описаний. LoRA — техника обучения модели на новом стиле. DeepSeek — исправление ошибок кода.
Ссылки












