Перенос манга-стиля на реальные фотографии на Geograffee

СУТЬ ПРОЕКТА

Научить нейросеть переводить обычные фотографии людей в чёрно-белый аниме-стиль. Для этого модель Stable Diffusion XL была дообучена на наборе аниме-портретов в манга-стилистике. После обучения модель смогла создавать изображения с характерными чёрными линиями, контрастными тенями и выразительными чертами лица. Проект показывает, как можно перенести художественный стиль на новое изображение

ИСХОДНЫЕ ИЗОБРАЖЕНИЯ

Исходные фото, Pinterest

Для обучения была собрана обучающая выборка из 10 изображений. Исходные фото взяты с Pinterest и представляют собой аниме-портреты в чёрно-белой манга-стилистике. Все изображения были приведены к единому формату 1:1 и очищены от лишних метаданных.

Так как для качественного дообучения нейросети требуется достаточно большой датасет, было принято решение расширить обучающую выборку. Для этого использовался ChatGPT 5.4 с промтом: «Расширь обучающую выборку, создай похожие изображения со сторонами 1:1; цель — расширение тренировочной выборки»

В результате было получено дополнительное количество изображений, стилистически соответствующих исходным, что позволило улучшить качество обучения модели.

датасет

РЕЗУЛЬТАТ

После завершения обучения модель была протестирована в двух сценариях:

итоговое изображение

Генерация по текстовому промту (папка gen_res) Модель создаёт аниме-портреты с нуля, следуя заданному описанию.

Были использованы такие промты как: male anime portrait in {style_token} style, black and white manga art, intense eyes, strong shadows style_token — токен нашего стиля

итоговое изображение

Исходный размер 2480x1750

итоговое изображение

Стилизация реального фото (папка photo_test) Методом img2img модель переносит манга-стиль на реальные фотографии. Были протестированы два уровня интенсивности генерации:

Стандартный режим — мягкая стилизация с сохранением черт лица.

Усиленный режим — максимальное проявление стиля с характерной графикой, контрастными тенями и выразительной прорисовкой.

Результаты показывают, что модель успешно усвоила ключевые черты манга-стиля: чёткие чёрные линии, контрастные тени, графичность и выразительность черт лица.

ОБУЧЕНИЕ МОДЕЛИ

Обучение проводилось с использованием Stable Diffusion XL и метода LoRA. Датасет состоял из подготовленных изображений с одинаковыми текстовыми подписями, описывающими стиль. Модель обучалась на разрешении 512×512 с небольшим количеством шагов (200), что подходит для маленького датасета. Использовался оптимизатор Adam с пониженным потреблением памяти. В процессе сохранялись checkpoint’ы, позволяющие остановить обучение и продолжить позже

ПРОЦЕСС

Сначала был собран, подготовлен датасет: изображения приведены к единому формату и очищены, а после расширен с помощью ChatGPT. Затем сформированы подписи (captions), задающие стиль обучения. После этого была запущена процедура обучения LoRA-модели в среде Google Colab. Далее модель использовалась для генерации изображений по текстовым запросам. На последнем этапе применялся img2img для стилизации реального фото

ОПИСАНИЕ ИСПОЛЬЗОВАНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

В проекте были использованы следующие генеративные модели и инструменты:

Модель Stable Diffusion XL (SDXL) — основная модель для генерации и стилизации изображений

LoRA — метод дообучения, позволяющий адаптировать модель под узкий стиль без полного переобучения

ChatGPT 5.4 — расширение обучающей выборки путём создания дополнительных изображений в заданном стиле

Google Colab — среда выполнения обучения с доступом к GPU

ИТОГ

В рамках проекта была дообучена модель Stable Diffusion XL с использованием LoRA для переноса чёрно-белого манга-стиля на реальные фотографии. Несмотря на небольшой исходный датасет, расширение выборки с помощью ChatGPT и корректный подбор гиперпараметров позволили добиться качественного результата. Модель успешно генерирует аниме-портреты по текстовым промтам и стилизует реальные фото с возможностью регулировки интенсивности воздействия стиля.

БЛОКНОТ

ДАТАСЕТ ИСПОЛЬЗОВАННЫЙ ДЛЯ ОБУЧЕНИЯ