СУТЬ ПРОЕКТА
Научить нейросеть переводить обычные фотографии людей в чёрно-белый аниме-стиль. Для этого модель Stable Diffusion XL была дообучена на наборе аниме-портретов в манга-стилистике. После обучения модель смогла создавать изображения с характерными чёрными линиями, контрастными тенями и выразительными чертами лица. Проект показывает, как можно перенести художественный стиль на новое изображение
ИСХОДНЫЕ ИЗОБРАЖЕНИЯ
Исходные фото, Pinterest
Для обучения была собрана обучающая выборка из 10 изображений. Исходные фото взяты с Pinterest и представляют собой аниме-портреты в чёрно-белой манга-стилистике. Все изображения были приведены к единому формату 1:1 и очищены от лишних метаданных.
Так как для качественного дообучения нейросети требуется достаточно большой датасет, было принято решение расширить обучающую выборку. Для этого использовался ChatGPT 5.4 с промтом: «Расширь обучающую выборку, создай похожие изображения со сторонами 1:1; цель — расширение тренировочной выборки»
В результате было получено дополнительное количество изображений, стилистически соответствующих исходным, что позволило улучшить качество обучения модели.
РЕЗУЛЬТАТ
После завершения обучения модель была протестирована в двух сценариях:
итоговое изображение
Генерация по текстовому промту (папка gen_res) Модель создаёт аниме-портреты с нуля, следуя заданному описанию.
Были использованы такие промты как: male anime portrait in {style_token} style, black and white manga art, intense eyes, strong shadows style_token — токен нашего стиля
итоговое изображение
итоговое изображение
Стилизация реального фото (папка photo_test) Методом img2img модель переносит манга-стиль на реальные фотографии. Были протестированы два уровня интенсивности генерации:
Стандартный режим — мягкая стилизация с сохранением черт лица.
Усиленный режим — максимальное проявление стиля с характерной графикой, контрастными тенями и выразительной прорисовкой.
Результаты показывают, что модель успешно усвоила ключевые черты манга-стиля: чёткие чёрные линии, контрастные тени, графичность и выразительность черт лица.
ОБУЧЕНИЕ МОДЕЛИ
Обучение проводилось с использованием Stable Diffusion XL и метода LoRA. Датасет состоял из подготовленных изображений с одинаковыми текстовыми подписями, описывающими стиль. Модель обучалась на разрешении 512×512 с небольшим количеством шагов (200), что подходит для маленького датасета. Использовался оптимизатор Adam с пониженным потреблением памяти. В процессе сохранялись checkpoint’ы, позволяющие остановить обучение и продолжить позже
ПРОЦЕСС
Сначала был собран, подготовлен датасет: изображения приведены к единому формату и очищены, а после расширен с помощью ChatGPT. Затем сформированы подписи (captions), задающие стиль обучения. После этого была запущена процедура обучения LoRA-модели в среде Google Colab. Далее модель использовалась для генерации изображений по текстовым запросам. На последнем этапе применялся img2img для стилизации реального фото
ОПИСАНИЕ ИСПОЛЬЗОВАНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ
В проекте были использованы следующие генеративные модели и инструменты:
Модель Stable Diffusion XL (SDXL) — основная модель для генерации и стилизации изображений
LoRA — метод дообучения, позволяющий адаптировать модель под узкий стиль без полного переобучения
ChatGPT 5.4 — расширение обучающей выборки путём создания дополнительных изображений в заданном стиле
Google Colab — среда выполнения обучения с доступом к GPU
ИТОГ
В рамках проекта была дообучена модель Stable Diffusion XL с использованием LoRA для переноса чёрно-белого манга-стиля на реальные фотографии. Несмотря на небольшой исходный датасет, расширение выборки с помощью ChatGPT и корректный подбор гиперпараметров позволили добиться качественного результата. Модель успешно генерирует аниме-портреты по текстовым промтам и стилизует реальные фото с возможностью регулировки интенсивности воздействия стиля.




