Генерация персонажей под авторский стиль с помощью Stable Diffusion на Geograffee

КОНЦЕПЦИЯ

Цель проекта: обучить генеративную модель Stable Diffusion воспроизводить художественный стиль автора проекта, продемонстрировать возможности нейросетевой стилизации и создать серию оригинальных изображений, вдохновлённых авторской эстетикой.

Этот стиль представляет интерес для нейросетевого обучения, поскольку он одновременно узнаваем и достаточно структурирован для выделения визуальных маркеров, но при этом оставляет пространство для творческой интерпретации.

БАЗА ДАННЫХ

Исходный размер 3391x1807

В библиотеке автора преобладают иллюстрации персонажей, поэтому было решено взять их за основу для модели и сфокусироваться на генерации гуманоидных созданий.

ОБУЧЕНИЕ

В первую очередь настроено вычислительное окружение в Google Colab, установлены все необходимые зависимости: библиотеки bitsandbytes, transformers, accelerate, peft и diffusers, а также скрипт train_dreambooth_lora_sdxl.py для обучения модели.

Далее подготовка датасета из авторских работ: создана директория для изображений, в неё загружены исходные работы и визуально проверена корректность загрузки первых пяти изображений с помощью функции image_grid. Затем с помощью модели BLIP (BlipForConditionalGeneration) автоматически сгенерированы текстовые промпты для каждого изображения — это позволило связать визуальные особенности с текстовыми подсказками.

Исходный размер 3558x1691

Исходный размер 3565x1620

На заданном стиле обучена LoRA‑модель, используя технологии DreamBooth и Stable Diffusion XL (SDXL). В процессе обучения заданы ключевые параметры:

разрешение — 384×384 пикселя;
количество шагов обучения — 400;
сохранение контрольных точек каждые 200 шагов;
использование смешанной точности (fp16);
применение оптимизатора 8‑bit Adam

Исходный размер 3549x1434

В результате получена финальная модель в виде файла весов LoRA (pytorch_lora_weights.safetensors)

БЛОКНОТ

ИТОГИ

Исходный размер 1024x1024

mischievous goblin character laughing and pointing forward, small horns and big ears, full body, white background, art in nozhev 2

cheerful elf with short hair standing with hands in pockets, simple outfit, full body, white background, art in nozhev

confident girl with long hair holding a sword over her shoulder, adventure clothes, full body, white background, art in nozhev

confident pirate girl holding a dagger and smiling, belt and boots, full body, white background, art in nozhev

elegant elf girl with long hair and folded arms, simple dress and boots, full body, white background, art in nozhev 2

elegant elf girl with long hair and folded arms, simple dress and boots, full body, white background, art in nozhev

happy adventurer with backpack waving hello, travel outfit, full body character, white background, art in nozhev

playful demon boy with small horns and tail making a peace sign, casual clothes, full body, white background, art in nozhev 2

playful demon boy with small horns and tail making a peace sign, casual clothes, full body, white background, art in nozhev

tired office worker with messy hair holding a coffee cup, leaning slightly, full body, white background, art in nozhev

young mage holding a glowing book and smiling, robe and boots, full body character, white background, art in nozhev

ИСПОЛЬЗОВАНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ

Hugging Face Diffusers — библиотека для работы с диффузионными моделями. Обеспечила инфраструктуру для загрузки, настройки и запуска SDXL, LoRA и VAE.

Google Gemini — мультимодальная модель от Google. В проекте Gemini использована для создания промптов для генерации изображений и консультаций по коду.

Stable Diffusion XL (SDXL) — базовая диффузионная модель для генерации изображений, на основе которой проводилось дообучение.

LoRA — метод эффективного тонкого тюнинга больших моделей: позволил обучить адаптацию под заданный стиль с минимальными вычислительными затратами и получить компактный файл весов.

DreamBooth — технология персонализации диффузионных моделей. Использовалась для «запоминания» и воспроизведения уникального стиля на ограниченном датасете.

Вывод

Исходные изображения-референсы отличались высокой степенью стилизации — резкими контрастами форм, специфической проработкой линий и пропорций тела. Нейросеть не смогла воспроизвести все элементы без артефактов: в генерации встречаются небольшие искажения деталей и лёгкие шумы, особенно в зонах с высокой плотностью графических элементов. Тем не менее, ключевые черты стиля (композиция, цветовая гамма, подача образов) успешно усвоены — артефакты не нарушают целостность восприятия и лишь отражают сложность репликации экспрессивной авторской манеры с помощью генеративной модели.