Fluffy на Geograffee

Идея проекта

Цель проекта — обучить генеративную нейросеть Stable Diffusion XL воспроизводить конкретного персонажа: пушистого милого цыплёнка в стиле cute illustration. Идея заключается в том, чтобы модель запомнила уникальные черты персонажа — круглую пушистую форму, большие тёмные глаза, оранжевый клюв и лапки — и могла помещать его в совершенно разные ситуации и окружения, сохраняя узнаваемость.

Для обучения был собран датасет из 30 изображений цыплёнка в едином cute illustration стиле, сгенерированных с помощью Leonardo.ai (Flow State). Все изображения имеют формат 1:1, цыпленок изображен на белом фоне и располагается на зеленой траве.

Папка с изображениями

Список использованных в проекте инструментов:

— Leonardo.Ai — создание датасета из изображений цыпленка; — Stable Diffusion XL — обучение генеративной нейросети под свой стиль; — Google Colab (GPU T4) — среда выполнения кода и обучения модели; — BLIP (Salesforce) — автоматическая генерация текстовых подписей к изображениям — LoRA — метод дообучения модели под конкретный объект; — HuggingFace — платформа для хранения и публикации обученных весов LoRA

Исходные изображения

Описание процесса обучения

Сначала потребовалось загрузить все необходимые библиотеки. Я установила bitsandbytes, transformers, accelerate, peft, datasets и diffusers из последней версии на GitHub, а также скачала скрипт обучения train_dreambooth_lora_sdxl.py

Далее нужно было загрузить изображения в Google Colab. Я использовала встроенную функцию files.upload () — она открыла диалог выбора файлов, через который я загрузила все 30 изображений цыплёнка в папку fluffy_chick/

Следующим шагом была подготовка датасета. С помощью модели BLIP (Salesforce) каждому изображению автоматически присваивалась текстовая подпись. К каждой подписи добавлялся префикс с триггерным словом: «a cute illustration of FLUFFY chick». Все подписи сохранялись в файл metadata.jsonl

Затем я настроила среду через accelerate config и авторизовалась на HuggingFace Hub для последующей публикации модели.

Исходный размер 1606x734

Самый важный этап — обучение модели. Я дообучила Stable Diffusion XL методом DreamBooth + LoRA на GPU T4 в Google Colab. Параметры обучения: 600 шагов, learning rate 1e-4, разрешение 512×512, mixed precision fp16 и 8-bit Adam для экономии видеопамяти. Обученные веса LoRA были автоматически сохранены на HuggingFace Hub.

После обучения я загрузила обученную LoRA и генерировала изображения с разными промптами, всегда используя триггерное слово FLUFFY. Персонаж помещался в разные сцены: летний луг, зима, пляж, облако, кухня и другие. Всего было сгенерировано 8 итоговых изображений, которые я сохранила в ZIP-архив.

Исходный размер 982x682

Итог

Модель успешно усвоила ключевые черты персонажа: пушистую жёлтую форму, характерные пропорции и cute-стилистику. В серии из 8 изображений FLUFFY был помещён в разные контексты — летний луг, зима со снегом, пляж, уютная кухня, облако — при этом персонаж остаётся узнаваемым в каждом кадре.

Вариации между изображениями проявляются в освещении, фоне и деталях окружения, тогда как стиль и облик персонажа остаются консистентными. Это подтверждает, что метод DreamBooth + LoRA эффективно работает для обучения под конкретный персонаж даже на небольшом датасете из 30 изображений.

Блокнот с кодом

Папка с генерациями