Cappuccino — дообучение генеративной модели на сюрреалистический образ на Geograffee

Исходные изображения

Проект посвящен дообучению генеративной модели изображений на пользовательском наборе фотографий для переноса узнаваемого визуального образа в новые сцены. В работе использовалась модель Stable Diffusion XL, обученная с помощью DreamBooth LoRA на небольшом датасете изображений персонажа в единой художественной стилистике.

Такой персонаж был выбран, так как, по моему мнению, он хорошо подходит для проверки возможностей дообучения генеративной модели: у него есть узнаваемые особенности внешнего вида, но при этом образ довольно не прост. Более того, идея выбора возникла вследствие недавней популярности подобных сюрреалистических изображений.

Обучение генеративной нейросети

Исходный размер 2456x620

Исходный размер 2700x650

Тут готовится среда colab для обучения DreamBooth LoRA на SDXL: сначала проверяю видеокарту через «nvidia-smi», ставлю библиотеки вроде «bitsandbytes» и «accelerate», качаю свежий «diffusers» из репозитория, загружаю скрипт обучения «train_dreambooth_lora_sdxl.py» и создаю папку «balerina», куда через «files.upload ()» могу загрузить свои изображения для датасета.

На этом слайдере показано, как я готовлю датасет для обучения нейросети: сначала собираю изображения из локальной папки, потом с помощью BLIP автоматически генерирую описания к каждому фото и добавляю к ним уникальный триггер «cappuccino photos», чтобы модель запомнила нужный стиль. Дальше я настраиваю параметры обучения и запускаю тренировку LoRA-адаптера для Stable Diffusion XL, используя подготовленные подписи в качестве промптов. В конце загружаю обученные веса и могу генерировать новые картинки в том же стиле, который я «скормила» модели на этапе подготовки данных.

Генерации

После обучения я получила серию новых изображений, в которых модель сохраняет ключевые черты персонажа капучино, но варьирует окружение, действия и эмоциональную подачу. Это позволило мне оценить, насколько эффективно компактное дообучение передает индивидуальные особенности образа и поддерживает целостность исходной концепции.

Исходный размер 2700x200

Исходный размер 1024x1024

Исходный размер 2700x196

Исходный размер 1024x1024

Исходный размер 2700x202

Исходный размер 1024x1024

Исходный размер 2700x202

Исходный размер 1024x1024

Исходный размер 2700x198

Исходный размер 1024x1024

Исходный размер 2700x200

Исходный размер 1024x1024