Исходные изображения
Проект посвящен дообучению генеративной модели изображений на пользовательском наборе фотографий для переноса узнаваемого визуального образа в новые сцены. В работе использовалась модель Stable Diffusion XL, обученная с помощью DreamBooth LoRA на небольшом датасете изображений персонажа в единой художественной стилистике.
Такой персонаж был выбран, так как, по моему мнению, он хорошо подходит для проверки возможностей дообучения генеративной модели: у него есть узнаваемые особенности внешнего вида, но при этом образ довольно не прост. Более того, идея выбора возникла вследствие недавней популярности подобных сюрреалистических изображений.
Обучение генеративной нейросети
Тут готовится среда colab для обучения DreamBooth LoRA на SDXL: сначала проверяю видеокарту через «nvidia-smi», ставлю библиотеки вроде «bitsandbytes» и «accelerate», качаю свежий «diffusers» из репозитория, загружаю скрипт обучения «train_dreambooth_lora_sdxl.py» и создаю папку «balerina», куда через «files.upload ()» могу загрузить свои изображения для датасета.
На этом слайдере показано, как я готовлю датасет для обучения нейросети: сначала собираю изображения из локальной папки, потом с помощью BLIP автоматически генерирую описания к каждому фото и добавляю к ним уникальный триггер «cappuccino photos», чтобы модель запомнила нужный стиль. Дальше я настраиваю параметры обучения и запускаю тренировку LoRA-адаптера для Stable Diffusion XL, используя подготовленные подписи в качестве промптов. В конце загружаю обученные веса и могу генерировать новые картинки в том же стиле, который я «скормила» модели на этапе подготовки данных.
Генерации
После обучения я получила серию новых изображений, в которых модель сохраняет ключевые черты персонажа капучино, но варьирует окружение, действия и эмоциональную подачу. Это позволило мне оценить, насколько эффективно компактное дообучение передает индивидуальные особенности образа и поддерживает целостность исходной концепции.




