Генеративные пионы: исследование дообучения Stable Diffusion XL на Geograffee

Идея проекта

В данном проекте я исследовала возможность обучения генеративной нейросети для воспроизведения и вариативного преобразования визуального образа цветка пиона. Пион выбран как сложный природный объект с характерной многослойной структурой лепестков, богатой текстурой и узнаваемой формой

Проект рассматривает пион не как единичное изображение, а как систему визуальных признаков — форму, плотность, ритм лепестков, свет и цвет — которые могут быть перенесены и трансформированы в новых условиях генерации

Исходный размер 4278x1070

Посмотреть датасет

Для обучения модели был собран датасет из 24 изображений пионов. Все изображения были приведены к квадратному формату и нормализованы по размеру, чтобы обеспечить стабильность обучения. Датасет включает различные ракурсы, освещение и степени раскрытия цветка, что позволяет модели лучше усвоить структуру объекта

Обучение

Результаты генерации

В процессе обучения модели удалось зафиксировать ключевые визуальные характеристики объекта. В сгенерированных изображениях отчётливо сохраняется форма пиона — многослойная структура лепестков, характерная округлая композиция и плотность цветка.

Одним из наиболее заметных результатов является способность модели воспроизводить сложную текстуру лепестков. Даже в различных стилях генерации (реалистичное фото, драматическое освещение, более художественные интерпретации) структура цветка остаётся узнаваемой

Исходный размер 512x512

В процессе генерации можно наблюдать, как модель интерпретирует исходные данные. В большинстве случаев форма пиона сохраняется корректно, однако иногда появляются небольшие артефакты: неестественные лепестки или избыточная симметрия. Это связано с ограниченным размером датасета и особенностями генеративной модели

Исходный размер 512x512

Анализ результата

Модель создаёт вариации. Например, в некоторых генерациях меняется: — освещение (мягкий свет, студийный контраст, тёмный фон); — степень детализации; — композиция (макро, общий план, центрирование объекта); — визуальная атмосфера (реализм, более художественные интерпретации).

Это показывает, что нейросеть усвоила набор признаков, описывающих объект

В результате проекта удалось показать, что генеративная модель может эффективно усваивать и воспроизводить сложные визуальные объекты, такие как цветы, даже при ограниченном датасете

Результат генераций

Ноутбук с кодом

При подготовке текстов и структуры презентации использовался инструмент ChatGPT (chatgpt.com)