Главная цель проекта
Основная цель проекта — создать специализированную модель для генерации изображений цветов в уникальном, заранее определенном стиле.
Идея проекта: Обучить нейросеть (Stable Diffusion XL) генерировать изображения цветов в уникальном художественном стиле, используя для этого небольшую коллекцию собственных фотографий и технологию LoRA, которая позволяет дообучить модель.
Входные данные
Для обучения были использованы разнообразные изображения цветов, что является правильным подходом. Это позволяет модели изучить общие характеристики стиля, а не запомнить конкретные цветы. Из представленного коллажа видно:
Разнообразие видов: Розы, тюльпаны, ирисы, лилии, ромашки и другие.
Разнообразие ракурсов: Крупные планы, общие планы, цветы в траве, с каплями воды.
Выходные данные
Все сгенерированные изображения объединяют несколько ключевых стилистических черт, которые были успешно выучены моделью из обучающего датасета:
Крупные планы и детализация: Модель очень хорошо справилась с передачей текстуры лепестков, тычинок и капель воды. Изображения выглядят очень живыми и детализированными, что соответствует качеству исходных фотографий.
Мягкое освещение: В большинстве сгенерированных картинок наблюдается мягкое, приглушенное или слегка размытое освещение. Это придает изображениям нежность и художественность
Цветовая палитра: Стиль сохраняет естественные цвета цветов, но при этом добавляет к ним легкий «фильтр», который делает их более сочными и насыщенными, не переходя в неестественность.
Важно отметить, что все изображения, хотя и объединены единым стилем, не являются копиями друг друга. Это демонстрирует, что модель не переобучилась на конкретные композиции, а действительно усвоила эстетику.
Детали генерации
В качестве базовой модели генерации изображений была использована модель Stable Diffusion XL (SDXL), которая была дообучена благодаря технологии LoRa. Эта технология внесла новые стили к существующей на основании исходного датасета фотографий и реализованных промтов.
Для обучения так же были использованы следующие технологии и параметры: 8-bit Adam — Оптимизатор, снижающий потребление видеопамяти SNR Gamma (5.0) — Настройка, улучшающая проработку мелких деталей accelerate — Библиотека для оптимизации обучения на GPU diffusers — Библиотека Hugging Face для работы с диффузионными моделями
Вывод по работе
Проект можно считать успешным. Обученный LoRa для SDXL эффективно передает выбранный художественный стиль «фото с мягким, детализированным изображением цветов». Модель продемонстрировала способность к обобщению. Она не копирует обучающие изображения, а генерирует новые, разнообразные сцены в рамках выученной эстетики. Она успешно работает с разными видами цветов, композициями, освещением и цветовыми гаммами. Сгенерированные изображения детализированы, имеют приятную цветопередачу и художественную ценность.
Датасет используется по лицензии CC0
Программа и её описание по ссылке на диске https://disk.yandex.ru/d/FckIWN-EtzqxQw




