Обучение искусственного интеллекта изображению цветов на Geograffee

Главная цель проекта

Основная цель проекта — создать специализированную модель для генерации изображений цветов в уникальном, заранее определенном стиле.

Идея проекта: Обучить нейросеть (Stable Diffusion XL) генерировать изображения цветов в уникальном художественном стиле, используя для этого небольшую коллекцию собственных фотографий и технологию LoRA, которая позволяет дообучить модель.

Входные данные

Для обучения были использованы разнообразные изображения цветов, что является правильным подходом. Это позволяет модели изучить общие характеристики стиля, а не запомнить конкретные цветы. Из представленного коллажа видно:

Разнообразие видов: Розы, тюльпаны, ирисы, лилии, ромашки и другие.

Разнообразие ракурсов: Крупные планы, общие планы, цветы в траве, с каплями воды.

Выходные данные

Все сгенерированные изображения объединяют несколько ключевых стилистических черт, которые были успешно выучены моделью из обучающего датасета:

Крупные планы и детализация: Модель очень хорошо справилась с передачей текстуры лепестков, тычинок и капель воды. Изображения выглядят очень живыми и детализированными, что соответствует качеству исходных фотографий.

Мягкое освещение: В большинстве сгенерированных картинок наблюдается мягкое, приглушенное или слегка размытое освещение. Это придает изображениям нежность и художественность

Цветовая палитра: Стиль сохраняет естественные цвета цветов, но при этом добавляет к ним легкий «фильтр», который делает их более сочными и насыщенными, не переходя в неестественность.

Важно отметить, что все изображения, хотя и объединены единым стилем, не являются копиями друг друга. Это демонстрирует, что модель не переобучилась на конкретные композиции, а действительно усвоила эстетику.

Детали генерации

В качестве базовой модели генерации изображений была использована модель Stable Diffusion XL (SDXL), которая была дообучена благодаря технологии LoRa. Эта технология внесла новые стили к существующей на основании исходного датасета фотографий и реализованных промтов.

Для обучения так же были использованы следующие технологии и параметры: 8-bit Adam — Оптимизатор, снижающий потребление видеопамяти SNR Gamma (5.0) — Настройка, улучшающая проработку мелких деталей accelerate — Библиотека для оптимизации обучения на GPU diffusers — Библиотека Hugging Face для работы с диффузионными моделями

Вывод по работе

Проект можно считать успешным. Обученный LoRa для SDXL эффективно передает выбранный художественный стиль «фото с мягким, детализированным изображением цветов». Модель продемонстрировала способность к обобщению. Она не копирует обучающие изображения, а генерирует новые, разнообразные сцены в рамках выученной эстетики. Она успешно работает с разными видами цветов, композициями, освещением и цветовыми гаммами. Сгенерированные изображения детализированы, имеют приятную цветопередачу и художественную ценность.

Датасет используется по лицензии CC0

Программа и её описание по ссылке на диске https://disk.yandex.ru/d/FckIWN-EtzqxQw