Описание идеи проекта

Идея проекта заключается в обучении генеративной сети созданию серии изображений еды в стиле плоской иллюстрации или в «стикерной» стилистике — минимум линий, плоские цвета.

Исходные изображения для обучения

В качестве исходных изображений были взяты иллюстрации, нарисованные в программе Procreate на основе фотографий еды из галереи. Квадратный формат и такой стиль иллюстрации позволяет в дальнейшем адаптировать их под стикеры. Модель будет обучаться на 15 исходных изображениях.

Исходный размер 1500x930

Результирующая серия изображений

Серия / основные блюда

prompts: illustration in FLAT FOOD style, an english breakfast with eggs and bacon // italian pasta with tomato sauce, close-up

prompts: illustration in FLAT FOOD style, juicy steak with grill marks, served with mashed potatoes and asparagus // fresh avocado toast with poached eggs and cherry tomatoes, close-up

Серия / десерты и напитки

prompts: illustration in FLAT FOOD style, stack of fluffy pancakes with maple syrup and butter, bright background // strawberry cake and teapot on the table with a blue tablecloth

prompts: illustration in FLAT FOOD style, close-up, croissant on the plate, cup of tea on the windowsill // ice matcha latte, sunny street background, close-up

prompts: illustration in FLAT FOOD style, summer cocktails, beach, sea background // decadent ice cream sundae with whipped cream, nuts, and a cherry on top, on the white table, window background

prompts: illustration in FLAT FOOD style, decadent ice cream sundae with whipped cream, nuts, and a cherry on top, on the white table, window background // titamisu, close-up

Комментарий

В итоговых сериях изображений удалось передать изначальную концепцию. Первая серия объединяет в себе изображения основных блюд, а вторая — десертов и напитков. Модель смогла показать точное блюдо согласно заданным промптам.

Модель смогла отразить консистентность стиля и передать основные черты исходных изображений: — использование линий, геометрических форм — плоские цвета и отсутствие градиентов — минимализм и простота, отсутствие эффектов — двумерность, нет объема — общая палитра передает исходный стиль и атмосферу.

Однако, всё же прослеживаются некоторые различия: — в результирующих изображениях несмотря на наличие ярких оттенков, преобладающими всё же являются серые тона, что отличается от исходного датасета; такую разницу приходилось компенсировать за счет изменения промыта — указывание цвета фона, света, чтобы в совокупности выдавалось светлое изображение, но в целом это зависит также от задумки изображения, которое мы хотим получить. — изображения на выходе получились более детализированными, ближе к реалистичному за счет большего количества линий, создавая разницу с исходными изображениями.

В целом обученная модель выполнила изначальную цель и пригодна для дальнейших генераций изображений в таком стиле.

Ноутбук с кодом

Описание процесса обучения

Этапы обучения модели

1. Установка библиотек В начале идет подготовительный этап — проверка подключения GPU и загрузка необходимых библиотек для обучения модели.

2. Импорт датасета Я загружала свой дотаяет локальным образом и сохранила его в нужную директорию.

Исходный размер 2728x898

Превью изображений в загруженном датасете

3. Генерация подписей с помощью модели BLIP Далее подключается модель BLIP, которая автоматически делает подписи к файлам в директории, путем описания каждого изображения. Это позволят обучаемой модели лучше понимать содержание изображения. На выходе он создает файл со всеми подписями изображений.

4. Подготовка к обучению На этом этапе надо авторизоваться на Hugging Face для получения специального токена и дальнейшей выгрузке модели в облако. Далее идет настройка параметров, от которых зависит качество и время обучения модели. Конкретно в этом проекте время обучения вышло около 50 минут.

Исходный размер 2734x884

Настройка параметров обучения

5. Выгрузка модели на Hugging Face После того как модель полностью закончила обучение, её надо сохранить на Hugging Face.

6. Генерация Идет загрузка исходной модели Stable Diffusion XL и присоединение к этой модели весов LoRa. После идет генерация новых изображений с помощью промптов.

Исходный размер 2736x1162

Прописывание промпта для генерации изображения

Описание применения генеративной модели

В проекте применялись следующие генеративные модели:

Обучение модели

Расширение/корректировка промптов ChatGPT

Обучение генеративной сети стилю flat art

Этапы обучения модели