Original size 735x1024

Зверьки в тумане

PROTECT STATUS: not protected
31

Зверьки в тумане — это серия изображений, сгенерированных с помощью обученной нейросети Stable Diffusion

big
Original size 1024x631

Изображение, созданное при помощи предобученной сети

Мне очень нравится атмосфера «‎Ежика в тумане» Юрия Норштейна. Я захотела расширить вселенную мультфильма, представить, как бы выглядели другие истории и сказочные персонажи в исполнении мастера

В качестве изображений для обучения модели я взяла кадры из мультфильма

0

Результирующая серия изображений

Сначала я попросила сеть сгенерировать дом и людей

Original size 1012x1012
Original size 1018x867

Сеть часто изображала людей силуэтами, кутала в туман, как на референсных изображениях. Она использовала размытие, такие же блеклые, выбеленные цвета

0
0

Дальше я просила Stable Diffusion рисовать животных или сказочных существ. Для животных сеть часто использовала текстуры из мультфильма. Лица и мордочки сеть зачастую рисовала такими же острыми, как у оригинального Ежика

Original size 1024x892
Original size 1024x1009

Огонь и блики похожи на свечение костра в мультфильме

0
Original size 1024x1024
Original size 1024x1008
0

На сгенерированных картинках иногда можно увидеть пленочные дефекты. Они перекочевали из кадров мультика

Original size 1024x1024
Original size 1024x1008
Original size 1024x1024
Original size 1024x1024
Original size 1024x1024
0
Original size 1024x998
Original size 1024x1024

Персонажи часто выходили ежикоподобными

0

Сеть хорошо научилась создавать траву, потому что ее было много в референсных изображениях

0
0
Original size 1024x1012
0

В сгенерированных картинках удалось сохранить ощущение живой, ручной, карандашной графики

Original size 978x878
Original size 1024x743
0

Упс, на голове у птички выросли иголки, как у Ежика, а у чашки появилась мордочка!

Original size 1024x781
Original size 1024x958

Герои получились такими же воздушными и плюшевыми, как у Норштейна. Местами у них сохранились такие же удивленные эмоции, как у совы, ухающей в колодец в мультфильме. Есть ощущение, что все сгенерированные сюжеты происходят где-то в том же тумане, где бродил норштейновский Ежик

Original size 1024x1024

Ноутбук с кодом для обучения

Процесс обучения

Я обучала модель Stable Diffusion XL с использованием техники LoRA (Low-Rank Adaptation).

Сначала я проверила доступность GPU и установила необходимые зависимости. Затем я создала директорию для датасета и скопировала туда изображения. Датасет состоит из кадров «Ёжика в тумане». При помощи функции image_grid я отобразила несколько первых изображений из датасета, чтобы убедиться, что данные загружены корректно. Дальше я сгенерировала описания для каждого изображения с помощью модели BLIP (Bootstrapped Language-Image Pretraining). Это необходимо для обучения модели с использованием текстовых подсказок. Потом я создала файл metadata.jsonl, который содержит пути к изображениям и соответствующие подписи. После генерации подписей я удалила модель BLIP, чтобы освободить память. Дальше я настроила и запустила обучение модели Stable Diffusion XL. После обучения я сохранила модель на Hugging Face Hub.

При помощи обученной модели я преступила к генерации серии изображений. Для создания некоторых промптов я просила помощи у нейросети DeepSeek. У меня несколько раз заканчивалось бесплатное время GPU в Google Colab, поэтому я перезапускала модель в разных ноутбуках с разных аккаунтов (Прикрепила ссылки на оба).

Описание применения генеративной модели

Stable Diffusion — применялась для дообучения в целях генерации изображений в стиле мультфильма Юрия Норштейна

BLIP — применялась для генерации автоматических промптов к исходному датасету

DeepSeek — применялась для генерации некоторых промптов к итоговым изображениям

Original size 1847x300

Гиф создано из изображения, сгенерированного при помощи предобученной сети

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more