обучение нейросети собственному стилю рисования на Geograffee

идея

В рамках курса нам было необходимо обучить модель Stable Diffusion на основе собранного архива данных. Только увидев задание, я сразу поняла, что хочу попробовать обучить нейросеть своему стилю рисования. Нейросети — спорная для художников тема, так что брать чьи-то чужие работы мне не хотелось, а узнать, что модель увидит в моих рисунках, показалось очень интересной идеей.

Собрать датасет было не сложно, так как рисую много, практически каждый день. Итак, для обучения модели был собран архив из 191 картинки.

использованные данные

примеры изображений из датасета

Исходный размер 3086x2406

Большая часть картинок — наброски, однако были и цветные изображения. Не все рисунки оказались хорошо обработаны, на некоторых фото видны мои пальцы и окружение. В итоге это забавно отразилось на модели.

процесс обучения

Для обучения модели был использован код, предоставленный преподавателем. Первые попытки работы в google colab не увенчались успехом, так как все загружалось крайне медленно и программа ломалась. Перейдя в kaggle, все получилось с первого раза.

Kaggle дает возможность загрузить датасет прямо на сайт, что я и сделала. Далее модель BLIP автоматически сгенерировала промпты для каждого из изображений.

Финальным шагом стало использование технологии LoRA. Программа загружала данные полтора часа, самым сложным оказалось дождаться окончания загрузки и не дать компьютеру погаснуть.

Исходный размер 1358x928

часть кода с процессом обучения

финальные генерации

В ходе генерации изображений я экспериментировала, использовала разные чекпоинты и настройки. Первый результат оказался достаточно нечетким, однако он в некоторой степени напоминал мои наброски.

Исходный размер 3720x3720

«drawings in NEPIROG style, portrait of a girl»

Однако, выставив предыдущий чекпоинт, результат понравился еще меньше: генерации были больше похожи на «классический» стиль ИИ-изображений и имели мало схожего с моими рисунками.

«drawings in NEPIROG style, sad girl with a sandwich», «drawings in NEPIROG style, girl in New-York»

Исходный размер 3720x3720

«drawings in NEPIROG style, sandwich, colorful»

Вернув модель к более обученному чекпоинту, я стала генерировать дальше. Постепенно результат стал нравиться мне больше. Несмотря на то, что изображения были более абстрактными, благодаря некой схожести штриховки и мазков краски мне было интересно работать именно с этой версией модели.

Исходный размер 3720x3720

«drawings in NEPIROG style, sandwich, colorful»

На некоторых изображениях видно, как модель повторяет склейку страниц скетчбука, фон и пальцы. Это показалось мне смешным и правдивым, насколько это возможно в рамках нейросети, так что я не стала как-то это менять.

Исходный размер 3720x3720

«drawings in NEPIROG style, portrait of a girl in supermarket, colorful»

Исходный размер 3720x3720

«drawings in NEPIROG style, fish, colorful»

Исходный размер 3720x3720

«drawings in NEPIROG style, girl»

«drawings in NEPIROG style, portrait of an old man, colorful»

«drawings in NEPIROG style, supermarket, colorful»

Исходный размер 3720x3720

«drawings in NEPIROG style, dog»

«drawings in NEPIROG style, cat», «drawings in NEPIROG style, bird, colorful»

Исходный размер 3720x3720

«drawings in NEPIROG style, forest»

итог

Несмотря на то, что мне не удалось идеально обучить нейросеть своему стилю, результат все равно кажется мне достаточно интересным. Возможно, тот факт, что я вижу мало схожего в генерациях со своими рисунками, это и хороший знак?

ссылка на блокнот