Обучение нейросети на Geograffee

Идея проекта

Моя хотелка изъявила желание обучить нейросеть рисовать картинки так же хорошо, как это делаю я. Цель проекта — проверить, насколько точным и качественным получится результат, если я скормлю свои рисунки нейросети, сможет ли она работать за меня.

Я собрала папку из 10 моих рисунков размером 512×512 пикселей. Их объединяет только то, что они сделаны мной. Нейросети придется постараться чтобы сделать что-то похожее.

Процесс

Ссылка на папку с исходниками: ссылка Список используемых ресурсов: — Stable Diffusion — обучение генеративной нейросети под стиль своих картинок; — Google Colab — выполнение кода и генераций; — Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт — Clip Studio Paint — редактирование своих изображений под один формат.

Для начала нужно было установить необходимые библиотеки (Diffusers, DreamBooth и т.д) и загрузить изображения со своего устройства для дальнейшей работы. Сделала я это через встроенную в Google Colab функцию, а затем проверила, что изображения загрузились.

Исходный размер 1148x630

загрузка библиотек

Исходный размер 1388x795

проверка загрузки изображений

Далее нужно было создать подписи к своим изображениям и посмотреть, насколько точно понимает их нейросеть. Выводы неутешительные, нейросеть недостаточно умная и в половине изображений увидела чёрт знает что.

Исходный размер 1222x465

фрагмент кода

Далее надо было залогиниться в Hugging Face и начать тренировать модель. Максимальный шаг тренинга выставлен 1000, чтобы нейросеть могла лучше изучить изображения. Процесс обучения занял около полутора часов.

Исходный размер 703x580

обучение нейросети

Теперь можно было приступать к генерации изображений. Первый использованный промпт: dog, forest

Исходный размер 1024x1024

генерация нейросети (я в ужасе)

Исходный размер 1324x1114

оригинал картинки, на который опиралась нейросеть (?). Да, она изначально увидела в коте собаку

Затем я попросила сгенерировать мне картинку по следующему промпту: hugging people, green background. И я все еще в ужасе.

Исходный размер 1024x1024

генерация нейросети…

мои изображения

Следующий промпт вернул мне веру в способность нейросети: man, sword, red background Результат получился неплохим, но только потому, что я, по сути, дала промпт почти идентичный тому, как сама нейросеть распознала рисунок.

Исходный размер 1024x1024

генерация нейросети

Исходный размер 1816x1908

мое изображение

На данный момент мне сложно сказать, что нейросеть может делать что-то кроме мазни, но, по моему скромному мнению, что-то общее у генераций и моих изображений все же прослеживается (например, неровные линии, какие-то эффекты поверх работы), а значит, задача по копированию стиля с горем пополам, но выполнена. Использовать это чудо техники я, конечно, не буду, да и работать оно за меня не сможет. И вообще, лучше все делать своими руками, потому что ручной труд это круто.

Ссылка на блокнот с кодом