Обучение генеративной нейросети Stable Diffusion под стиль JELLY ART на Geograffee

Концепция проекта

Jelly Art (или Jelly Style) — это современный стиль цифрового рисования, который стал популярным в 2020-х годах благодаря соцсетям.

Изначально я услышала об этом стиле рисования через художницу с ником Purrika, которая является основоположником стиля. Её работы стали популярны в соцсетях, что породило множество туториалов и огромное желание других художников научиться рисовать в таком визуально приятном стиле.

Визуал работ в Jelly Style для меня стал одним из любимых художественных стилей, однако я не являюсь художником и для реализации подобных работ мне понадобилось бы много времени обучения. Так и родилась идея создать ИИ, который мог бы помогать создавать картинки в стиле Jelly!

Примеры исходных изображений

Исходный размер 4096x1548

Я подобрала 70 рисунков в Jelly стиле, которые показались мне наиболее удачными на Pinterest. Большая часть изображений состоит из портретов в анфас, что является одной из черт стиля. Это в дальнейшем также скажется на результирующих изображениях моей модели.

Исходный размер 4096x1548

Характеристики стиля

Основными отличительными чертами Jelly Art Style являются: • полуреализм • большие глаза • пухлые губы • румянец • блёстки и сверкающие детали • зачастую пирсинг • обилие аксессуаров • лицо как правило направлено прямо, портреты

Процесс обучения

При первой попытке обучения я попробовала выставить 500 шагов обучения, как это было указано у преподавателя, однако позже переучила модель на 600 шагах, в надежде лучшего результата. Проблем при обучении не возникло, в общей сложности обучение заняло чуть больше часа.

Описания картинок вышли неплохими, в большинстве встречалось одно и то же слово «girl», что я использовала при последующей генерации.

Основная проблема при обучении, с последствиями которой я столкнулась позже, — это формат изображений. Из-за необходимости иметь квадратное изображение определённого размера мне пришлось буквально сжать изображение, исказив его. Результирующие картинки тоже генерировались сжатыми, поэтому для лучшего визуала я немного растянула их финальный вариант в проекте.

Исходный размер 825x128

Блокнот с кодом

Модель на Hugging Face

Результирующие изображения

Исходный размер 1290x796

Изначально я использовала слово «collage» в промпте, опираясь на код преподавателя в лекции. Однако результаты получались очень детальными. Это не плохо, соответствует стилю, однако смотрелось немного однотипно. Также я выставила 25-30 шагов для этих генераций.

Исходный размер 1290x520

На картинках снизу и сверху я начала экспериментировать и выставлять большее число шагов, дошла до 50. Также я поменяла слово «collage» в промпте на «art». Мне хотелось более лаконичного и сглаженного результата. В целом, получилось не плохо, однако с рисованием рук и животных у нейросети всё ещё проблемы. Особенно мне понравилась девушка с вишнями, оттенок глаз и румян с мокрым эффектом отлично попадают в «желейную» стилистику.

Промты слева направо:

• art in JELLY style, little girl with blond hair and dark goth makeup and black cat • art in JELLY style, girl in a white hat • art in JELLY style, little girl with red eyes and cherries • art in JELLY style, girl with a black bow • art in JELLY style, girl with white hair • photo collage in JELLY style, a drawing of a girl with long curly yellow hair and glasses

Исходный размер 1290x517

Снизу — мои три любимые сгенерированные картинки, на мой взгляд получившиеся лучше всего. Нейросеть хорошо справилась с рисованием очков на первой картинке, даже сама добавила рожки и кресты с подвеской-сердцем, хотя это не было явно указано в промпте. Также картинка минималистична — отсутствуют лишние детали.

Во второй картинке мне понравилось, что лицо чуть отдалено от зрителя, а стилистика соответствует готическому промпту.

Третья отлично изображает девушку-ангела: отсутствуют явные артефакты, всё выглядит выдержанно в стилистике.

Промты слева направо:

• photo collage in JELLY style, a devil girl with red skin and dark hair and round glasses • photo collage in JELLY style, a goth girl with crosses and black hair • photo collage in JELLY style, an angel girl with white skin and white hair and blue eyes and halo

Исходный размер 1290x531

Далее я решила немного поэкспериментировать, написав промпт для генерации мальчика, а не девочки, как до этого. Результат получился хорошим: артефакты минимальны, лицо хоть и осталось достаточно миловидным, но как будто отражает меньшее количество макияжа. Размер глаз и губ, как и всегда в Jelly Style, — большой.

Во второй раз мне стало интересно создать темнокожего персонажа. Нейросеть хорошо справилась с задачей, однако есть незначительные артефакты в аксессуарах.

Промты слева направо:

• photo collage in JELLY style, a drawing of a boy with short purple hair and stars in eyes • photo collage in JELLY style, a girl with dark brown skin and dark hair and yellow eyes

Исходный размер 873x525

Конечно же, мне захотелось посмотреть, как нейросеть справится с задачей изображения персонажа в разных позах и ракурсах, помимо портретного. Для этого я написала два промпта: «девушка, сидящая в парке» и «девушка, сидящая на стуле». Так как в моём датасете было мало изображений в полный рост, я сомневалась в качестве результата. Однако всё получилось очень даже неплохо. Единственное, что меня не устроило во втором фото — наличие третьей ноги, почему-то растущей из медведя.

Промпты слева направо:

• art in JELLY style, girl with headphones sitting with a book in the park • art in JELLY style, goth girl with black hair sitting with a teddy bear on the chair

Исходный размер 879x520

Эксперименты продолжились увеличением количества персонажей на одной картинке. Изначально получалось не очень качественно: нейросеть путалась в цветах волос, перемешивала тела.

Промпты слева направо:

• art in JELLY style, three girls with black hair, red hair and blond hair • art in JELLY style, three girls with black hair, red hair and blond hair in dress • art in JELLY style, two girls with black hair and red hair

Исходный размер 1290x486

Спустя некоторое время попыток генерации я получила три более-менее хороших варианта, один из которых — на обложке проекта. Безусловно, нейросети ещё есть над чем работать в плане прорисовки тел, однако это максимально качественный результат на данный момент.

Промпты слева направо:

• art in JELLY style, three girls with black hair, red hair and blond hair in dress • art in JELLY style, three girls with black hair, purple hair and grey hair in different dress

Исходный размер 1284x683

Были и смешные попытки генерации, например внезапные очки из кота или длинношеие сиамские близняшки.

Исходный размер 1277x681

Выводы по результатам

Оценивая получившийся результат, я думаю у меня получилось хорошая модель, которая будет полезна пользователям интернета, которые любят Jelly стиль. Она проста в использовании и выдаёт достаточно качественный результат. Безусловно, для идеальной работы такой нейросети необходим больший объём материала для обучения и большие мощности. Однако, я думаю jelly_draw_LoRA тоже найдет своё применение в мире нейросетей!

В проекте использованы:

Hugging Face — получение токена для обучения нейросети, загрузка полученной модели на сайт. Stable Diffusion XL — обучение генеративной нейросети под свой стиль. Deepseek — форматирование, структирирование текста. Kaggle — выполнение кода и генераций.

Описание применения генеративной модели

Stable Diffusion XL (SDXL) была использована для обучения генеративной нейросети под свой стиль в не коммерческих целях.

https://huggingface.co/docs/diffusers/main/en/api/pipelines/stable_diffusion/stable_diffusion_xl