01 Концепция проекта
Центральная идея проекта — исследование акварели как визуального языка и попытка перенести её «живую» природу в цифровую среду. Мне было важно, чтобы модель не просто стилизовала изображения под акварель, а воспроизводила её внутреннюю логику: мягкость растекания пигмента, прозрачность слоёв, случайность пятен и взаимодействие краски с фактурой бумаги.
02 Исходные изображения
Для обучения модели был собран датасет из 50 изображений акварельных работ — пейзажей и натюрмортов. При отборе изображений я ориентировалась не столько на сюжет, сколько на разнообразие визуальных свойств самой акварели. В датасет вошли работы, демонстрирующие разные степени прозрачности и насыщенности цвета, характер растекания пигмента, мягкие градиенты, а также более выраженные границы пятен, возникающие при высыхании краски.
Особое внимание уделялось фактуре: были выбраны изображения, в которых заметна текстура бумаги и взаимодействие с водой — разводы, подтёки, неоднородность заливки. Это позволило модели лучше уловить материальность техники, а не только её цветовую палитру.
Также важно было сохранить баланс между разными композициями и объектами (пейзажи, натюрморты), чтобы модель не привязывалась к конкретным сюжетам, а обучалась именно стилю как совокупности визуальных признаков.
03 Процесс обучения модели
Сначала я установила все необходимые библиотеки и подготовила рабочее окружение для обучения модели. После этого загрузила датасет с акварельными изображениями и организовала его в нужной структуре директорий, чтобы он корректно использовался в процессе обучения.
Следующим шагом стало автоматическое создание текстовых описаний для изображений. Для каждого изображения была сгенерирована подпись, которая затем использовалась как caption. Это позволило связать визуальные особенности акварели с содержанием сцены и помогло модели лучше понять, как стиль проявляется в разных объектах — пейзажах, предметах и композициях.
Далее я перешла к основной части проекта — обучению модели на базе Stable Diffusion 1.5 с использованием метода LoRA. Такой подход позволил не переобучать всю модель целиком, а аккуратно «встроить» новый стиль, сохранив при этом её базовые знания. В процессе обучения был введён специальный токен wtrcl style, который стал триггером для активации акварельной стилизации при генерации.
После завершения обучения я подключила полученные LoRA-веса к базовой модели и перенесла её на GPU для ускорения работы. На этом этапе началась генерация изображений с использованием обученного стиля. Я экспериментировала с промптами, чтобы проверить, насколько стабильно и гибко модель воспроизводит акварельную эстетику в разных сюжетах.
05 Результаты генераций
prompt = «a serene mountain lake at sunrise, in wtrcl style, soft watercolor edges, paint drips, visible paper texture, highly detailed illustration, artistic masterpiece»
prompt = «a bouquet of peonies in a glass vase, transparent water, sunlight coming through a window, in wtrcl style, delicate petals, soft edges, beautiful composition, watercolor on textured paper»
prompt = «a close up portrait of a majestic owl with bright eyes, in wtrcl style, intricate feather details, soft watercolor wash background, vibrant color palette, masterpiece, artistic rendering»
prompt = «an old european street cafe, cobbled road, flowers on balconies, in wtrcl style, loose ink sketches, expressive brushstrokes, colorful paint splashes, watercolor drips, high detailed art»
06 Описание
Итогом работы стала серия из 17-ти сгенерированных изображений, объединённых общей акварельной эстетикой и визуальной логикой, заложенной в процессе обучения модели.
В ходе генерации стало заметно, что модель уверенно воспроизводит ключевые особенности акварели: мягкие переходы цвета, прозрачность слоёв и характерное «растекание» пигмента. Особенно хорошо это проявилось в пейзажах — небо, вода и растительность часто формируются через плавные градиенты и полупрозрачные пятна, что визуально приближает изображения к традиционной технике.
Интересно, что в зависимости от сюжета меняется и характер стилизации. Например, в натюрмортах чаще появляются более чёткие цветовые пятна и локальные акценты, тогда как в пейзажах модель склонна к большей размытости и обобщению формы. Это говорит о том, что нейросеть не просто накладывает единый эффект, а адаптирует стиль под содержимое сцены.
Также модель довольно стабильно воспроизводит текстуру бумаги и лёгкую неоднородность заливки, что добавляет изображениям ощущение материальности.
Мне было важно понять, сможет ли модель уловить не только внешний вид акварели, но и её поведение — ту самую непредсказуемость и текучесть. В целом, результат можно считать успешным: модель не просто имитирует акварель как фильтр, а в определённой степени воспроизводит её как процесс, что и было основной задачей проекта.
07 Описание применения генеративной модели
Stable Diffusion v1.5 Использовалась как основная генеративная модель, на базе которой создавались новые изображения.
LoRA Использовались для дообучения базовой модели под конкретный визуальный стиль. LoRA позволила сделать это быстрее и с меньшими вычислительными затратами, обучая только небольшое количество параметров, а не всю модель целиком.