Описание идеи

Мы с подругой часто обсуждаем работы друг друга, и меня давно завораживает эстетика ее стиля: лёгкий скетч с едва уловимыми акварельными переливами. Мне стало интересно: сможет ли нейросеть не просто имитировать технику, но и передать ту самую воздушность, которая делает её рисунки особенными? Этот вопрос стал отправной точкой моего проекта.

С помощью нейросети я обучаю LoRA-модель воспроизводить этот авторский почерк. Цель — создавать новые иллюстрации, сохраняя их уникальную атмосферу.

Исходные изображения для обучения

Описание обучения

Исходные изображения в количестве 10 штук были собраны в папку cher. Все они были вручную приведены к квадратному формату (1:1). Рисунки объединяла общая визуальная стилистика: воздушность, карандашные наброски, пастельная цветовая палитра с преобладанием мягких тонов.

Исходный размер 1080x770

Для каждого изображения требовалось текстовое описание, которое вместе с ключевой фразой стиля станет обучающим промптом. Вместо ручного написания я использовала модель BLIP (Salesforce/blip-image-captioning-base) — она автоматически сгенерировала краткие подписи к каждому снимку. Затем к этим описаниям был добавлен префикс photo collage in BRO’s style, чтобы модель усвоила, что именно эта фраза активирует нужный стиль.

Такой подход позволил получить качественный размеченный датасет без больших временных затрат.

Исходный размер 1634x998

Для обучения использовалась Stable Diffusion XL (SDXL) — одна из самых мощных открытых моделей генерации изображений. Чтобы адаптировать её к датасету, был выбран метод DreamBooth + LoRA. LoRA (Low-Rank Adaptation).

Исходный размер 1159x442

Серия полученных изображений

Исходный размер 1024x1024

Итог

В итоговой серии изображений представлены генерации, включающие как архитектуру, так и портреты.

Несмотря на то что для обучения использовалось всего 10 исходных изображений, нейросети удалось воспроизвести основные особенности стиля: ощущение лёгкого наброска и акварели. Во всех работах использована схожая пастельная цветовая гамма.

Однако при сравнении изображений человека заметна разница между отдельными портретами и тем, когда человек включён в композицию интерьера или экстерьера. В первом случае нейросеть справляется хуже: она добавляет более проработанные, крупные глаза. В то же время на более сложных композициях видна достаточная схожесть с оригиналом.

Использование ГенИИ

Оригинальные изображения, на которых обучалась нейросеть, принадлежат моей подруге.

Я использовала DeepSeek для помощи в навигации и в генерации кода/промптов.

Ссылка на код обучения в Google Collab

Обучение генеративной нейросети

Использование ГенИИ