Исходный размер 1140x1600

Наивные дудлы: обучение нейросети рисовать как ребёнок

1

Наивные дудлы:

обучение нейросети рисовать как ребёнок

Идея проекта

Цель этого проекта — дообучить генеративную модель Stable Diffusion XL на собственных рисунках в стиле наивных контурных дудлов, чтобы она могла генерировать новые изображения в том же стиле. Задача интересна тем, что стиль дудлов противоположен тому, на чём обучена базовая модель: SDXL создана для фотореалистичных и детализированных изображений, а нам нужна нарочитая простота и минимализм.

Наивные дудлы: обучение нейросети рисовать как ребёнок

Идея проекта

Что если научить мощную нейросеть забыть всё, что она знает о реалистичном рисовании, и вместо этого рисовать так, как это делает ребёнок? Простые чёрные линии на белом листе. Домик с трубой. Кот с усами. Солнце со спиральными лучами.

Цель этого проекта — дообучить генеративную модель Stable Diffusion XL на собственных рисунках в стиле наивных контурных дудлов, чтобы она могла генерировать новые изображения в том же стиле. Задача интересна тем, что стиль дудлов противоположен тому, на чём обучена базовая модель: SDXL создана для фотореалистичных и детализированных изображений, а нам нужна нарочитая простота и минимализм.

Исходные изображения для обучения

Датасет состоит из 22 авторских рисунков, выполненных вручную. Все изображения выдержаны в едином стиле:

— Чёрная контурная линия на белом фоне — Отсутствие заливки, цвета, теней и градиентов — Простые, узнаваемые формы — объекты переданы минимальным количеством линий — Наивная стилистика — нарочитая непропорциональность, характерная для детских рисунков — Декоративные элементы — спирали (солнце), завитки (дым из трубы), волнистые линии (трава, вода)

Среди объектов датасета: домик с трубой и дымом, машинка с выхлопом, солнце со спиральным центром, цветок с лепестками, кот с бантиком, собака, лягушка, бабочка, облако с молнией, замок с башнями, флажок, дерево, гриб, яблоко, человечки, долька арбуза, кораблик, ананас, клубника, ёлки со звёздами.

Все изображения были ресайзены в квадрат 1024×1024 пикселей (нативное разрешение SDXL) с сохранением пропорций и белым фоном.

(см. папку dataset_examples/ — 10 примеров из датасета)

Процесс обучения

#

Метод: DreamBooth + LoRA

Для дообучения использован метод LoRA (Low-Rank Adaptation) в сочетании с подходом DreamBooth. LoRA — это эффективный метод файнтюна, при котором основные веса модели замораживаются, а обучаются лишь небольшие низкоранговые матрицы-адаптеры, встроенные в слои внимания (attention layers) UNet.

Преимущества LoRA: — Размер обученных весов — всего ~4 МБ (вместо ~6.5 ГБ полной модели) — Быстрое обучение (11.5 минут на 500 шагов) — Возможность плавно регулировать силу влияния стиля через параметр lora_

Ссылка на датасет и вывод. Jupyter-ноутбук, скрипты обучения, Lora