Наивные дудлы:
обучение нейросети рисовать как ребёнок
Идея проекта
Цель этого проекта — дообучить генеративную модель Stable Diffusion XL на собственных рисунках в стиле наивных контурных дудлов, чтобы она могла генерировать новые изображения в том же стиле. Задача интересна тем, что стиль дудлов противоположен тому, на чём обучена базовая модель: SDXL создана для фотореалистичных и детализированных изображений, а нам нужна нарочитая простота и минимализм.

Наивные дудлы: обучение нейросети рисовать как ребёнок
Идея проекта
Что если научить мощную нейросеть забыть всё, что она знает о реалистичном рисовании, и вместо этого рисовать так, как это делает ребёнок? Простые чёрные линии на белом листе. Домик с трубой. Кот с усами. Солнце со спиральными лучами.
Цель этого проекта — дообучить генеративную модель Stable Diffusion XL на собственных рисунках в стиле наивных контурных дудлов, чтобы она могла генерировать новые изображения в том же стиле. Задача интересна тем, что стиль дудлов противоположен тому, на чём обучена базовая модель: SDXL создана для фотореалистичных и детализированных изображений, а нам нужна нарочитая простота и минимализм.
Исходные изображения для обучения
Датасет состоит из 22 авторских рисунков, выполненных вручную. Все изображения выдержаны в едином стиле:
— Чёрная контурная линия на белом фоне — Отсутствие заливки, цвета, теней и градиентов — Простые, узнаваемые формы — объекты переданы минимальным количеством линий — Наивная стилистика — нарочитая непропорциональность, характерная для детских рисунков — Декоративные элементы — спирали (солнце), завитки (дым из трубы), волнистые линии (трава, вода)
Среди объектов датасета: домик с трубой и дымом, машинка с выхлопом, солнце со спиральным центром, цветок с лепестками, кот с бантиком, собака, лягушка, бабочка, облако с молнией, замок с башнями, флажок, дерево, гриб, яблоко, человечки, долька арбуза, кораблик, ананас, клубника, ёлки со звёздами.
Все изображения были ресайзены в квадрат 1024×1024 пикселей (нативное разрешение SDXL) с сохранением пропорций и белым фоном.
(см. папку dataset_examples/ — 10 примеров из датасета)
Процесс обучения
#
Метод: DreamBooth \+ LoRAДля дообучения использован метод LoRA (Low-Rank Adaptation) в сочетании с подходом DreamBooth. LoRA — это эффективный метод файнтюна, при котором основные веса модели замораживаются, а обучаются лишь небольшие низкоранговые матрицы-адаптеры, встроенные в слои внимания (attention layers) UNet.
Преимущества LoRA: — Размер обученных весов — всего ~4 МБ (вместо ~6.5 ГБ полной модели) — Быстрое обучение (11.5 минут на 500 шагов) — Возможность плавно регулировать силу влияния стиля через параметр lora_




