концепция
каждый из нас может вспомнить, что в детстве мир ощущался по-другому, в своей определенной вселенной. Все эти идеи и мечты мы выражали в играх и на рисунках. детский рисунок — это есть выражение искренности, небрежности, которая умиляет, как будто в этих мазках и штрихах можно поймать момент счастья. Чтобы сохранить эту антуражность появилась идея перенести эти веселые небрежности в генеративную нейросеть, чтобы каждый мог окунуться на момент истинного счастья.
изображения для обучения
для обучения модели были собраны детские рисунки разных стилистик, а также разные изображения в этой стилистике (здания, люди, животные, растения — всё то, что нас окружает в повседневности).
серия изображений обученной модели
«picture in children style on white background, race car»
«picture in children style on white background, zoo (giraffe, birds, elephant)»
«picture in children style on white background, Porsche car»
1. «picture in children style on white background, funny bee» 2. «pencil drawing in children style, rude cat with hat and sunglasses»
детские рисунки имеют своеобразный стиль, яркие маски, асимметричную композицию, контрастные цвета, косые штрихи разной толщины. важно отметить, что дети в своих работах не создают прямой точный образ, но его можно считать по характерным признакам силуэта и формы, тем самым мы можем понять сюжет рисунка. такие приемы смогла перенять данная генеративная модель, создавая изображения с помощью таких же характерных приёмов.
«picture in children style on white background, cake with strawberries»
1. «picture in children style on white background, flowers on the background of the forest» 2. «picture in children style on white background, flowers with bag of Hermes»
«picture in children style on white background, dream of the child»
процесс обучения
- сбор данных, подготовка датасета
- настройка окружения
- конфигурация обучения
- авто-капционирование изображений (анализирует каждое изображение из датасета; генерирует текстовое описание (капцион;) пример: для детского рисунка ракеты → «a colorful drawing of a rocket»)
- настройка доступа к Hugging Face (подключение токена и сохранение его в кэш)
- запуск обучения
- сохранение и загрузка модели
вывод
проект показал, что генеративные нейросети могут выходить за рамки стандартных эстетик и воспроизводить сложные эмоциональные паттерны, такие как детская непосредственность и искренность.
данная модель позволяет сохранять магию детского восприятия и при этом масштабировать её для профессионального использования. это открывает новые возможности для брендов, которые хотят говорить с аудиторией на языке эмоций, а не просто продавать.
в эпоху гиперреализма и идеальных 3D-рендеров именно несовершенство детского рисунка становится конкурентным преимуществом — оно напоминает нам о человечности, искренности и радости творчества.
Во время создания проекта использовались 3 инструмента:
Stable Diffusion XL 1.0
BLIP (Bootstrapping Language-Image Pre-training)
DreamBooth + LoRA
Картинки-референсы: 60
Шагов: 500
Дополнительно использовались модели Gemini (для обработки кода)