Бронзовое тело: обучение нейросети на скульптурной форме на Geograffee

Идея проекта

Проект посвящён исследованию скульптурной формы человеческого тела через призму материала — бронзы. В отличие от классической мраморной скульптуры, бронза позволяет передавать более динамичные и напряжённые формы, а также обладает выраженной текстурой и глубиной цвета.

Меня интересует не столько конкретная историческая школа, сколько сама материальность бронзы и то, как она влияет на восприятие тела. Скульптура в этом проекте рассматривается как переходное состояние между живым телом и объектом: форма сохраняет узнаваемость, но становится более абстрактной и пластической.

Цель проекта — обучить генеративную модель воспроизводить это состояние: передавать ощущение тяжести материала, плотности формы и выразительности позы.

Датасет

Исходный размер 4215x2697

Для обучения был собран датасет изображений бронзовых скульптур из открытых источников с разрешённой лицензией (Unsplash).

При отборе изображений учитывались следующие критерии:

— единый материал: бронза (тёмные, тёплые оттенки, металлический блеск); — наличие человеческой фигуры или её фрагментов; — выразительные позы и силуэты; — направленное освещение, подчёркивающее объём; — относительно простой фон (музейное пространство или нейтральная среда).

Изображения были приведены к квадратному формату и отобраны таким образом, чтобы сохранить визуальную консистентность датасета. Это позволило модели лучше выделить повторяющиеся признаки и сформировать устойчивое представление о стиле.

Исходный размер 1382x756

Обучение проводилось с использованием модели Stable Diffusion XL Base 1.0 и метода дообучения LoRA (Low-Rank Adaptation).

В ноутбуке реализованы следующие этапы:

— установка и настройка библиотек diffusers, transformers и accelerate; — загрузка предобученной модели Stable Diffusion XL; — подготовка датасета и указание директории с изображениями; — задание текстового промпта, описывающего обучаемый стиль; — запуск обучения с использованием скрипта train_dreambooth_lora_sdxl.py

Исходный размер 1024x1024

После завершения обучения LoRA-веса были подключены к базовой модели Stable Diffusion XL.

Генерация изображений выполнялась с использованием текстовых промптов, включающих обученный токен. Это позволяло вызывать выученный стиль.

Пример промпта:

«rodinform style, expressive bronze sculpture, human body, dramatic lighting, dark background»

Также использовался negative prompt для исключения артефактов (искажений анатомии, лишних элементов, текста).

Исходный размер 1024x1024

bronze sculpture in ARINA_BRONZE style, figure under strong wind, dramatic environment, emotional tension

В результате была получена серия изображений, объединённых единым визуальным языком.

Основные характеристики серии:

— выраженная бронзовая текстура и цвет; — акцент на пластике и силуэте тела; — использование контрастного освещения;

Анализ результатов

Сравнение с исходным датасетом показывает, что модель успешно усвоила ключевые признаки:

— материальность бронзы (цвет, блики, текстура); — выразительность поз; — работу света по поверхности.

При этом модель не копирует исходные изображения, а обобщает их характеристики. В результате появляются новые формы, которые сохраняют ощущение «скульптурности», но не привязаны к конкретным объектам.

Интересным эффектом является частичная абстракция формы: тело может упрощаться, терять детали, но сохранять общую пластику.

Описание применения генеративной модели

В проекте использовалась модель Stable Diffusion XL Base 1.0 с дообучением методом LoRA.

Обучение проводилось в среде Google Colab с использованием библиотеки diffusers и официального скрипта DreamBooth LoRA.

Цель применения — обучение модели на датасете бронзовых скульптур и генерация новой серии изображений в данном стиле.

Дополнительно генеративные инструменты (включая ChatGPT) использовались для структурирования текста и подготовки описания проекта.

https://colab.research.google.com/drive/1nblKf3xWTkmA33gCjfSjViaQw1v3Se-Y?hl=ru