Трансформация портрета в образ мраморной статуи с помощью Stable Diffusion на Geograffee

Концепция

Проект направлен на обучение модели Stable Diffusion XL воспроизводить визуальный стиль мраморной скульптуры и применять его к новым изображениям. В основе используется метод дообучения LoRA, который позволяет адаптировать модель под конкретный художественный стиль без полного переобучения, что значительно снижает вычислительные затраты и упрощает процесс обучения.

Суть проекта заключается в том, что модель обучается на наборе изображений бюстов, скульптур и мраморных портретов, после чего она способна:

— Генерировать новые изображения скульптур по текстовому описанию — Переносить стиль мраморной статуи на обычные фотографии лиц

Таким образом, модель изучает ключевые особенности данного визуального стиля: текстуру камня, особенности освещения, глубину теней, форму лица и характер пластики скульптуры.

Источник изображений: Pinterest, поисковый запрос «marble bust sculpture face»

Проект демонстрирует, как современные генеративные модели могут не просто обрабатывать изображения, а осваивать художественные и материальные характеристики объектов и воспроизводить их в новых визуальных формах.

Процесс реализации

Формирование датасета изображений мраморных скульптур (бюсты, портреты, крупные планы лиц);
Предварительная обработка изображений: обрезка (crop) и приведение к единому размеру;
Создание файла metadata.jsonl с текстовыми подписями;
Подключение LoRA-адаптера к модели Stable Diffusion XL;
Генерация изображений по текстовым описаниям (prompt);
Применение режима img2img для стилизации фотографий;
Отбор итоговых изображений для анализа и представления результата.

Процесс обучения

Процесс обучения основывается на дообучении модели Stable Diffusion XL с использованием метода LoRA на подготовленном наборе изображений мраморных скульптур и соответствующих текстовых подписей.

В ходе обучения модель анализирует изображения и сопоставляет их с описаниями, постепенно выделяя характерные признаки мраморной скульптуры, такие как текстура камня, особенности освещения и пластика формы. Использование LoRA позволяет внедрить эти особенности в модель в виде отдельного адаптера без изменения её базовой структуры.

Обучение проходит в несколько итераций с сохранением промежуточных результатов, что позволяет отслеживать качество и корректировать параметры при необходимости. В результате формируется LoRA-адаптер, который может быть подключён к исходной модели и использован для генерации изображений и переноса стиля.

Исходные изображения для обучения

Исходный размер 1310x1224

Для обучения использовлось 30 изображений мраморных скульптур: бюсты, портреты и крупные планы лиц с выраженной текстурой камня.

Перед обучением изображения проходят обработку: приводятся к квадратному формату и единому размеру.

Датасет собран вручную с платформы Pinterest по запросу «marble bust sculpture face»

Сгенерированные изображения

генерации по промпту

генерация по фото

Результат

В результате дообучения модели Stable Diffusion XL с использованием метода LoRA был получен адаптер, позволяющий генерировать изображения в стиле мраморной скульптуры, а также применять данный стиль к фотографиям лиц. Модель успешно справляется как с генерацией изображений по текстовому описанию, так и с задачей стилизации в режиме img2img.

Комментарий

В процессе генерации модели удалось воспроизвести ряд характерных особенностей мраморной скульптуры.К наиболее успешно переданным элементам относятся:

— текстура мрамора и ощущение каменной поверхности; — мягкое рассеянное освещение, характерное для скульптур; — плавность форм и упрощённая пластика лица отсутствие ярких цветов и преобладание светлой, монохромной палитры

*в некоторых случаях могут наблюдаться незначительные артефакты или упрощения деталей, однако в целом модель демонстрирует устойчивое воспроизведение стиля и его ключевых визуальных признаков.

Код