Концепция
Проект направлен на обучение модели Stable Diffusion XL воспроизводить визуальный стиль мраморной скульптуры и применять его к новым изображениям. В основе используется метод дообучения LoRA, который позволяет адаптировать модель под конкретный художественный стиль без полного переобучения, что значительно снижает вычислительные затраты и упрощает процесс обучения.
Суть проекта заключается в том, что модель обучается на наборе изображений бюстов, скульптур и мраморных портретов, после чего она способна:
— Генерировать новые изображения скульптур по текстовому описанию — Переносить стиль мраморной статуи на обычные фотографии лиц
Таким образом, модель изучает ключевые особенности данного визуального стиля: текстуру камня, особенности освещения, глубину теней, форму лица и характер пластики скульптуры.
Источник изображений: Pinterest, поисковый запрос «marble bust sculpture face»
Проект демонстрирует, как современные генеративные модели могут не просто обрабатывать изображения, а осваивать художественные и материальные характеристики объектов и воспроизводить их в новых визуальных формах.
Процесс реализации
Формирование датасета изображений мраморных скульптур (бюсты, портреты, крупные планы лиц);
Предварительная обработка изображений: обрезка (crop) и приведение к единому размеру;
Создание файла metadata.jsonl с текстовыми подписями;
Подключение LoRA-адаптера к модели Stable Diffusion XL;
Генерация изображений по текстовым описаниям (prompt);
Применение режима img2img для стилизации фотографий;
Отбор итоговых изображений для анализа и представления результата.
Процесс обучения
Процесс обучения основывается на дообучении модели Stable Diffusion XL с использованием метода LoRA на подготовленном наборе изображений мраморных скульптур и соответствующих текстовых подписей.
В ходе обучения модель анализирует изображения и сопоставляет их с описаниями, постепенно выделяя характерные признаки мраморной скульптуры, такие как текстура камня, особенности освещения и пластика формы. Использование LoRA позволяет внедрить эти особенности в модель в виде отдельного адаптера без изменения её базовой структуры.
Обучение проходит в несколько итераций с сохранением промежуточных результатов, что позволяет отслеживать качество и корректировать параметры при необходимости. В результате формируется LoRA-адаптер, который может быть подключён к исходной модели и использован для генерации изображений и переноса стиля.
Исходные изображения для обучения
Для обучения использовлось 30 изображений мраморных скульптур: бюсты, портреты и крупные планы лиц с выраженной текстурой камня.
Перед обучением изображения проходят обработку: приводятся к квадратному формату и единому размеру.
Датасет собран вручную с платформы Pinterest по запросу «marble bust sculpture face»
Сгенерированные изображения
генерации по промпту
генерация по фото
генерация по фото
Результат
В результате дообучения модели Stable Diffusion XL с использованием метода LoRA был получен адаптер, позволяющий генерировать изображения в стиле мраморной скульптуры, а также применять данный стиль к фотографиям лиц. Модель успешно справляется как с генерацией изображений по текстовому описанию, так и с задачей стилизации в режиме img2img.
Комментарий
В процессе генерации модели удалось воспроизвести ряд характерных особенностей мраморной скульптуры.К наиболее успешно переданным элементам относятся:
— текстура мрамора и ощущение каменной поверхности; — мягкое рассеянное освещение, характерное для скульптур; — плавность форм и упрощённая пластика лица отсутствие ярких цветов и преобладание светлой, монохромной палитры
*в некоторых случаях могут наблюдаться незначительные артефакты или упрощения деталей, однако в целом модель демонстрирует устойчивое воспроизведение стиля и его ключевых визуальных признаков.




