Лица, которых не было // Обучение генеративной нейросети на Geograffee

Идея проекта

Константин Лекка, «Портрет бородача», 1851 // Василий Перов, «Портрет Ф. М. Достоевского», 1872

Этот стиль я выбрала не случайно. Мне всегда было интересно понять атмосферу старых портретов. Для меня они воспринимаются иначе, чем современные портреты. В портретах XVIII–XIX века нет живых эмоций, но при этом они кажутся более «сильными» и описывающими. Человек на таких картинах как будто существует вне времени — он не просто изображён, а зафиксирован как образ.

Мне стало интересно, можно ли научить нейросеть воспроизводить данный стиль с использованием каких-либо деталей. Для меня было важно не просто скопировать стиль, а передать сам принцип спокойствия, статичности, передать внимание к деталям, ощущение значимости фигуры. В какой-то момент я заметила, что все эти портреты построены очень схожим образом. В них используется одинаковый свет, похожая композиция, сдержанная цветовая гамма.

Так и появилась идея моего проекта. Я взяла классическую академическую портретную живопись и попробовала перенести её в цифровую среду через обучение модели.

Примеры портретов, на которых я обучала нейросеть

Процесс обучения нейросети

В данном проекте процесс обучения нейросети был реализован поэтапно в авторском ноутбуке на платформе Google Colab с использованием библиотеки diffusers и модели Stable Diffusion XL.

Было сделано 8 ключевых шагов в коде для выполнения задания.

Установка библиотек и настройка среды;
Импорт необходимых модулей и проверка GPU;
Подключение Google Drive и создание структуры проекта;
Загрузка и обработка исходного датасета;
Формирование текстовых описаний (metadata.jsonl);
Настройка параметров обучения;
Обучение модели с использованием LoRA;
Генерация изображений.

1. Установка библиотек и настройка среды

Исходный размер 979x114

2. Импорт необходимых модулей и проверка GPU

Исходный размер 604x390

3. Подключение Google Drive и создание структуры проекта

Исходный размер 1066x597

4. Загрузка и обработка исходного датасета

Исходный размер 618x638

5. Формирование текстовых описаний

Исходный размер 850x420

6. Настройка параметров обучения

7. Обучение модели с использованием LoRA

8. Генерация изображений

Исходный размер 1358x421

Исходный размер 1024x1024

Тест прошел успешно! Повторим успех?

1 и 2 генерация

Использованные промты:

«VARENASTYLE academic oil portrait of a young noblewoman, european portrait painting, 19th century, dark background, soft light, elegant white dress, museum painting»,
«VARENASTYLE academic oil portrait of an aristocratic man, european portrait painting, 19th century, black formal suit, dark background, soft light, museum painting»

На первых двух генерациях хорошо читаются ключевые черты выбранного стиля. Фигуры показаны в поясном или поколенном формате, позы спокойные, уравновешенные. Лицо и корпус становятся главным центром изображения, а фон не перетягивает внимание на себя. Это очень важно, потому что в академическом портрете акцент делается не на действии, а на самой фигуре человека, его статусе, характере и визуальном образе. В итоговых генерациях это ощущение действительно сохраняется.

3 и 4 генерация

«VARENASTYLE academic oil portrait of a woman in a red velvet dress, european classical portrait painting, 19th century, dark background, refined posture, museum painting»
«VARENASTYLE academic oil portrait of a gentleman with folded hands, european portrait painting, 19th century, deep brown background, soft light, museum painting»
«VARENASTYLE academic oil portrait of a noble lady with jewelry, european portrait painting, 19th century, elegant hairstyle, dark background, museum painting»
«VARENASTYLE academic oil portrait of a seated aristocrat, european classical oil painting, 19th century, formal clothing, soft dramatic light, museum painting»

5 и 6 генерация

Изображения не выглядят как фотографии, к которым просто применили художественный фильтр. Наоборот, в них присутствует эффект именно живописной поверхности. Мягкие переходы света и тени, приглушённая палитра, ощущение масляной техники, плавная моделировка лица и одежды. Особенно хорошо это видно в проработке ткани, складок платья, костюмов, аксессуаров и общих цветовых отношений. В серии преобладают бежевые, коричневые, кремовые, тёмно-зелёные и приглушённо-красные оттенки, что тоже соответствует исторической академической портретной традиции.

Если говорить о персонажах, то в итоговой серии модель смогла передать типажность образов. Женские портреты выглядят как образы светских дам или аристократок. Это видно по осанке, платьям, украшениям, причёскам и общей утончённости образа. Мужские портреты, наоборот, ближе к типу парадного или официального изображения. Строгий костюм, спокойная поза, уверенное выражение лица, сдержанная пластика фигуры. То есть модель воспроизводит не просто «мужчину» или «женщину». Она воспроизводит именно персонажа внутри определённой культурной и исторической визуальной системы. Это напрямую связано с концепцией проекта, потому что я хотела показать, что классический портрет формирует не только внешность человека, но и его социальный образ.

7 и 8 генерация

«VARENASTYLE academic oil portrait of a young woman with a black shawl, european portrait painting, 19th century, pale skin, dark background, museum painting»
«VARENASTYLE academic oil portrait of a distinguished bearded man, european classical portrait, 19th century, formal attire, painterly texture, museum painting»

Результаты хорошо соответствуют первоначальной идее проекта. Изначально я хотела исследовать, может ли нейросеть усвоить академический портретный стиль как целостную художественную систему. По итоговой серии генераций видно, что модель действительно переняла несколько основных закономерностей: тип композиции, характер света, исторический костюм, общий тон живописной поверхности и атмосферу музейного портрета. Конечно, нейросеть не копирует какую-то одну картину и не повторяет конкретного художника, но она создаёт убедительные вариации внутри выбранной традиции. Именно это и было целью проекта.

Описание применения генеративной модели

В рамках проекта использовались следующие инструменты:

(1) Stable Diffusion XL (генеративная модель); (2) Google Colab (среда разработки и обучения); (3) Hugging Face (доступ к модели и training script); (4) Python-библиотеки diffusers, transformers, accelerate; (5) ChatGPT (помощь в разработке структуры кода, настройке параметров и написании текстовой части проекта).

Ссылка на код

*тык*

Ссылка на модель Stable Diffusion

*тык*