Исходный размер 756x1024

«Застывший силуэт, мерцающий свет…»

Проект принимает участие в конкурсе

«Застывший силуэт, мерцающий свет…»

— Три дня дождя, «Хлорка и ваниль»

Идея для проекта была придумана после посещения концерта группы Три Дня Дождя. В ходе выступления получилось много красивых фотографий в эстетике концерта — дым, инструменты, свет, толпы и силуэты музыкантов.

Так родилась мысль обучить нейросеть атмосфере рок-концерта — его эстетике и настроению. Ведь то, что мы чувствуем в толпе фанатов любимой группы, сложно передать словами — это дериализация и эфемерность момента. Есть только мы и исполнитель и ничего вокруг. Нейросеть как раз позволяет уловить эту грань между реальностью и сценой, создавая образы, которые способны донести захватывающие и немного таинственные чувства до зрителя.

Исходный размер 1280x413

Исходные изображения

Для начала работы над проектом были отобраны фотографии из личных фотоархивов с нескольких разных концертов. При этом, чтобы избежать спорных моментов с изображениями людей и правом интеллектуальной собственности, выбирались исключительно фотографии, где-либо видны только силуэты артистов, либо толпа в общем, без изображения конкретных лиц. Нужна была лишь передача общего настроения концерта. Основой датасета также стали и более абстрактные фото лучей света, тумана и инструментов.

Всего фотографий для датасета 64

Исходный размер 4354x2172

Часть фотографий из датасета для обучения

В ходе первого обучения стало понятно, что для более четкого обучения нужно расширять датасет с фотографиями, поэтому в него также были добавлены стоковые фотографии с Wikimedia с пометкой «no restrictions» и удовлетворяющие общей стилистике личных фотографий.

Процесс обучения

Сначала в Google colab были установлены необходимые для работы библиотеки, а потом загружены все фотографии из датасета. Также использовался режим превью, чтобы убедиться в корректности загрузки.

0

Дальше происходила настройка модели BLIP, создание метаданных и очистка памяти от временных моделей.

В качестве префикса было выбрано утверждение «photo in ROCKCONCERT aesthetic style», выделение капсом для более ясного понимания нейросетью.

0

Дальше был самый долгий процесс — обучение модели, добавление ключа с HaggingFace и выставление значений. Для первого раза были выставлены значения на 512 пикселей в 500 шагов с чекпоинтом 250, в таком режиме модель обучалась около 43 минут на 42 фотографиях.

0

Первое обучение

После обучения в качестве первых промптов были выбраны более стандартные варианты, чтобы проверить насколько хорошо обучилась нейросеть. Они составлялись по принципу префикса «photo in ROCKCONCERT aesthetic style» и самого запроса:

— A crowd at a concert films the stage on their phones, a view from behind the stage — Drummer playing double bass, close-up on drumsticks — Empty stage — Female guitarist on stage — Blue and purple stage lights reflecting on floor — Singer screaming into microphone, raw emotion

Исходный размер 3136x1024

После первых генераций стало ясно, что возникли проблемы с изображением людей, они скорее вызывали эффект зловещей долины из-за неправильных пропорций тела и излишних частей инструментов в руках. Отдельная проблема возникла с женщинами, так как в первоначальном датасете их не хватало. Также возникли проблемы с генерацией пустой сцены без людей. Однако, нейросеть достаточно хорошо сгенерировала толпу для первого раза, а также хорошо уловила стилистику освещения, дымки, бликов, лучей и инструментов. Чрезмерная гиперболизация лучей показалась даже интересным ходом, который захотелось оставить.

Исходный размер 3136x1024

После этого в датасет были добавлены 12 фотографий со стоков, где точнее были изображены силуэты женщин и людей, разные ракурсы толпы и сцены с инструментами. Далее было запущено переобучение на 1024 пикселя и 1000 шагов. Это заняло куда больше времени не только из-за 5-ти часовой генерации, но и из-за лимитов GPU на платформе в Google Colab.

Результаты второго обучения

1. drummer behind the kit, arms in motion, sticks in the air, intensity 2. silhouette of crowd against bright stage lights, fog, anonymous figures

С переобучением результаты стали явно лучше и интереснее, но идеала так и не достигли. Первые генерации после 2 обучения все также были на пробу изображения музыкантов и толпы. Стоит отметить, силуэты людей правда стали ближе к реальности, к рукам барабанщика не прилипала ручка от гитары, получилось сгенерировать пустую сцену с микрофоном. Проблема которая возникала — иногда ключевой кадр смещался вниз и на генерациях половину пространства сверху занимали только лучи.

1. female guitarist on stage 2. crowd at a concert raising their hands, euphoric atmosphere

Исходный размер 3178x1024

1. single spotlight on microphone stand, empty stage 2. bass player headbanging, long hair flying 3. view from behind the drummer

1. view from the crowd, hands holding phones recording the stage, blurry 2. crowd surfing, hands reaching up, chaotic energy, motion blur

В целом, такой результат генераций устраивал, он достаточно передавал атмосферу, поэтому после более стандартных генераций пришло время пробовать добавлять что-то необычное. Итог приятно порадовал.

Финальные генерации по стилю

Сначала была попытка гиперболизировать толпу и сделать ее намного больше сцены. Второй генерацией стало лицо с добавлением стилистики космаса.

1. aerial view of crowd, stage as tiny island, massive scale 2. singer’s hair transforming into galaxy of stars and nebulas, cosmic

Потом в стилистику стали вписываться силуэты. Здесь проблема была в том, что нейросеть не всегда распознавала в промпте объект, но с добавлением «silhouette» проблема решалась и получалось использовать образы достопримечательностей или животных. В промпты также добавлялись цвета, так как без указания нейросеть преимущественно генерировала бежевые и розовые тона, даже несмотря на то, что почти весь датасет был сине-красным.

1. green, silhouette cow on the center of stage 2. yellow lights, silhouette of cat on the stage

1. silhouette of flowers rose in the smoke 2. silhouette of Moscow red square

Это и стало финальными изображениями — сочетание света и силуэтов, как и в названии проекта. Изображения передают ту атмосферу, которую нужно было добиться — что-то таинственное, захватывающее и возможно не совсем вписывающееся в рамки привычных вещей, как и бывает на концертах.

«Застывший силуэт, мерцающий свет…»
Проект создан 21.03.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше