Обучение нейросети на эстетике «жизнь как из Pinterest» на Geograffee

В этом проекте я решила обучить генеративную нейросеть на эстетике, которую в интернете часто описывают фразой «у тебя жизнь как из Pinterest»

Исходный размер 3121x550

примеры из моего архива, сгенерированного вручную в Midjorney

Мне было интересно проверить, сможет ли модель не просто делать отдельные красивые картинки, а стабильно воспроизводить именно этот узнаваемый вайб.

Концепция

Меня интересовал не персонаж и не один объект, а целая визуальная атмосфера. Это стиль красивой повседневности: мягкий свет, светлые интерьеры, белое постельное бельё, напитки, цветы, море, стекло, текстиль и ощущение очень спокойной, эстетизированной жизни.

По сути, я хотела научить модель генерировать изображения так, будто это всё кадры из одной очень красивой Pinterest-ленты.

Исходный размер 3121x869

примеры из моего архива, сгенерированного вручную в Midjorney

О базе изображений

Исходный размер 956x460

примеры из моего архива, сгенерированного вручную в Midjorney

Для обучения я использовала архив изображений, который сгенерировала ещё год назад в Midjourney для одного своего проекта. Тогда я специально долго делала картинки в одном и том же вайбе, и в итоге у меня накопилось около 390 изображений.

В этих изображениях уже были все нужные мне черты:

светлая и мягкая палитра;
ощущение воздуха и чистоты;
бытовые, но очень эстетизированные сцены;
повторяющиеся детали вроде цветов, напитков, текстиля, посуды, кроватей, окон и видов.

То есть датасет появился не случайно: это был уже собранный визуальный архив под конкретную интернет-эстетику.

Исходный размер 2129x503

примеры из моего архива, сгенерированного вручную в Midjorney

Что я делала дальше

Я взяла шаблонный ноутбук из курса и обучала на этом датасете Stable Diffusion XL через DreamBooth LoRA. Работала я в Google Colab: загрузила изображения, подготовила их для обучения, сгенерировала подписи и запустила fine-tuning модели.

Дальше процесс был такой:

собрать 100 лучших исходных картинок и загрузить их;
прогнать обучение модели;
после обучения начать генерировать новые сцены уже в нужном стиле.

Промпты, генерация и сравнение с исходным стилем

После обучения я начала проверять, насколько хорошо модель держит нужную эстетику на разных сюжетах. Для этого я меняла сцены и объекты, но сохраняла общий стилевой маркер в промптах.

prompt = lifestyle photo in UWPINLIFE style, lemons in linen bag, airy composition

Мне понравилось, что модель не зациклилась на одной конкретной сцене. Она смогла переносить стиль на разные сюжеты: фрукты, велосипед в сквере, осенний пикник.

За счёт этого итоговые изображения выглядят не как случайный набор генераций, а как части одного и того же мира. В этом и была моя главная цель.

prompt = lifestyle photo in UWPINLIFE style, bicycle in a city park with flowers in the basket, spring mood, soft natural light, airy composition, photorealistic

Конечно, не всё идеально. В некоторых генерациях есть типичные нейросетевые странности:

— где-то предметы собраны не совсем логично; — где-то сцена чуть более размытая, чем хотелось бы; — сложные мелкие детали иногда выглядят слабее, чем общая атмосфера.

prompt = lifestyle photo in UWPINLIFE style, autumn picnic with blankets and fruit, soft sunlight

Оригиналы VS Обученная нейросеть

Чтобы сравнение было честнее, я пошла не только через рандомные генерации, но и через исходные изображения. Я закинула оригиналы в ChatGPT, попросила сделать по ним подробные промпты, а потом загрузила эти промпты уже в свою обученную нейронку, чтобы посмотреть, насколько близко она сможет подойти к исходному стилю и атмосфере.

Оригинал / Обученная нейросеть. Промт: lifestyle photo in UWPINLIFE style, a bouquet of soft blush pink ranunculus flowers arranged in a clear square ribbed glass vase

Оригинал / Обученная нейросеть. Промт: lifestyle photo in UWPINLIFE style, a bowl full of fresh ripe strawberries placed on soft white wrinkled fabric, top-down view, warm natural sunlight

Оригинал / Обученная нейросеть. Промт: lifestyle photo in UWPINLIFE style, three lit white taper candles in transparent glass candle holders, each decorated with deep burgundy satin bows

Этот блок показал, что модель умеет довольно точно передавать общий вайб исходных изображений: свет, палитру, атмосферу и предметную эстетику. Она не копирует оригиналы буквально, а пересобирает их по-своему, и именно поэтому видно, что нейросеть усвоила не одну картинку, а сам принцип визуального языка.

Итоговая серия

После сравнений мне хотелось посмотреть на результат уже отдельно от исходников — как на самостоятельную серию. Ниже я собрала генерации, в которых, как мне кажется, лучше всего считывается нужная эстетика: мягкий свет, светлая палитра, спокойная атмосфера и ощущение «жизни как из Pinterest».

Исходный размер 4734x3258

Для меня этот проект был скорее не про одну красивую картинку, а про попытку обучить нейросеть целому визуальному вайбу. По итогу оказалось, что модель действительно может довольно уверенно держать эту эстетику и собирать новые сцены в узнаваемом стиле.

Исходный размер 4734x3258

Мне было важно, что она не просто повторяет отдельные предметы из датасета, а работает на уровне света, палитры, композиции и общего ощущения сцены. Именно поэтому результат получился для меня убедительным.

Исходный размер 4734x3258

Блокнот с кодом

Описание применения генеративной модели:

Midjourney — для создания исходного архива изображений; Stable Diffusion XL + DreamBooth LoRA — для обучения модели; ChatGPT — как вспомогательный инструмент для анализа изображений, составления промптов и оформления текста.

Процесс обучения

Скриншоты Google.Colab