Применение нейросетей для создания изображений кота-пилота на Geograffee

Концепция проекта

Проект направлен на создание серии визуальных образов моего кота в роли пилота, который путешествует по разным странам и городам. Основная цель — с помощью обученной нейросети передать характер персонажа, его особенности и атмосферу мест, где он оказывается, сохраняя стилистическую цельность.

Главный персонаж — кот, милый и пушистый, с пилотской атрибутикой. Каждое изображение отражает конкретное место или страну, включая архитектуру, природу и цветовые особенности локации. Визуальный стиль: реалистичная иллюстрация с мягкой детализацией персонажа, яркими акцентами на пилотские элементы.

Исходные фотографии

Результирующая серия изображений

После обучения нейросеть сгенерировала серию изображений кота-пилота в разных локациях. Каждое изображение отражает уникальную атмосферу и детали. Персонаж сохраняет узнаваемые черты.

Исходный размер 1023x1023

Кот-пилот за штурвалом самолета

Исходный размер 1024x1024

Кот-пилот в Париже

Исходный размер 1024x1024

Кот-пилот в Токио

Исходный размер 1024x1024

Кот-пилот в Нью-Йорке

Исходный размер 1024x1024

Кот-пилот летит домой

Результаты проекта

Характеристики и передача стиля:

Персонаж: Кот остаётся узнаваемым на всех изображениях. Пилотские элементы хорошо читаются. Фон: Нейросеть учла атмосферу местности. Вариации: позы кота особо не меняются, различное освещение.

Соответствие концепции:

Все изображения соответствуют основной идее путешествия кота. Стиль персонажа остался цельным, несмотря на вариативность окружения.

Процесс генерации:

Использовался пайплайн Stable Diffusion / ControlNet / кастомная обученная модель. Для каждой локации нейросеть учитывала подсказку («prompt») с названием страны и описанием окружения.

Описание процесса обучения

Библиотеки: diffusers, transformers, torch. Использовалась модель Stable Diffusion с дообучением на кастомном наборе изображений.

Основные шаги:

Загрузка исходных изображений и подготовка датасета. Подготовка текстовых подсказок (prompts) для каждой картинки. Fine-tuning модели с помощью LoRA/ControlNet. Генерация тестовой серии изображений.

Ноутбук с кодом для обучения

Ссылка на Гугл диск с кодом