Генерация пиксель-арт изображений с помощью Stable Diffusion на Geograffee

Концепция

Идея проекта — дообучить нейросеть Stable Diffusion на датасете пиксельной графики, чтобы она научилась генерировать изображения в стиле ретро-игр эпохи 8-bit. Пиксель-арт — это не просто визуальный стиль, это целая эстетика, связанная с культурой видеоигр 80–90-х годов: чёткие пиксельные контуры, ограниченная цветовая палитра, узнаваемые спрайты персонажей и предметов.

Примеры исходных изображений для обучения

Для обучения был собран датасет из 36 изображений пиксельной графики с платформы Kaggle — персонажи, объекты и сцены из игрового контекста. Каждое изображение обрезано до квадрата 1:1 и масштабировано до 512×512 пикселей. Метод обучения — LoRA (Low-Rank Adaptation), который позволяет дообучить модель эффективно без изменения всех её весов.

Датасет распространяется под лицензией CreativeML Open RAIL-M, которая разрешает использование материалов в исследовательских и образовательных целях.

оригинальный датасет

Примеры исходных изображений для обучения

Результирующая серия изображений

Итоговая серия включает десять изображений: воин, маг, дракон, сундук с сокровищами, подземелье, слизень, зелья, рыцарь, скелет и замок.

Сгенерированные изображения воина и мага Промпты: 1. pixelart, 8-bit style, warrior character with sword and armor; 2. pixelart, 8-bit style, mage casting a spell with glowing hand.

Сгенерированные изображения дракона и сундука Промпты: 1. pixelart, 8-bit style, small dragon breathing fire; 2. pixelart, 8-bit style, treasure chest overflowing with gold.

Модели удалось передать ключевые черты пиксельной эстетики: чёткие границы объектов, характерную зернистую текстуру пикселей, контрастные цвета и узнаваемые игровые силуэты. Особенно удачными получились изображения дракона, сундука и замка — в них хорошо читается стиль классических RPG. Воин и рыцарь получили детализированные спрайты с характерными игровыми пропорциями.

Сгенерированные изображения подземелья и слизня Промпты: 1. pixelart, 8-bit style, dark dungeon corridor with torches; 2. pixelart, 8-bit style, cute slime monster with big eyes.

Сгенерированные изображения зелий и рыцаря Промпты: 1. pixelart, 8-bit style, magical potion bottles on a shelf; 2. pixelart, 8-bit style, armored knight holding a shield.

К сожалению, возник ряд технических трудностей. Изначально планировалось использовать Stable Diffusion XL, однако видеокарта T4 в Google Colab не имела достаточного объёма памяти. Несколько публичных датасетов на Hugging Face оказались несовместимы с актуальной версией библиотеки из-за устаревшего формата загрузочных скриптов, поэтому датасет был собран вручную с Kaggle. Также скрипт обучения пытался читать текстовые файлы с подписями как изображения — это решилось созданием отдельной папки только с PNG-файлами.

Сгенерированные изображения скелета и замка Промпты: 1. pixelart, 8-bit style, skeleton enemy in a dark cave; 2. pixelart, 8-bit style, pixel art castle with glowing windows.

В процессе работы была предпринята попытка улучшить результаты с помощью более детальных и сложных промптов — с описанием освещения, атмосферы и конкретных деталей сцены. Однако это дало обратный эффект: модель начала генерировать перегруженные изометрические карты с видом сверху, теряя фокус на конкретном объекте или персонаже. Итоговые изображения первого варианта выглядели как скриншоты игровых уровней, а не как отдельные спрайты. Это наглядно показывает, что для моделей обученных на пиксельном стиле краткие и конкретные промпты работают эффективнее развёрнутых описаний.

Примеры «неудавшейся» генерации с более сложными промптами (воин и сундук)

Для каждого изображения датасета автоматически сгенерированы текстовые подписи с помощью модели BLIP с префиксом pixelart, 8-bit style. В генерации использовался отрицательный промпт для исключения фотореализма, а также уникальный seed для каждого изображения.

Описание процесса обучения

Обучение проводилось в Google Colab на видеокарте Tesla T4. Базовая модель — Stable Diffusion v1.5. Метод — LoRA с официальным скриптом train_text_to_image_lora.py от Hugging Face. Параметры: 8 эпох, learning rate 1e-4, batch size 1, gradient accumulation 4 шага, mixed precision fp16. Обучение заняло около 10 минут на 36 изображениях.

Использование ИИ

В проекте помимо Stable Diffusion v1.5 использовался Claude (Anthropic) — для редактирования текстов, отладки кода и формулировки промптов. Модель BLIP использовалась для автоматической генерации подписей к изображениям датасета.

Ссылка на код и датасет