популярность ≠ качество: как пользователи на самом деле выбирают косметику на Geograffee

датасет: most_used_beauty_cosmetics_products_extended.csv (15 000 товаров)

цель: проверить, связаны ли цена, популярность (кол-во отзывов) и качество (рейтинг), и показать это в формате «объясняющей инфографики».

ключевой вопрос: дороже и популярнее — значит лучше?

Подготовка

Ниже я: 1.загружаю данные 2.проверяю пропуски/дубликаты 3.настраиваю единый «глянцевый» стиль графиков (палитра + шрифт кодом)

Исходный размер 1280x759

Единый стиль (палитра + типографика)

Стиль — «глянец»: тёплый молочный фон, розово-нюдовые акценты, чистая сетка, крупные заголовки.

Исходный размер 1280x692

Исходный размер 1280x192

Быстрый обзор данных

Проверим типы, пропуски и простые срезы.

Исходный размер 1272x1280

Лёгкая подготовка

Данные довольно чистые, но для анализа лучше: -привести названия колонок к snake_case -создать производные признаки: лог отзывов, ценовые квартели, «топ категории»

Исходный размер 1270x893

На какие статистики смотрю, какие оценки провожу

1.Описательная статистика: среднее, медиана, квартели 2.groupby-агрегации: сравнение категорий и брендов 3.Корреляция (pearson и spearman): проверка связи цена ↔ рейтинг ↔ отзывы 4.Квантили / ecdf-подход: как «раскладывается» цена по рынку 5.Нормализация min–max: чтобы сравнивать разные метрики на одном радар-графике

График 1 — какие категории доминируют

Идея: сначала понять «ландшафт» рынка.

Исходный размер 1280x409

Исходный размер 1280x762

График 2 — доля категорий (doughnut)

Идея: «глянцевый» способ показать структуру — кольцевая диаграмма. чтобы не перегружать, берём топ-6 категорий + other.

Исходный размер 1280x698

Исходный размер 1280x1092

График 3 — «сколько стоит косметика у x% рынка» (квантили)

Это линейный график по квантилям: по оси x — процентиль (0.100), по оси y — цена. так проще объяснить «где масс-маркет и где премиум».

Исходный размер 1280x465

Исходный размер 1280x780

График 4 — цена vs рейтинг (bubble chart)

Это главный график темы «популярность ≠ качество». размер пузыря — лог (отзывы), чтобы очень большие числа не «съедали» остальные.

В презентации удобно объяснить зоны: дёшево + высокий рейтинг → «находки» дорого + низкий рейтинг → «переоценено»

Исходный размер 1280x631

Исходный размер 1280x389

Исходный размер 1064x568

График 5 — «профиль категории» (radar)

Для глянцевой подачи полезно «перевести» таблицу в образ: каждая категория — это профиль из нескольких метрик

Метрики: 1.Медианная цена 2.Средний рейтинг 3.Медианные отзывы 4.Доля cruelty-free 5.Доля ежедневного использования (daily) Чтобы сравнение было честным, нормализуем метрики min–max в 0.100

Исходный размер 918x1280

Исходный размер 1280x1092

Датасет

Блокнот с кодом