датасет: most_used_beauty_cosmetics_products_extended.csv (15 000 товаров)
цель: проверить, связаны ли цена, популярность (кол-во отзывов) и качество (рейтинг), и показать это в формате «объясняющей инфографики».
ключевой вопрос: дороже и популярнее — значит лучше?
Подготовка
Ниже я: 1.загружаю данные 2.проверяю пропуски/дубликаты 3.настраиваю единый «глянцевый» стиль графиков (палитра + шрифт кодом)

Единый стиль (палитра + типографика)
Стиль — «глянец»: тёплый молочный фон, розово-нюдовые акценты, чистая сетка, крупные заголовки.

Быстрый обзор данных
Проверим типы, пропуски и простые срезы.
Лёгкая подготовка
Данные довольно чистые, но для анализа лучше: -привести названия колонок к snake_case -создать производные признаки: лог отзывов, ценовые квартели, «топ категории»
На какие статистики смотрю, какие оценки провожу
1.Описательная статистика: среднее, медиана, квартели 2.groupby-агрегации: сравнение категорий и брендов 3.Корреляция (pearson и spearman): проверка связи цена ↔ рейтинг ↔ отзывы 4.Квантили / ecdf-подход: как «раскладывается» цена по рынку 5.Нормализация min–max: чтобы сравнивать разные метрики на одном радар-графике
График 1 — какие категории доминируют
Идея: сначала понять «ландшафт» рынка.
График 2 — доля категорий (doughnut)
Идея: «глянцевый» способ показать структуру — кольцевая диаграмма. чтобы не перегружать, берём топ-6 категорий + other.
График 3 — «сколько стоит косметика у x% рынка» (квантили)
Это линейный график по квантилям: по оси x — процентиль (0.100), по оси y — цена. так проще объяснить «где масс-маркет и где премиум».
График 4 — цена vs рейтинг (bubble chart)
Это главный график темы «популярность ≠ качество». размер пузыря — лог (отзывы), чтобы очень большие числа не «съедали» остальные.
В презентации удобно объяснить зоны: дёшево + высокий рейтинг → «находки» дорого + низкий рейтинг → «переоценено»
График 5 — «профиль категории» (radar)
Для глянцевой подачи полезно «перевести» таблицу в образ: каждая категория — это профиль из нескольких метрик
Метрики: 1.Медианная цена 2.Средний рейтинг 3.Медианные отзывы 4.Доля cruelty-free 5.Доля ежедневного использования (daily) Чтобы сравнение было честным, нормализуем метрики min–max в 0.100



