Анализ данных о качестве испанского вина на Geograffee

Рубрикатор

Введение
Загрузка данных
Обработка и анализ данных
Оформление данных
Итоговые графики
Заключение
Ресурсы и генеративные модели

Исходный размер 2880x1620

Изображение сгенерировано с помощью нейросети LeonardoAi

Введение

Вино давно стало неотъемлемой частью наших семейных застолий. Будь то торжество по случаю праздника или же просто уютный ужин в пятницу вечером — ароматное вино объединяет все поколения за одним столом, создавая по-особенному тёплую атмосферу. Этот напиток не просто доставляет удовольствие своим вкусом, но также наполняет бокалы историями и эмоциями.

Когда-то я задумалась над тем, как мой отец, коллекционер вин и ценитель вкусов, выбирает хорошее вино, каким критериям отвечают лучшие образцы и каковы основные факторы, влияющие на качество продукта.

Вдохновившись семейной историей, я решила проанализировать данные о качестве испанского вина. На сайте kaggle.com я выбрала датасет «Spanish Wine Quality Dataset». Он содержит информацию о винодельнях, названии вина, годе выпуска, рейтинге вина, количестве отзывов, регионе производства, стоимости, типе вина, его плотности и кислотности.

Я решила представить данные в виде 5 типов графиков: столбчатая диаграмма для распределения количества вин по годам производства, график рассеяния для анализа корреляции между ценой и рейтингом, круговая диаграмма для распределения вина по категориям кислотности, гистограмма для визуализации топ-10 типов вина по количеству рецензий и линейная диаграмма для распределения количества вин по категориям их плотности.

Загрузка данных

Для работы с данными я импортировала библиотеку pandas. Затем импортировала библиотеки matplotlib.pyplot и seaborn для построения графиков.

Исходный размер 2880x603

Обработка и анализ данных

Данные содержат пропуски. Для того, чтобы продолжить работу над чистыми данными и провести корректный анализ, я удалила пропущенные значения с помощью .dropna ().

Исходный размер 2880x224

Далее я перешла к анализу данных. Я написала код, который помог определить топ-10 популярных типов вина по количеству отзывов.

.groupby ('type') группирует данные по столбцу type, .size () считает количество отзывов для каждой группы, .nlargest (10, 'count') берёт 10 строк с максимальным значением количества отзывов.

Исходный размер 2880x417

После этого я решила посчитать корреляцию между признаками price (цена) и rating (рейтинг). С помощью метода .corr я выяснила, что корреляция равняется 0.55, что указывает на умеренную взаимосвязь.

Исходный размер 2880x282

Затем я посчитала среднюю цену вина. average_price_by_wine определяет среднее значение столбца price (цена) для каждого уникального значения в столбце wine (вино): df_cleaned.groupby ('wine') группирует данные из столбца wine и для каждого вина вычисляет среднюю стоимость, затем сортирует вина по убыванию средней цены и берёт первые 10 самых дорогих вин. Так я выяснила, что самое дорогое вино по средней стоимости — La Faraona Bierzo (Corullon).

Исходный размер 2880x380

Оформление данных

Для создания палитры я сгенерировала изображение с помощью нейросети leonardo.ai. Далее на сайте Adobe Color я извлекла цвета из картинки. Мне показалось, что данному проекту лучше всего подойдёт гамма винных оттенков.

Исходный размер 2880x1620

Изображение сгенерировано с помощью нейросети LeonardoAi

Исходный размер 2880x908

Затем я установила глобальные настройки стиля всех графиков. При помощи plt.rcParams я определила белый цвет для текста, подписей и меток осей. Использовав axes.titleweight и axes.labelweight, я сделала жирное начертание у заголовков и подписей осей, чтобы сильнее выделить их.

Исходный размер 2880x738

Итоговые графики

1. Количество вин по годам

Исходный размер 2880x806

Исходный размер 2880x1781

2. Распределение вин по категориям кислотности

Исходный размер 2880x671

Исходный размер 2880x2979

3. Корреляция между ценой и рейтингом

Исходный размер 2880x603

Исходный размер 2880x2279

4. Топ-10 типов вина по количеству рецензий

Исходный размер 2880x1107

Исходный размер 2880x1946

5. Распределение количества вин по категориям плотности

Исходный размер 2880x927

Исходный размер 2880x1835

Заключение

Таким образом, я провела подробный анализ данных о качестве испанского вина. Я проанализировала разные показатели, такие как год производства, степень кислотности, корреляцию между ценой и рейтингом, количество отзывов, а также уровень плотности, чтобы выявить, какие критерии влияют на качество напитка.

По итогам анализа я сделала несколько выводов:

Больше всего в датасете представлено вин 2011 года производства. Это вина «среднего» возраста, успевшие набрать необходимую зрелость и раскрыть вкусовые и ароматические свойства.
Больше всего вин со степенью кислотности 3.0, указывающей на сбалансированный уровень кислотности, который обеспечивает вину гармоничный вкус. Из этого можно сделать вывод, что степень кислотности имеет влияние на качество продукта.
Между ценой и рейтингом вина наблюдается умеренная корреляция. Это может указывать на то, что цена действительно имеет значение в восприятии продукта потребителями, но не является единственным определяющим фактором.
Типы вина, которые вошли в топ-10 по количеству рецензий, преимущественно обладают категорией плотности 4-5 и степенью кислотности 3, что может указывать на выбор потребителями полноценных и многогранных вин с богатым вкусом и приятным балансом кислотности.
Больше всего вин с категорией плотности 4, которая обеспечивает напитку богатый вкус и баланс между сладостью и насыщенностью. Этот показатель может указывать на то, что уровень плотности имеет влияние на качество продукта.

Ресурсы и генеративные модели

kaggle.com — поиск датасета

Ссылка на датасет с сайта kaggle.com

Ссылка на блокнот Google Colab

AdobeColor — создание цветовой палитры

LeonardoAi — генерация обложки и изображений

GigaChat — исправление неизвестных мне ошибок в коде при их возникновении

Промпты для генерации изображений:

Обложка. Generate a beautiful cover for a project about the quality of Spanish wine, the background should be wine-colored
Изображение 1. Generate a gorgeous wine image, it should have several bottles of wine and a wine-colored background
Изображение 2. Generate a luxury wine image, it should have several glasses of wine and a wine-colored background

Ссылка на блокнот и датасет