Исходный размер 853x1280

Анализ и визуализация данных на примере датасета Titanic

PROTECT STATUS: not protected

В данной работе был выполнен анализ табличных данных с помощью библиотеки Pandas, а также построены различные виды графиков для наглядного представления результатов. Визуализация выполнена с использованием библиотек Seaborn и Matplotlib.

В качестве исходных данных был выбран датасет Titanic, содержащий информацию о пассажирах одноимённого судна. Данные представлены в табличной форме и включают следующие признаки: • класс билета пассажира • возраст • стоимость билета • факт выживания

Этот набор данных удобен для анализа, так как содержит как числовые, так и категориальные признаки.

После загрузки данных была проведена первичная обработка: • данные загружены в DataFrame Pandas • пропущенные значения учитывались при построении графиков • для числовых признаков выполнен описательный статистический анализ

Также была настроена единая стилистика визуализаций для повышения наглядности.

Исходный размер 876x717

График 1: Столбчатая диаграмма (Bar Chart) — Выживаемость по классам

plt.figure (figsize=(8, 6)) sns.barplot (data=df, x='pclass', y='survived', color='#00f2ff', ci=None) style_plot ('(01) Доля выживших по классам кают', 'Класс билета', 'Доля выживших') plt.show ()

Доля выживших по классам кают

На графике показана зависимость выживаемости пассажиров от класса билета. Из диаграммы видно, что: • пассажиры 1 класса имели наибольшие шансы на выживание • с понижением класса доля выживших заметно уменьшается

Это указывает на социальное неравенство при эвакуации пассажиров.

Исходный размер 907x714

График 2: Точечная диаграмма (Scatter Plot) — Возраст vs Цена билета

plt.figure (figsize=(8, 6)) sns.scatterplot (data=df, x='age', y='fare', color=accent_color, alpha=0.6, s=80) style_plot ('(02) Корреляция возраста и стоимости билета', 'Возраст пассажира', 'Цена билета') plt.show ()

Точечная диаграмма отражает связь между возрастом пассажира и ценой билета. Можно сделать следующие выводы: • высокая стоимость билета чаще встречается у пассажиров среднего возраста • чёткой линейной зависимости между возрастом и ценой билета не наблюдается

График позволяет визуально оценить распределение данных и наличие выбросов.

Исходный размер 831x629

График 3: Круговая диаграмма (Pie Chart) — Распределение по классам

plt.figure (figsize=(8, 6)) class_counts = df['pclass'].value_counts () colors = ['

b366ff', '

00f2ff', '#ff66b3'] plt.pie (class_counts, labels=['3 класс', '1 класс', '2 класс'], autopct='%1.1f%%', colors=colors, startangle=140, textprops={'color':"w», 'fontsize': 12}) plt.title ('(03) Распределение пассажиров по классам', fontsize=18, fontweight='bold') plt.show ()

Распределение пассажиров по классам

На круговой диаграмме показано процентное распределение пассажиров по классам: • наибольшее количество пассажиров находилось в 3 классе • 1 и 2 классы представлены меньшей долей

Это объясняет, почему общее число погибших было высоким — большинство пассажиров относились к наименее защищённому классу.

Исходный размер 886x713

График 4: Гистограмма (Histogram) — Распределение возраста

plt.figure (figsize=(8, 6)) sns.histplot (df['age'].dropna (), bins=30, color='#ff66b3', kde=True) style_plot ('(04) Распределение пассажиров по возрасту', 'Возраст', 'Количество людей') plt.show ()

Гистограмма показывает, как распределён возраст пассажиров: • основная часть пассажиров находилась в возрасте от 20 до 40 лет • присутствуют как дети, так и пожилые люди

Добавление кривой плотности позволяет лучше увидеть форму распределения.

Описательная статистика данных: age fare count 714.000000 891.000000 mean 29.699118 32.204208 std 14.526497 49.693429 min 0.420000 0.000000 25% 20.125000 7.910400 50% 28.000000 14.454200 75% 38.000000 31.000000 max 80.000000 512.329200

Выбор данных

Для проекта выбран датасет Titanic, содержащий информацию о пассажирах (возраст, пол, класс билета и статус выживания). Данные представлены в табличной форме.

Используемые статистические методы

В работе применены:

Описательная статистика: расчет среднего значения, медианы и стандартного отклонения для возраста и стоимости билетов.

Группировка данных: анализ выживаемости через агрегацию по категориям (пол, класс).

Корреляционный анализ: расчет коэффициентов корреляции Пирсона между ценой билета, возрастом и выживаемостью.

Анализ визуализации

Гистограмма показывает, что большинство пассажиров были в возрасте от 20 до 40 лет.

Столбчатая диаграмма наглядно объясняет «эффект класса»: пассажиры 1-го класса имели значительно больше шансов на спасение.

Boxplot демонстрирует наличие выбросов (очень дорогих билетов) в первом классе.

Искусственный интеллект был применен для создания обложки.

Анализ и визуализация данных на примере датасета Titanic
Проект создан 16.01.2026
Загрузка...
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше