Исходный размер 730x1119

«Титанический» анализ датасета

PROTECT STATUS: not protected

Введение

Драма «непотопляемого» Титаника будоражит сердца уже многих поколений. Чудо технологического прогресса того времени, колоссальных размеров пассажирский лайнер мощностью пятьдесят пять тысяч лошадиных сил, способный вместить почти две с половиной тысячи человек, потерпел крушение, разрушительностью под стать своим габаритам. Более чем две трети людей: от мала до велика, различных социальных классов и достатка, были поглощены тогда холодными водами Атлантики. Невольно хочется задаться рядом непростых вопросов:

— Сколько семей мучительно разлучилось в тот день? — Сколько матерей потеряли ребенка? — Сколько молодых так и не встретило старость?

Исходный размер 1678x903

На Kaggle я нашла базу данных (далее — БД) с информацией о пассажирах Титаника. Данные блистали разнообразием и содержали такие параметры, как: пол, класс билета (оно же социальный класс), факт выживания или смерти, порт, из которого человек совершил посадку, а также возраст, номер каюты и даже семейные связи — наличие детей или братьев с сёстрами.

Я решила проанализировать эту БД, чтобы ответить, как минимум, на часть вопросов не просто статистического, но и социального, психологического и философского характера.

Использованными в исследовании программами и инструментами являются:

- Google Colab с соответствующими настройками чтения csv. файлов и визуализации - DeepSeek (для правки кода с целью минимизации неожиданных ошибок)

Процесс обработки данных

Исходный размер 1014x441

Перед исследованием БД, я подготовила рабочий файл к чтению датасета: импортировала специальные библиотеки — для работы конкретно с данными Kaggle и массивами, для построения и визуализации графиков. Далее я установила визуальные константы для форматирования графиков: цвета в оттенках бежевого, желтого и коричневого, коричневую обводку и моноширинный шрифт. Вдохновением послужили старые фотографии, созданные в сепии, а также верстка текста на печатной машинке. Всё это отсылает к эпохе, когда существовал Титаник.

0

Визуальное вдохновение

Методы анализа можно сравнить с исследованием БД при помощи формул Microsoft Excel: в основном использовались «СЧЁТ» (вычисление объема данных в отдельных колонках), «ЕСЛИ» (операции над данными, подчиняющихся объединению, либо пересечению условий) и «СЧЁТЕСЛИ» (сортировка данных, также подконтрольная условиям)

Коды и графики

Исходный размер 1104x648

Для более комплексных вычислений понадобилось сначала визуализировать более примитивную статистику: на основе столбца «Пол» было выявлено процентное соотношение мужчин и женщин, находившихся на корабле.

Для визуализации данных использовались в основном столбчатые и круговые диаграммы.

Исходный размер 1189x359
Исходный размер 1078x507

Колонка «Возраст» была поделена математически, при помощи установки «пороговых значений» на конкретные категории.

Исходный размер 792x264
Исходный размер 699x489

Далее, уже располагая «отфильтрованным» из колонки «Пол» числом женщин, было произведено пересечение с колонками «Наличие детей» и «Факта смерти/выживания».

Исходный размер 844x291
Исходный размер 771x486

После похожая операция была произведена с колонками «Факта смерти/выживания» и «Наличия братьев/сестёр»

Исходный размер 1174x343
Исходный размер 886x489

Дабы логически завершить анализ «факторов выживаемости», было создано распределение в зависимости от порта посадки.

Исходный размер 739x542
Исходный размер 1501x636

Также, подытоживая исследование, включающее женщин с детьми, было произведено их распределение, в зависимости от класса билета.

Исходный размер 809x571
Исходный размер 1513x636

Общим завершением является статистика выживаемости пассажиров в зависимости от социального класса.

Выводы

На основе анализа БД, удалось не просто конкретизировать ответы на вопросы философского характера, но и дать дополнительную пищу для размышлений.

— Женщины и дети — не совсем приоритет.

График «Погибшие женщины с детьми» показывает, что, особенно среди низшего сословия, процент смертности матерей во время крушения Титаника был существенным. Однако само его наличие противоречит строгой интерпретации правила «сначала женщины и дети» и подтверждает, что процесс эвакуации был хаотичным. Спаслись, по-видимому, те, кто смог добраться до шлюпок первым.

 — Социальное неравенство — главный фактор выживания.

Ярче всего контраст погибших и спасшихся заметен на графике «Выживаемость по портам посадки» и на графике «Выжившие по классу билета». Порт «Шербур» — это, в основном, пассажиры первого класса. Самый высокий процент выживших в первом классе подтверждает: доступ к шлюпкам на верхних палубах и приоритет при эвакуации были у богатых пассажиров.

— Семейные узы могли стать помехой.

График «Выживаемость в зависимости от наличия братьев/сестёр» показывает, что среди пассажиров без родственников на борту процент выживших выше. Это логичный вывод: одинокие люди могли быстрее и решительнее действовать в условиях паники, ведь спасать им требовалось только себя. Семьи теряли время, пытаясь найти и собрать друг друга, что снижало их шансы.

«Титанический» анализ датасета
Проект создан 14.01.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше