Введение в проблематику
Рак молочной железы — одно из самых распространенных онкологических заболеваний в мире, которое кардинально меняет жизнь женщин. За каждой цифрой в медицинской статистике стоит реальная человеческая история, сложный путь лечения и надежда на ремиссию. Сегодня медицина все больше опирается на данные: анализ специфических белков-маркеров и клинических показателей помогает врачам точнее прогнозировать течение болезни и выбирать оптимальную стратегию борьбы.
В своем исследовании я использовала датасет Breast Cancer Survival с сайта kaggle.com, содержащий данные о пациентках, прошедших хирургическое лечение. База включает в себя информацию о возрасте, стадии опухоли (Tumour_Stage), типе гистологии, уровнях экспрессии четырех специфических белков (Protein1 — Protein4), виде проведенной операции (Surgery_type), а также даты операции и последнего визита, что позволяет рассчитать сроки выживаемости и отследить текущий статус пациента (жив/мертв).
Для визуального оформления проекта я выбрала строгую, но эмпатичную палитру, состоящую из нежно-розовых (международный цвет борьбы с раком груди) и сдержанных матово-серых оттенков. В качестве основного шрифта использован лаконичный Montserrat. Моей целью было создать ощущение чистоты медицинских исследований, не теряя при этом фокуса на человеческой стороне вопроса.
Обработка данных
Для начала я импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot, seaborn и pandas. После чего считала скачанный csv-файл датасета breast_cancer_survival.csv.
Использовала метод .dropna (), чтобы исключить из анализа строки с пропущенными критически важными значениями (например, статусом пациента или стадией).
Для поиска скрытых закономерностей в распределении диагнозов я применила тепловую карту. Этот изучающий подход позволил мне найти специфические паттерны. Например, карта помогла мне обнаружить аномалию: слизистая карцинома (Mucinous Carcinoma) образует «холодную зону» на 3-й стадии, что может указывать на менее агрессивный характер этого типа опухоли по сравнению с другими
Распределение пациентов по полу
Чтобы продемонстрировать демографический состав базы данных, я подготовила данные для круговой диаграммы. Переменную name (или индексы) я использовала для информации о поле пациентов (Female и Male), а value — для подсчета количества упоминаний каждого пола. Этот базовый объясняющий график наглядно подтверждает известный медицинский факт, что абсолютное большинство пациентов с диагнозом рак молочной железы (в данной выборке более 98%) составляют женщины, тогда как на долю мужчин приходятся лишь единичные случаи.
Рост доли летальных исходов на разных стадиях
Представленный график представляет собой сгруппированную столбчатую диаграмму, которая относится к объясняющему типу визуализации данных. Здесь данные уже посчитаны и агрегированы, чтобы максимально быстро и понятно донести до зрителя главную найденную закономерность.
Сгруппированная столбчатая диаграмма
Зависимость от гистологического типа опухоли и итогового статуса выживаемости
Этот график представляет собой горизонтальную столбчатую диаграмму, которая относится к объясняющему типу визуализации. Горизонтальный формат был выбран намеренно: он позволяет легко и естественно читать длинные медицинские названия гистологических типов опухолей слева направо, не искажая и не обрезая текст.
Горизонтальная столбчатая диаграмма
Применение генеративной модели
Я использовала нейросеть Gemini AI для того, чтобы понять как решить технические проблемы при визуальном оформлении графиков. Пример запроса



