
Для анализа был выбран датасет, содержащий информацию о студентах, включая такие параметры, как возраст, уровень образования родителей, посещаемость, GPA (средний балл), и другие факторы, влияющие на успеваемость. Этот проект нацелен на исследование взаимосвязей между различными характеристиками студентов и их академическими результатами.
Для визуализации данных использовались следующие типы графиков:
— Круговая диаграмма — Столбчатая диаграмма — Гистограмма — Тепловая карта корреляции
Цветовая палитра
Цвета, такие как #6C733D, #BFA584, и #F2AE72, символизируют стабильность и гармонию, что подходит для образовательной тематики. Тона более насыщенных цветов, например, #401201 и #8C3E37, добавляют контраста и акцентов, улучшая читаемость графиков и визуальных элементов.
Выбранная мной палитра помогает сосредоточить внимание на данных, не перегружая зрителя яркими цветами, и способствует лучшему восприятию информации.

Начало работы
Для первичной обработки данных я сначала проверил наличие пропущенных значений в наборе данных. Пропуски в столбцах с числовыми значениями были заменены на медиану (для GPA) и среднее значение (для Attendance Rate), чтобы сохранить статистическую целостность данных.

Пропущенные значения в категориальном столбце «Parental_Education_Level» были заполнены строкой «Unknown», чтобы избежать потери информации. Далее я проверил и удалил возможные дубликаты, чтобы предотвратить искажение результатов анализа.
Визуализация
Топ 5 групп по возрастам
Я решил разделить студентов на возрастные группы, чтобы исследовать зависимости на более широких категориях, а не на отдельных годах.
Такое разделение позволяет нам проще выявлять тренды и закономерности в группах, а не сосредотачиваться на анализе данных для каждого года отдельно. Это упрощает визуализацию и делает выводы более обоснованными и понятными, поскольку возрастные группы обычно представляют более значимые и стабильные категории, чем каждый отдельный год.
График показывает, что большинство студентов попадает в возрастную группу 18-23 лет (42,9%), чуть меньше — в группу 24-28 лет (40,9%). Возрастная группа 29-33 лет составляет лишь 16,2% от общего числа. Это может свидетельствовать о том, что студенты преимущественно молоды, а количество старших возрастных групп значительно меньше. Такое распределение может быть связано с тем, что большинство людей получают высшее образование в более молодом возрасте.
Зависимость посещаемости от возраста
Следующим шагом я сделал гистограмму, чтобы понять, как возраст студентов влияет на их посещаемость.
Этот график помогает наглядно увидеть, в каких возрастных группах посещаемость выше, а где, наоборот, могут быть проблемы. Так мы можем лучше понять, как возраст связан с тем, насколько студенты посещают занятия.
График показывает, что посещаемость студентов имеет тенденцию к росту с увеличением возраста. Наименьший средний процент посещаемости наблюдается примерно в возрасте 24-25 лет, после чего идет значительное увеличение, достигая пика к 28 годам. Это может свидетельствовать о том, что старшие студенты более ответственно относятся к посещению занятий, возможно, из-за большей мотивации или других внешних факторов.
Средний GPA по посещаемости
Столбчатую диаграмму я использовал, чтобы проверить, влияет ли посещаемость на GPA студентов.
Когда мы уже поняли, как посещаемость зависит от возраста, стало интересно посмотреть, есть ли связь между количеством посещаемых занятий и уровнем успеваемости. Столбчатая диаграмма помогает визуализировать, как процент посещаемости соотносится с результатами GPA в разных категориях.
График демонстрирует, что средний GPA студентов, посещающих занятия регулярно (высокий уровень посещаемости), выше, чем у студентов с низкой или средней посещаемостью. Это подтверждает гипотезу о том, что регулярное посещение занятий положительно влияет на успеваемость студентов.
А что влияет на успеваемость больше всего?
Когда я рассмотрел зависимость между возрастом и посещаемостью, стало интересно, какой фактор оказывает наибольшее влияние на успеваемость студентов. Это важно, чтобы лучше прогнозировать успех конкретных студентов и выявить ключевые аспекты, которые могут помочь улучшить их результаты.
Для этого я взял тепловую карту корреляции. Тепловая карта показывает степень корреляции между различными переменными, где более тёмные цвета (красный) указывают на сильную положительную корреляцию, а светлые (зеленые) — на слабую или отрицательную. Используя её, можно быстро понять, какие факторы оказывают наибольшее влияние на GPA.
Возраст и внеучебная активность слабо влияют на GPA, но все же связаны. Возраст повышает успеваемость, но снижает социальную и внеучебную активность. Дисциплинарные взыскания мало связаны с возрастом и GPA, но мешают социальному взаимодействию. Социальная активность помогает внеучебной деятельности и успеваемости, но снижается с возрастом и взысканиями.
Заключение
Регулярное посещение занятий положительно влияет на GPA, подтверждая гипотезу о его значимости для успеваемости. Возраст также играет роль: старшие студенты посещают занятия чаще, что может быть связано с их мотивацией. Однако с возрастом снижается вовлеченность в социальную и внеучебную активность. Социальное взаимодействие, в свою очередь, способствует успехам в учебе, но ослабевает при наличии дисциплинарных взысканий. В целом, на успеваемость влияют несколько факторов, но ключевым остается посещаемость.