В качестве источника данных я выбрала датасет «MyAnimeList Top 2000 Anime» с Kaggle, содержащий информацию о 2000 самых популярных аниме с платформы MyAnimeList.
Аниме — быстрорастущая индустрия с фанатами по всему миру, поэтому это удобный выбор для анализа взаимосвязей между оценками, темами и другими факторами для выявления закономерностей популярности разных проектов и студий, предпочтений зрителей и многого другого. Моя цель — углубиться в данные по аниме двухтысячных годов и узнать, на какие жанры в те годы студии делали упор, как их успех зависит от количества проектов и что выбирают смотреть люди.
Для начала я выбрала довольно простые круговую и столбчатую диаграммы, чтобы выявить самые популярные жанры и студии и структурировать эту информацию в доступном виде. Затем чтобы отследить зависимость популярности аниме от его продолжительности я выбрала точечную диаграмму, где будет видно соотношение этих параметров, и тепловую карту для отслеживания любимых тем популярных студий.
Подготовка
Перед созданием визуализации я немного подготовила данные: тут я использовала pandas для работы с данными, matplotlib.pyplot и seaborn для визуализации и создания графиков, далее загрузила сам датасет в среду Kaggle с помощью библиотеки Pandas. Для удобства я проверила названия столбцов и основную информацию про данные, а также сразу определилась с цветами для проекта, стараясь приблизиться к атмосфере ретро и киберпанка одновременно.


Популярные жанры и студии




По этим данным видно, что разрыв в жанрах не такой большой, как могло показаться: аниме двухтысячных нравятся людям с разными темами, но экшн и комедия выделяются немного заметнее остальных. Также не всегда студии, создавшие популярные и любимые многими проекты, могут похвастаться большим количеством аниме. Это может говорить о том, что в приоритет ставится качество, а не количество.
Закономерности
Мне стало интересно, насколько сильно зрителя привлекают или отталкивают многосерийные аниме. По точечной диаграмме выше очевидно, что популярность напрямую зависит от количества эпизодов: её ранг скопился там, где число серий не превышает отметки 500, и только одно аниме из датабазы осталось популярным с более чем 1750 эпизодами.
Любимые темы студий
Теперь мне захотелось структурировать темы, чаще всего встречающиеся у конкретных студий. Я отобрала из них пять самых популярных и взяла по 3 темы для каждой из них, чтобы сделать из выведенных данных красивую тепловую карту ниже.


Выводы
Разные виды визуализации данных помогают наиболее доступно отражать определенные данные и их зависимости друг от друга. Проанализировав датабазу с аниме 2000-х с помощью четырех из них, я сделала выводы о том, что в аниме тех годов примерно одинаково ценились разные темы от комедии до науки, однако длинные проекты зрителей не затягивают. Большинство студий специализировались на аниме с определенными жанрами и вкладывались в их качество, а не количество производства.
Применение генеративных моделей
Для чистки данных (запятые, скобки, пропуски), исправления и упрощения кода я пользовалась DeepSeek (1), а постер для обложки сгенерирован в Google Gemini (2).
Ссылка на Google Collab: https://colab.research.google.com/drive/1nTOJCmJxcYyInhdeBqP3TzEgys1GfhWf?usp=sharing



