ОПИСАНИЕ
IMDb — база данных о фильмах мирового кинематографа. Любой человек, который хоть немного интересовался кинематографом, знает о ней. Рейтинги, сборы, имена режиссёров и стран — за этими цифрами и названиями скрываются закономерности, тенденции и иногда неожиданные открытия о том, что на самом деле делает кино успешным.
В своём проекте я хочу взглянуть на кинематограф через призму данных. Как страна производства влияет на рейтинг? Имеет ли значения длина фильма? Совпадает ли мнение критиков с мнением зрителей?
Для анализа я выбрала датасет с Kaggle, содержащий информацию почти о 5000 фильмов — их названия, рейтинги, создателей, бюджеты, сборы и многое другое.
Цвета проекта — серо-черный (#121212), желтый (#f5c518), белый (#ffffff). Ассоциация с логотипом IMDb.
В ходе исследования я сосредоточилась на визуализации данных с помощью графиков, которые делают сложные закономерности простыми и понятными:
Гистограмма — чтобы увидеть, как распределяются рейтинги IMDb. Ящик с усами — чтобы сравнить рейтинги фильмов из разных стран. Диаграмма рассеивания — для сравнения влияния продолжительности фильма и его рейтинга, сравнения оценок критиков и зритилей. Облако слов — для выявления наиболее часто используемых слов в названии.
1. Распределение рейтингов IMDb
Диаграмма демонстрирует, как рейтинги IMDb распределены среди 4989 фильмов выборки. По горизонтальной оси отложены значения рейтингов, по вертикальной — количество фильмов.
Гистограмма распределения рейтингов IMDb — показывает частоту встречаемости фильмов в зависимости от их оценки.
Код для гистограммы распределения рейтингов IMDb.
Гистограмма показала:
- Большинство фильмов в датасете имеют рейтинг 7.2-7.8.
- Пик приходится на 7.6.
- Редкие высокие рейтинги (8.5+).
- Симметричное нормальное распределение.
2. Распределения рейтингов по странам производства
Диаграмма сравнивает рейтинги фильмов из 7 ведущих стран-производителей. Для каждой страны показаны: типичный рейтинг, межквартильный размах (диапазон, где находятся 50% средних фильмов), разброс данных без выбросов и фильмы с аномально высокими/низкими рейтингами — выбросы.
Ящик с усами распределения рейтингов IMDb по странам производства
Код для ящика с усами.
Ящик с усами показал:
- Страны с самыми высокими медианами имеют наиболее качественные фильмы в среднем
- Ширина ящика показывает стабильность качества: узкий = стабильное качество, широкий = большой разброс
- Наличие выбросов указывает на наличие исключительно успешных/неудачных фильмов
- Сравнение межквартильных размахов показывает, в каких странах качество фильмов более предсказуемо (фильмов имеют рейтинги в узком диапазоне).
3. Влияние длительности фильма на оценку зрителей IMDb
Диаграмма демонстрирует взаимосвязь между длительностью фильма в минутах и рейтинг IMDb. Каждая точка — один фильм.
Диаграмма рассеивания зависимости рейтинга IMDb от длительности фильма
Код диаграммы рассеивания.
Главный вывод диаграммы рассеивания: Длительность фильма не является статистически значимым предиктором его рейтинга на IMDb. Качественные фильмы могут быть как краткими, так и продолжительными.
4. Сравнение критических и зрительских оценок фильмов
Диаграмма сравнивает два типа оценок фильмов: агрегированную оценку профессиональных кинокритиков по Metascore и среднюю оценку зрителей платформы IMDb Average Rating. Каждая точка — фильм с доступными обеими оценками.
Диаграмма рассеивания корреляции оценок критиков (Metascore) и зрителей (IMDb)
Код для диаграммы связи оценок.
Диаграмма рассеивания показала:
- Отсутствие прямой связи между оценками критиков (Metascore) и зрителей (IMDb).
- Наибольшая плотность точек сосредоточена в диапазоне Metascore 60-85 и IMDb 7.4-8.0, что соответствует большинству фильмов, получающих средние положительные оценки с обеих сторон.
- Фильмы с высоким Metascore, но средним IMDb — критически признанные работы, не нашедшие массового отклика (и наоборот).
- Лишь немногие фильмы получают одновременно высокие оценки и от критиков, и от зрителей.
- Фильмы с Metascore >90 при IMDb <7.5 — элитарное кино, непонятое широкой аудиторией.
5. Тренды нейминга: частые слова в названии
Визуализация демонстрирует частоту употребления слов в названиях фильмов.
Облако слов наиболее частотных слов в названиях фильмов
Код для облака слов.
Облако слов показало:
- Три основные тематические группы: Временные ('Last', 'Night', 'Day', 'Year') Персонажные ('Man', 'Life', 'Love', 'Girl') Действенные ('Story', 'Secret', 'Dead', 'Lost')
- Преобладание существительных над глаголами и прилагательными
- Использование общей лексики.
- Частое использование числительных свидетельствует о популярности нумерованных частей (сиквелов, приквелов).
Заключение
Подводя итоги, базовый анализ данных IMDb позволил выявить ключевые закономерности в распределении рейтингов и провести наглядное сравнение характеристик фильмов по странам их производства. А также понять, что хорошее кино не всегда определяется оценкой.
Использованные генеративные модели
Chat GPT Подбор тем для анализа, рекомендации по улучшению кода, помощь с отбором методов. DeepSeek Помощь с обработкой цвета, выявлением Hex кода для оформления презентации.
ТАКЖЕ: Adobe Photoshop Создание обложки.
Статистические методы
Дескриптивная статистика — использовалась для расчёта средних значений (рейтинг 7,63) и общей характеристики данных.
Анализ распределения — гистограмма показала, что большинство фильмов имеют рейтинг 7,2–8,0 баллов.
Сравнение групп (ящик с усами) — применялся для сравнения рейтингов по странам производства, что выявило различия в качестве фильмов.
Частотный анализ — позволил определить самые частые страны-производители в выборке.
Визуализация данных — использовалась для наглядного представления распределений и сравнений через графики (гистограммы, боксплоты).



