Исходный размер 1140x1600

Статистика кинематографа: анализ данных IMDb

PROTECT STATUS: not protected

ОПИСАНИЕ

IMDb — база данных о фильмах мирового кинематографа. Любой человек, который хоть немного интересовался кинематографом, знает о ней. Рейтинги, сборы, имена режиссёров и стран — за этими цифрами и названиями скрываются закономерности, тенденции и иногда неожиданные открытия о том, что на самом деле делает кино успешным.

В своём проекте я хочу взглянуть на кинематограф через призму данных. Как страна производства влияет на рейтинг? Имеет ли значения длина фильма? Совпадает ли мнение критиков с мнением зрителей?

Для анализа я выбрала датасет с Kaggle, содержащий информацию почти о 5000 фильмов — их названия, рейтинги, создателей, бюджеты, сборы и многое другое.

Исходный размер 0x0

Цвета проекта — серо-черный (#121212), желтый (#f5c518), белый (#ffffff). Ассоциация с логотипом IMDb.

В ходе исследования я сосредоточилась на визуализации данных с помощью графиков, которые делают сложные закономерности простыми и понятными:

Гистограмма — чтобы увидеть, как распределяются рейтинги IMDb. Ящик с усами  — чтобы сравнить рейтинги фильмов из разных стран. Диаграмма рассеивания — для сравнения влияния продолжительности фильма и его рейтинга, сравнения оценок критиков и зритилей. Облако слов — для выявления наиболее часто используемых слов в названии.

1. Распределение рейтингов IMDb

Диаграмма демонстрирует, как рейтинги IMDb распределены среди 4989 фильмов выборки. По горизонтальной оси отложены значения рейтингов, по вертикальной — количество фильмов.

Исходный размер 1174x707

Гистограмма распределения рейтингов IMDb — показывает частоту встречаемости фильмов в зависимости от их оценки.

Исходный размер 1225x564

Код для гистограммы распределения рейтингов IMDb.

Гистограмма показала:

  1. Большинство фильмов в датасете имеют рейтинг 7.2-7.8.
  2. Пик приходится на 7.6.
  3. Редкие высокие рейтинги (8.5+).
  4. Симметричное нормальное распределение.

2. Распределения рейтингов по странам производства

Диаграмма сравнивает рейтинги фильмов из 7 ведущих стран-производителей. Для каждой страны показаны: типичный рейтинг, межквартильный размах (диапазон, где находятся 50% средних фильмов), разброс данных без выбросов и фильмы с аномально высокими/низкими рейтингами — выбросы.

Исходный размер 1380x781

Ящик с усами распределения рейтингов IMDb по странам производства

Исходный размер 1225x882

Код для ящика с усами.

Ящик с усами показал:

  1. Страны с самыми высокими медианами имеют наиболее качественные фильмы в среднем
  2. Ширина ящика показывает стабильность качества: узкий = стабильное качество, широкий = большой разброс
  3. Наличие выбросов указывает на наличие исключительно успешных/неудачных фильмов
  4. Сравнение межквартильных размахов показывает, в каких странах качество фильмов более предсказуемо (фильмов имеют рейтинги в узком диапазоне).

3. Влияние длительности фильма на оценку зрителей IMDb

Диаграмма демонстрирует взаимосвязь между длительностью фильма в минутах и рейтинг IMDb. Каждая точка — один фильм.

Исходный размер 1380x781

Диаграмма рассеивания зависимости рейтинга IMDb от длительности фильма

Исходный размер 1225x882

Код диаграммы рассеивания.

Главный вывод диаграммы рассеивания: Длительность фильма не является статистически значимым предиктором его рейтинга на IMDb. Качественные фильмы могут быть как краткими, так и продолжительными.

4. Сравнение критических и зрительских оценок фильмов

Диаграмма сравнивает два типа оценок фильмов: агрегированную оценку профессиональных кинокритиков по Metascore и среднюю оценку зрителей платформы IMDb Average Rating. Каждая точка — фильм с доступными обеими оценками.

Исходный размер 1380x781

Диаграмма рассеивания корреляции оценок критиков (Metascore) и зрителей (IMDb)

Исходный размер 1225x882

Код для диаграммы связи оценок.

Диаграмма рассеивания показала:

  1. Отсутствие прямой связи между оценками критиков (Metascore) и зрителей (IMDb).
  2. Наибольшая плотность точек сосредоточена в диапазоне Metascore 60-85 и IMDb 7.4-8.0, что соответствует большинству фильмов, получающих средние положительные оценки с обеих сторон.
  3. Фильмы с высоким Metascore, но средним IMDb — критически признанные работы, не нашедшие массового отклика (и наоборот).
  4. Лишь немногие фильмы получают одновременно высокие оценки и от критиков, и от зрителей.
  5. Фильмы с Metascore >90 при IMDb <7.5 — элитарное кино, непонятое широкой аудиторией.

5. Тренды нейминга: частые слова в названии

Визуализация демонстрирует частоту употребления слов в названиях фильмов.

Исходный размер 1380x747

Облако слов наиболее частотных слов в названиях фильмов

Исходный размер 1225x882

Код для облака слов.

Облако слов показало:

  1. Три основные тематические группы: Временные ('Last', 'Night', 'Day', 'Year') Персонажные ('Man', 'Life', 'Love', 'Girl') Действенные ('Story', 'Secret', 'Dead', 'Lost')
  2. Преобладание существительных над глаголами и прилагательными
  3. Использование общей лексики.
  4. Частое использование числительных свидетельствует о популярности нумерованных частей (сиквелов, приквелов).

Заключение

Подводя итоги, базовый анализ данных IMDb позволил выявить ключевые закономерности в распределении рейтингов и провести наглядное сравнение характеристик фильмов по странам их производства. А также понять, что хорошее кино не всегда определяется оценкой.

Использованные генеративные модели

Chat GPT Подбор тем для анализа, рекомендации по улучшению кода, помощь с отбором методов. DeepSeek Помощь с обработкой цвета, выявлением Hex кода для оформления презентации.

ТАКЖЕ: Adobe Photoshop Создание обложки.

Статистические методы

  1. Дескриптивная статистика — использовалась для расчёта средних значений (рейтинг 7,63) и общей характеристики данных.

  2. Анализ распределения — гистограмма показала, что большинство фильмов имеют рейтинг 7,2–8,0 баллов.

  3. Сравнение групп (ящик с усами) — применялся для сравнения рейтингов по странам производства, что выявило различия в качестве фильмов.

  4. Частотный анализ — позволил определить самые частые страны-производители в выборке.

  5. Визуализация данных — использовалась для наглядного представления распределений и сравнений через графики (гистограммы, боксплоты).

Статистика кинематографа: анализ данных IMDb
Проект создан 17.01.2026
Мы используем файлы cookies для улучшения работы сайта и большего удобства его использования. Более подробную информац...
Показать больше