Анализ диалогов из сериала «Очень странные дела» на Geograffee

Введение

Данный проект посвящен анализу диалогов из сериала «Очень странные дела» на основе субтитров. Целью исследования было изучить структуру реплик, распределение диалогов между персонажами и изменения речевых характеристик по сезонам.

Я выбрала сериал «Очень странные дела», потому что он является популярным культурным феноменом 21 века, а диалоги и персонажи играют ключевую роль в формировании его атмосферы и сюжета. Анализ текстовых данных позволяет взглянуть на сериал не с точки зрения сюжета, а через количественные характеристики речи.

Элементы стиля

Исходный размер 3508x1472

Описание данных

В работе использовался датасет с диалогами из сериала «Очень странные дела», представленный в формате CSV. Данные были получены из открытого источника Kaggle (https://www.kaggle.com) и содержат: номер сезона, реплики персонажей, имена персонажей (на основе тегов в субтитрах), служебные строки субтитров (ремарки, описания действий и звуков)

Датасет позволяет анализировать как количественные показатели (число реплик), так и текстовые характеристики (длина реплик).

Инструменты и процесс работы

Для анализа данных использовался язык программирования Python. Pandas — для загрузки, обработки и агрегации данных. Matplotlib и Seaborn — для построения и стилизации визуализаций.

В процессе работы данные были очищены, сгруппированы по сезонам, персонажам и использованы для расчёта средних значений и частотных показателей, а также был проведен анализ данных (сводные таблицы и проверка гипотез для визуализаций). Затем были созданы четыре графика: структура строк субтитров по сезонам, топ персонажей по числу реплик, средняя длина реплик по сезонам и частотное распределение слов. И по результатам данных визуализаций были сформулированы выводы о структуре диалогов и особенностях языка сериала.

Начало работы

Исходный размер 1702x1080

Подготовка данных: чистка, признаки и извлечение персонажей

Исходный размер 2576x1324

Визуализация

График № 1

Исходный размер 2080x968

График показывает соотношение реплик персонажей и служебных строк в каждом сезоне. Во всех сезонах большую часть субтитров составляют реплики персонажей, однако в поздних сезонах возрастает как общее количество строк, так и доля ремарок. По мере развития сериала структура субтитров становится более сложной и насыщенной.

График № 2

Исходный размер 2072x1156

На графике представлен рейтинг персонажей по количеству реплик. Лидирующие позиции занимают центральные персонажи сериала, такие как Mike, Dustin, Joyce и Hopper. Распределение реплик подчёркивает ключевых персонажей, однако количество реплик не всегда напрямую отражает сюжетную значимость персонажа.

График № 3

Исходный размер 2156x980

График отображает среднюю длину реплик (в словах) по сезонам с 95% доверительным интервалом. Наблюдаются изменения длины реплик от сезона к сезону, что может быть связано с изменением темпа повествования и жанровых акцентов сериала. Стиль речи персонажей эволюционирует вместе с развитием сериала.

График № 4

Исходный размер 2014x980

На логарифмическом графике (log–log) показано распределение частоты употребления слов в диалогах сериала. Полученная форма распределения соответствует закону Ципфа, характерному для естественного языка. Язык диалогов сериала подчиняется общим лингвистическим закономерностям.

Вывод

В ходе проекта был проведён комплексный анализ диалогов сериала. Полученные результаты показывают, что: структура субтитров и объём диалогов меняются по сезонам; реплики распределены неравномерно между персонажами; речевые характеристики сериала соответствуют закономерностям естественного языка.

Анализ субтитров позволяет взглянуть на сериал с количественной точки зрения и выявить особенности его повествования.

Ссылка на блокнот

Датасет