Вводная часть
Источник данных: Kaggle Dataset «Moscow Flats Prices» Формат данных: CSV файл Размер данных: ~213 МБ, 1,001,076 записей Структура данных: segment — сегмент рынка (массовый, бизнес, премиум и др.) date — дата сбора данных jk_name — название жилого комплекса rooms — количество комнат square — площадь квартиры (м²) price — цена квартиры (руб.) price_m2 — цена за квадратный метр (руб.) floor — этаж finishing_id — тип отделки И другие атрибуты
Почему интересно анализировать именно эти данные
Актуальность и масштаб: — Более 1 миллиона записей о квартирах в Москве — Данные собраны с реальных сайтов недвижимости — Охватывает 499 жилых комплексов — Представляет 6 различных сегментов рынка
Практическая значимость: — Помогает понять структуру рынка недвижимости Москвы — Позволяет выявить ценовые закономерности — Полезно для инвесторов, застройщиков и покупателей — Демонстрирует сегментацию рынка
Аналитическая ценность: — Богатый набор признаков для анализа — Возможность изучения корреляций между параметрами — Подходит для статистического тестирования гипотез — Позволяет применить различные методы визуализации
Образовательная ценность: -Идеальный датасет для демонстрации EDA (Exploratory Data Analysis) — Позволяет показать различные типы визуализаций — Подходит для применения статистических методов — Демонстрирует обработку больших объемов данных
Какие виды графиков решено сделать и почему
Гистограмма + Box Plot (Визуализация 1): — Гистограмма показывает форму распределения цен — Box Plot позволяет сравнить распределения между сегментами
Scatter Plot с линией тренда (Визуализация 2): — Показывает зависимость между двумя непрерывными переменными — Линия тренда визуализирует общую тенденцию
Комплексная панель из 4 графиков (Визуализация 3): — Сравнивает несколько аспектов одновременно — Эффективно использует пространство
Тепловая карта корреляций (Визуализация 4): — Позволяет быстро выявить сильные связи между переменными
Статистическая панель из 4 графиков (Визуализация 5): — Q-Q Plot проверяет нормальность распределения — Гистограмма и Box Plot показывают разброс данных — Столбчатая диаграмма показывает влияние отделки
Сравнительная панель из 3 графиков (Визуализация 6): — Violin Plot сравнивает распределение данных по сегментам — Scatter Plot с группировкой по сегментам выявляет кластеры
Этапы работы
Этап 1: Загрузка и предобработка данных
Импорт библиотек и настройка окружения
Определение цветовой схемы
Загрузка данных
Преобразование типов данных
Очистка данных
Создание дополнительных признаков
Этап 2: Создание визуализаций
Этап 3: Статистический анализ
Базовые статистики: Всего записей: 1,001,076 Уникальных ЖК: 499 Сегментов: 6
Статистика по ценам: Средняя цена за м²: 405,002 руб. Медианная цена за м²: 351,920 руб. Стандартное отклонение: 258,950 руб. Минимальная цена за м²: 53,712 руб. Максимальная цена за м²: 12,591,993 руб. Коэффициент вариации: 63,94%
Статистика по площади: Средняя площадь: 54.20 м² Медианная площадь: 47.60 м² Минимальная площадь: 4.00 м² Максимальная площадь: 1161.00 м²
Корреляция: Корреляция цена за м² и площадь: 0.4441
Статистические тесты: Тест Шапиро-Уилка (нормальность цен): Статистика: 0.5791, p-value: 0.0000 Вывод: Распределение не является нормальным (p < 0.05)
ANOVA тест (различия между сегментами): F-статистика: 292367.8789, p-value: 0.0000 Вывод: Существуют статистически значимые различия между сегментами (p < 0.05)
Этап 4: Описание используемых статистических методов
Описательная статистика: Среднее, медиана, стандартное отклонение, коэффициент вариации Корреляционный анализ: Метод Пирсона для анализа зависимости между ценой и площадью Тест Шапиро-Уилка: Для проверки нормальности распределения ANOVA: Для проверки различий между сегментами Линейная регрессия: Для построения линии тренда между ценой и площадью
Выводы
— Рынок характеризуется четким разделением на сегменты, каждый из которых имеет свои уникальные особенности. — Коэффициент вариации цен за м составляет 63,94%, что указывает на значительную неоднородность рынка. — Компактные квартиры имеют более высокую цену за кв.м, в то время как крупные квартиры обладают более высокой общей ценой.
Описание применения генеративной модели
Для прототипирования кода на python использовалась система cursor.ai Обложка сгенерирована при помощи нейросети NanoBanana Pro
Блокнот и датасет



