-
Среднее арифметическое прогнозов. В чем магия?
В статистике и машинном обучении есть любопытный факт: среднее арифметическое нескольких прогнозов зачастую превосходит прогнозы большинства отдельных моделей — и это воспроизводится на данных из разных областей: от метеорологии до финансов. Этот эффект не интуитивен: кажется, что усреднение хорошей модели с плохой только ухудшит результат. На практике все работает иначе. В этой статье мы разберем…
-
Байесовский информационный критерий (BIC)
Байесовский информационный критерий (BIC, Bayesian Information Criterion) — метрика для сравнения статистических моделей, балансирующая качество подгонки и сложность модели. Предложен Гидеоном Шварцем в 1978 году, поэтому в литературе встречается также как критерий Шварца (SBC, Schwarz Bayesian Criterion). Критерий BIC решает фундаментальную проблему выбора модели: чем больше параметров, тем лучше модель описывает обучающие данные — но…
-
Прогнозирование динамики фьючерсов с XGBoost
Градиентный бустинг XGBoost занял устойчивое место в арсенале квант-аналитиков не случайно. На табличных данных с нелинейными зависимостями он стабильно превосходит линейные модели, а по скорости обучения и интерпретируемости выигрывает у нейросетей. Фьючерсные данные — именно тот тип данных, где эти преимущества реализуются в полной мере: высокая размерность признаков, нелинейные взаимодействия между ними, шум, превышающий сигнал…
-
Современные методы STL декомпозиции (STL Decomposition)
STL (Seasonal and Trend decomposition using Loess) — один из фундаментальных инструментов анализа временных рядов. Метод разделяет ряд на три компоненты: тренд, сезонность и остаток. Это позволяет анализировать каждую составляющую независимо, строить более точные прогнозы и выделять аномалии. С момента публикации оригинальной работы Cleveland et al. (1990) метод существенно развился. Современные расширения снимают большинство ограничений…
-
Библиотека Greykite в Python: установка, настройка и практические примеры прогнозирования рядов
Greykite — библиотека для прогнозирования временных рядов с открытым исходным кодом, разработанная командой LinkedIn и выпущенная в 2021 году. Основу составляет алгоритм Silverkite — быстрая аддитивная модель, построенная на ridge-регрессии с богатым набором фич: тренд, сезонность, праздники, взаимодействия между компонентами. В отличие от большинства библиотек прогнозирования, Greykite дает полный контроль над структурой модели без необходимости…
-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Случайный лес (Random Forest): механика алгоритма, Бутстрэп-агрегирование, out-of-bag оценка
Random Forest или Случайный лес — это ансамблевый алгоритм машинного обучения, объединяющий множество деревьев решений для повышения точности и устойчивости предсказаний. Алгоритм был предложен Лео Брейманом в 2001 году и с тех пор стал одним из наиболее используемых методов в задачах классификации и регрессии. Основное преимущество Random Forest — способность снижать дисперсию модели без существенного…
-
Метод нелинейного снижения размерности t-SNE
Высокая размерность данных создает фундаментальную проблему — датасеты с сотнями и тысячами признаков плохо обучаются в моделях машинного обучения, плюс их невозможно визуализировать, что затрудняет понимание структуры данных, выявление паттернов и валидацию гипотез. Методы снижения размерности решают эту задачу, проецируя многомерные данные в пространство низкой размерности с сохранением важных характеристик исходного распределения. Однако не все…
-
Детекция аномалий через Isolation Forest
Аномалии в данных бывают разными. Большинство — это шум, ошибки сбора, сбитые логи или просто разовые всплески, которые искажают распределения и ухудшают работу моделей. Но среди них могут встречаться действительно важные точки — те, что указывают на сбои в системах, подозрительные действия пользователей или нетипичную динамику бизнес-показателей. В большинстве примеров из учебных пособий аномалии легко…