-
Среднее арифметическое прогнозов. В чем магия?
В статистике и машинном обучении есть любопытный факт: среднее арифметическое нескольких прогнозов зачастую превосходит прогнозы большинства отдельных моделей — и это воспроизводится на данных из разных областей: от метеорологии до финансов. Этот эффект не интуитивен: кажется, что усреднение хорошей модели с плохой только ухудшит результат. На практике все работает иначе. В этой статье мы разберем…
-
Байесовский информационный критерий (BIC)
Байесовский информационный критерий (BIC, Bayesian Information Criterion) — метрика для сравнения статистических моделей, балансирующая качество подгонки и сложность модели. Предложен Гидеоном Шварцем в 1978 году, поэтому в литературе встречается также как критерий Шварца (SBC, Schwarz Bayesian Criterion). Критерий BIC решает фундаментальную проблему выбора модели: чем больше параметров, тем лучше модель описывает обучающие данные — но…
-
Прогнозирование динамики фьючерсов с XGBoost
Градиентный бустинг XGBoost занял устойчивое место в арсенале квант-аналитиков не случайно. На табличных данных с нелинейными зависимостями он стабильно превосходит линейные модели, а по скорости обучения и интерпретируемости выигрывает у нейросетей. Фьючерсные данные — именно тот тип данных, где эти преимущества реализуются в полной мере: высокая размерность признаков, нелинейные взаимодействия между ними, шум, превышающий сигнал…
-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Машинное обучение для A/B тестов: практический гайд по CUPAC
A/B-тестирование остается основным инструментом для принятия продуктовых решений в технологических компаниях. Главная проблема — высокая дисперсия метрик, из-за которой требуется несколько недель или даже месяцев, чтобы достичь статистической значимости. Длительные эксперименты замедляют итерации и увеличивают альтернативные издержки. Классический подход к снижению дисперсии — метод CUPED. Он использует исторические значения целевой метрики для корректировки результатов. Метод…
-
Продвинутые способы кросс-валидации, разделения выборок рядов: Expanding Window Splitter, Blocked Time Series Split и другие
Традиционно в задачах прогнозирования для разделения выборок временных рядов используется метод TimeSeriesSplit из библиотеки scikit-learn. Этот подход гарантирует сохранение хронологической последовательности: обучающая выборка всегда предшествует тестовой, исключая утечку информации из будущего. TimeSeriesSplit создает несколько последовательных сплитов с постепенно расширяющимся окном обучения, что позволяет надежно оценить обобщающую способность модели на будущих данных и является стандартом в большинстве…
-
Деревья решений: алгоритм CART, критерии разбиения и практическое применение
Деревья решений относятся к фундаментальным алгоритмам машинного обучения, которые находят применение в задачах классификации и регрессии. Их ключевое преимущество — интерпретируемость: модель представляет собой последовательность логических правил, понятных даже неспециалисту. По своей структуре дерево решений имитирует процесс принятия решений человеком, последовательно разбивая данные на все более однородные группы на основе наиболее значимых признаков. Процесс построения…
-
Топ-10 лучших инструментов MLOps: сравнение и выбор
Сегодня MLOps стал неотъемлемой частью любого серьезного проекта в data science. Стек MLOps объединяет практики разработки, развертывания и поддержки ML-моделей в продакшене. Эти инструменты предоставляют единую платформу для управления жизненным циклом моделей. Основные проблемы, которые решают MLOps-платформы: Воспроизводимость экспериментов; Отслеживание метрик и гиперпараметров; Версионирование данных и моделей; Автоматизация деплоя; Мониторинг перформанса в продакшене. Выбор MLOps-стека…
-
Feature Store: централизованное хранилище признаков для ML
ML-проекты часто сталкиваются с проблемой разрозненного управления признаками. Дата-сайентисты создают признаки в Jupyter-ноутбуках, ML-инженеры переписывают их для продакшена, а через несколько месяцев уже никто не помнит, какие именно трансформации применялись к обучающим данным. Результат — несоответствие между обучением и инференсом, дублирование работы и сложности с воспроизводимостью экспериментов. Хранилище признаков (Feature Store) решает эти проблемы через…