-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Случайный лес (Random Forest): механика алгоритма, Бутстрэп-агрегирование, out-of-bag оценка
Random Forest или Случайный лес — это ансамблевый алгоритм машинного обучения, объединяющий множество деревьев решений для повышения точности и устойчивости предсказаний. Алгоритм был предложен Лео Брейманом в 2001 году и с тех пор стал одним из наиболее используемых методов в задачах классификации и регрессии. Основное преимущество Random Forest — способность снижать дисперсию модели без существенного…
-
Метод нелинейного снижения размерности t-SNE
Высокая размерность данных создает фундаментальную проблему — датасеты с сотнями и тысячами признаков плохо обучаются в моделях машинного обучения, плюс их невозможно визуализировать, что затрудняет понимание структуры данных, выявление паттернов и валидацию гипотез. Методы снижения размерности решают эту задачу, проецируя многомерные данные в пространство низкой размерности с сохранением важных характеристик исходного распределения. Однако не все…
-
Детекция аномалий через Isolation Forest
Аномалии в данных бывают разными. Большинство — это шум, ошибки сбора, сбитые логи или просто разовые всплески, которые искажают распределения и ухудшают работу моделей. Но среди них могут встречаться действительно важные точки — те, что указывают на сбои в системах, подозрительные действия пользователей или нетипичную динамику бизнес-показателей. В большинстве примеров из учебных пособий аномалии легко…
-
Машинное обучение для A/B тестов: практический гайд по CUPAC
A/B-тестирование остается основным инструментом для принятия продуктовых решений в технологических компаниях. Главная проблема — высокая дисперсия метрик, из-за которой требуется несколько недель или даже месяцев, чтобы достичь статистической значимости. Длительные эксперименты замедляют итерации и увеличивают альтернативные издержки. Классический подход к снижению дисперсии — метод CUPED. Он использует исторические значения целевой метрики для корректировки результатов. Метод…
-
Долгосрочное прогнозирование динамики облигаций с помощью ансамбля статистических моделей
Долгосрочное прогнозирование динамики облигаций — одна из самых сложных задач финансовой аналитики. На горизонтах в 12 месяцев и более даже относительно стабильные рынки перестают вести себя «гладко»: усиливается влияние макроэкономических факторов, процентных ставок, медленных структурных сдвигов и поведенческих эффектов, что приводит к асимметричным реакциям на риски. В таких условиях многие модели машинного обучения формируют смещенные…
-
Продвинутые способы кросс-валидации, разделения выборок рядов: Expanding Window Splitter, Blocked Time Series Split и другие
Традиционно в задачах прогнозирования для разделения выборок временных рядов используется метод TimeSeriesSplit из библиотеки scikit-learn. Этот подход гарантирует сохранение хронологической последовательности: обучающая выборка всегда предшествует тестовой, исключая утечку информации из будущего. TimeSeriesSplit создает несколько последовательных сплитов с постепенно расширяющимся окном обучения, что позволяет надежно оценить обобщающую способность модели на будущих данных и является стандартом в большинстве…
-
Деревья решений: алгоритм CART, критерии разбиения и практическое применение
Деревья решений относятся к фундаментальным алгоритмам машинного обучения, которые находят применение в задачах классификации и регрессии. Их ключевое преимущество — интерпретируемость: модель представляет собой последовательность логических правил, понятных даже неспециалисту. По своей структуре дерево решений имитирует процесс принятия решений человеком, последовательно разбивая данные на все более однородные группы на основе наиболее значимых признаков. Процесс построения…
-
Регуляризация: L1 (Lasso) vs L2 (Ridge). Борьба с переобучением, отбор признаков
Переобучение остается одной из центральных проблем в машинном обучении. Модель запоминает шум в обучающей выборке вместо выявления истинных закономерностей, что приводит к деградации качества на новых данных. Регуляризация решает эту проблему через добавление штрафа на сложность модели в целевую функцию. Два основных подхода — L1 (Lasso) и L2 (Ridge) — различаются не только математически, но…