-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Настройки градиентного бустинга. Гиперпараметры бустинговых ML-моделей
Градиентный бустинг занимает особое место в арсенале финансовых аналитиков. В отличие от примитивных методов вроде линейной регрессии или банальных индикаторов технического анализа, бустинговые алгоритмы способны улавливать сложные нелинейные зависимости в данных, что особенно важно при работе с финансовыми временными рядами. Однако их эффективность напрямую зависит от корректной настройки множества гиперпараметров, каждый из которых влияет на…
-
Прогнозирование трафика и конверсий сайта с помощью Catboost
За последние годы я реализовал множество проектов по прогнозированию метрик веб-сайтов, и могу с уверенностью сказать, что алгоритм CatBoost от Яндекса произвел настоящую революцию в этой области. В данной статье я поделюсь своим опытом использования CatBoost для создания точных прогнозов трафика и конверсий, а также расскажу о тонкостях работы с этим инструментом на реальных данных…