-
Регуляризация: L1 (Lasso) vs L2 (Ridge). Борьба с переобучением, отбор признаков
Переобучение остается одной из центральных проблем в машинном обучении. Модель запоминает шум в обучающей выборке вместо выявления истинных закономерностей, что приводит к деградации качества на новых данных. Регуляризация решает эту проблему через добавление штрафа на сложность модели в целевую функцию. Два основных подхода — L1 (Lasso) и L2 (Ridge) — различаются не только математически, но…
-
Жадные алгоритмы: базовые принципы и их применение в количественном анализе
Жадные алгоритмы представляют класс методов оптимизации, которые принимают локально оптимальные решения на каждом шаге без пересмотра предыдущих выборов. В количественном анализе такой подход находит применение в задачах отбора активов, оптимизации исполнения ордеров и построения предиктивных моделей. Эффективность жадных алгоритмов обусловлена низкой вычислительной сложностью — большинство реализаций работают за O(n log n) или O(n²), что позволяет…
-
Feature Store: централизованное хранилище признаков для ML
ML-проекты часто сталкиваются с проблемой разрозненного управления признаками. Дата-сайентисты создают признаки в Jupyter-ноутбуках, ML-инженеры переписывают их для продакшена, а через несколько месяцев уже никто не помнит, какие именно трансформации применялись к обучающим данным. Результат — несоответствие между обучением и инференсом, дублирование работы и сложности с воспроизводимостью экспериментов. Хранилище признаков (Feature Store) решает эти проблемы через…
-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Важность признаков полученных из ML-моделей (Feature Importance)
Важность признаков (Feature Importance) — инструмент для понимания того, какие переменные вносят наибольший вклад в предсказания модели. Методы оценки важности признаков решают несколько практических задач: отбор релевантных предикторов, детекцию утечек данных, снижение размерности для ускорения инференса. Выбор метода зависит от типа модели, структуры данных и требований к интерпретируемости. Разные подходы к оценке важности дают разные…
-
Чем отличается финансовый ML от других видов машинного обучения
Машинное обучение в финансах работает с данными, которые принципиально отличаются от изображений, текстов или табличных данных из других отраслей. Финансовые временные ряды нестационарны, зашумлены и подвержены частым структурным изменениям. Эти особенности требуют специфических подходов к моделированию, валидации и оценке качества. Сегодня стало модно подавать любые данные в трансформеры, большие языковые модели. Однако этот подход, как…
-
Техники энкодинга (encoding) категориальных атрибутов
Категориальные атрибуты представляют собой дискретные значения, которые не имеют естественного числового порядка или измеримого расстояния между категориями. В финансовой аналитике такими переменными могут быть секторы экономики, рейтинги кредитоспособности, типы финансовых инструментов или временные метки торговых сессий. Ключевая проблема заключается в том, что алгоритмы машинного обучения работают исключительно с числовыми данными, требуя преобразования категориальных признаков в…
-
Лаговые переменные и их правильное использование. Избегаем data leakage в финансовых моделях
В трейдинге и количественном анализе существует ряд ошибок, которые могут полностью уничтожить потенциальную прибыльность модели. Одна из таких — неправильное использование лаговых переменных, она приводит к утечке данных (data leakage). Эта проблема особенно критична в финансовых моделях, где требуется быстрая реакция на изменения рынка. В отличие от многих других областей машинного обучения, где порядок наблюдений…
-
Метод главных компонент (PCA) и факторный анализ (FA) данных
В современном мире анализа данных мы постоянно сталкиваемся с проблемой «проклятия размерности» — ситуацией, когда количество признаков в датасете становится настолько большим, что традиционные методы анализа начинают давать сбои. Метод главных компонент (Principal Component Analysis, PCA) и факторный анализ (Factor Analysis, FA) представляют собой два фундаментальных подхода к решению этой проблемы, каждый из которых имеет…
-
Прогнозирование трафика и конверсий сайта с помощью Catboost
За последние годы я реализовал множество проектов по прогнозированию метрик веб-сайтов, и могу с уверенностью сказать, что алгоритм CatBoost от Яндекса произвел настоящую революцию в этой области. В данной статье я поделюсь своим опытом использования CatBoost для создания точных прогнозов трафика и конверсий, а также расскажу о тонкостях работы с этим инструментом на реальных данных…