-
Случайный лес (Random Forest): механика алгоритма, Бутстрэп-агрегирование, out-of-bag оценка
Random Forest или Случайный лес — это ансамблевый алгоритм машинного обучения, объединяющий множество деревьев решений для повышения точности и устойчивости предсказаний. Алгоритм был предложен Лео Брейманом в 2001 году и с тех пор стал одним из наиболее используемых методов в задачах классификации и регрессии. Основное преимущество Random Forest — способность снижать дисперсию модели без существенного…
-
Виды функций потерь в машинном обучении
Функция потерь — это способ «сообщить» модели, какие ошибки наиболее критичны. Математическая формулировка напрямую влияет на поведение модели во время обучения: какие ошибки минимизируются в приоритетном порядке, как модель реагирует на выбросы и насколько агрессивно оптимизирует параметры. Оптимизация этой функции через градиентный спуск составляет основу обучения моделей машинного обучения. Разные типы задач требуют разных функций…
-
Градиенты: от затухания до взрыва. Методы стабилизации
Глубокие нейронные сети решают задачи классификации, регрессии и прогнозирования временных рядов. Обучение таких моделей основано на методе обратного распространения ошибки (backpropagation), который вычисляет градиенты функции потерь по параметрам сети. Градиенты определяют направление и величину обновления весов. Чем больше нейронная сеть, тем сложнее контролировать градиенты. В сетях с десятками слоев возникает проблема: градиенты либо экспоненциально уменьшаются…
-
Регуляризация: L1 (Lasso) vs L2 (Ridge). Борьба с переобучением, отбор признаков
Переобучение остается одной из центральных проблем в машинном обучении. Модель запоминает шум в обучающей выборке вместо выявления истинных закономерностей, что приводит к деградации качества на новых данных. Регуляризация решает эту проблему через добавление штрафа на сложность модели в целевую функцию. Два основных подхода — L1 (Lasso) и L2 (Ridge) — различаются не только математически, но…
-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Важность признаков полученных из ML-моделей (Feature Importance)
Важность признаков (Feature Importance) — инструмент для понимания того, какие переменные вносят наибольший вклад в предсказания модели. Методы оценки важности признаков решают несколько практических задач: отбор релевантных предикторов, детекцию утечек данных, снижение размерности для ускорения инференса. Выбор метода зависит от типа модели, структуры данных и требований к интерпретируемости. Разные подходы к оценке важности дают разные…
-
Чем отличается финансовый ML от других видов машинного обучения
Машинное обучение в финансах работает с данными, которые принципиально отличаются от изображений, текстов или табличных данных из других отраслей. Финансовые временные ряды нестационарны, зашумлены и подвержены частым структурным изменениям. Эти особенности требуют специфических подходов к моделированию, валидации и оценке качества. Сегодня стало модно подавать любые данные в трансформеры, большие языковые модели. Однако этот подход, как…
-
Настройки градиентного бустинга. Гиперпараметры бустинговых ML-моделей
Градиентный бустинг занимает особое место в арсенале финансовых аналитиков. В отличие от примитивных методов вроде линейной регрессии или банальных индикаторов технического анализа, бустинговые алгоритмы способны улавливать сложные нелинейные зависимости в данных, что особенно важно при работе с финансовыми временными рядами. Однако их эффективность напрямую зависит от корректной настройки множества гиперпараметров, каждый из которых влияет на…
-
Метрики качества ML-моделей: Accuracy, Precision, Recall, F1 Score, ROC-AUC
Когда мы создаем или обучаем модель машинного обучения, один из первых вопросов, который возникает: насколько хорошо она работает? Ответить на него не так просто, ведь разные задачи требуют разных критериев оценки, и не существует универсальной метрики для всех случаев. Поэтому в практике Data Science применяют целый набор показателей, позволяющих рассмотреть модель с разных сторон и…
-
Методы разделения деревьев решений: Gini, Энтропия, Gain Ratio, Хи-квадрат, Variance Reduction, Classification Error
Деревья решений остаются одним из самых интуитивно понятных и мощных инструментов в арсенале специалиста по данным. Выбор критерия разделения деревьев без преувеличения влияет на все: от скорости обучения до интерпретируемости результатов. В процессе работы с финансовыми данными я обнаружил, что разные критерии могут давать совершенно разные результаты даже на одних и тех же данных. Некоторые…