-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Случайный лес (Random Forest): механика алгоритма, Бутстрэп-агрегирование, out-of-bag оценка
Random Forest или Случайный лес — это ансамблевый алгоритм машинного обучения, объединяющий множество деревьев решений для повышения точности и устойчивости предсказаний. Алгоритм был предложен Лео Брейманом в 2001 году и с тех пор стал одним из наиболее используемых методов в задачах классификации и регрессии. Основное преимущество Random Forest — способность снижать дисперсию модели без существенного…
-
Метод нелинейного снижения размерности t-SNE
Высокая размерность данных создает фундаментальную проблему — датасеты с сотнями и тысячами признаков плохо обучаются в моделях машинного обучения, плюс их невозможно визуализировать, что затрудняет понимание структуры данных, выявление паттернов и валидацию гипотез. Методы снижения размерности решают эту задачу, проецируя многомерные данные в пространство низкой размерности с сохранением важных характеристик исходного распределения. Однако не все…
-
Детекция аномалий через Isolation Forest
Аномалии в данных бывают разными. Большинство — это шум, ошибки сбора, сбитые логи или просто разовые всплески, которые искажают распределения и ухудшают работу моделей. Но среди них могут встречаться действительно важные точки — те, что указывают на сбои в системах, подозрительные действия пользователей или нетипичную динамику бизнес-показателей. В большинстве примеров из учебных пособий аномалии легко…
-
Деревья решений: алгоритм CART, критерии разбиения и практическое применение
Деревья решений относятся к фундаментальным алгоритмам машинного обучения, которые находят применение в задачах классификации и регрессии. Их ключевое преимущество — интерпретируемость: модель представляет собой последовательность логических правил, понятных даже неспециалисту. По своей структуре дерево решений имитирует процесс принятия решений человеком, последовательно разбивая данные на все более однородные группы на основе наиболее значимых признаков. Процесс построения…
-
Жадные алгоритмы: базовые принципы и их применение в количественном анализе
Жадные алгоритмы представляют класс методов оптимизации, которые принимают локально оптимальные решения на каждом шаге без пересмотра предыдущих выборов. В количественном анализе такой подход находит применение в задачах отбора активов, оптимизации исполнения ордеров и построения предиктивных моделей. Эффективность жадных алгоритмов обусловлена низкой вычислительной сложностью — большинство реализаций работают за O(n log n) или O(n²), что позволяет…
-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Важность признаков полученных из ML-моделей (Feature Importance)
Важность признаков (Feature Importance) — инструмент для понимания того, какие переменные вносят наибольший вклад в предсказания модели. Методы оценки важности признаков решают несколько практических задач: отбор релевантных предикторов, детекцию утечек данных, снижение размерности для ускорения инференса. Выбор метода зависит от типа модели, структуры данных и требований к интерпретируемости. Разные подходы к оценке важности дают разные…
-
Прогнозирование вероятности дефолта через логистическую регрессию
Прогнозирование вероятности дефолта — одна из ключевых задач в управлении кредитными рисками, которая помогает банкам, инвестиционным компаниям и бизнесу принимать более взвешенные решения. Существует множество инструментов для таких прогнозов, хотя логистическая регрессия — пожалуй, наиболее популярный. Она позволяет на основе набора факторов (например, дохода клиента, кредитной истории, уровня долговой нагрузки) оценить вероятность того, что заемщик…