-
Скользящие оконные функции в Pandas
Скользящие оконные функции решают фундаментальную задачу анализа временных рядов: извлечение локальных паттернов из последовательных данных. Метод основан на применении агрегирующих операций к подмножествам наблюдений фиксированного размера, которые последовательно сдвигаются вдоль временной оси. Библиотека Pandas предоставляет три типа окон для работы с временными рядами: rolling — фиксированный размер; expanding — растущее от начала; exponentially weighted —…
-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Метод нелинейного снижения размерности t-SNE
Высокая размерность данных создает фундаментальную проблему — датасеты с сотнями и тысячами признаков плохо обучаются в моделях машинного обучения, плюс их невозможно визуализировать, что затрудняет понимание структуры данных, выявление паттернов и валидацию гипотез. Методы снижения размерности решают эту задачу, проецируя многомерные данные в пространство низкой размерности с сохранением важных характеристик исходного распределения. Однако не все…
-
Регуляризация: L1 (Lasso) vs L2 (Ridge). Борьба с переобучением, отбор признаков
Переобучение остается одной из центральных проблем в машинном обучении. Модель запоминает шум в обучающей выборке вместо выявления истинных закономерностей, что приводит к деградации качества на новых данных. Регуляризация решает эту проблему через добавление штрафа на сложность модели в целевую функцию. Два основных подхода — L1 (Lasso) и L2 (Ridge) — различаются не только математически, но…
-
Жадные алгоритмы: базовые принципы и их применение в количественном анализе
Жадные алгоритмы представляют класс методов оптимизации, которые принимают локально оптимальные решения на каждом шаге без пересмотра предыдущих выборов. В количественном анализе такой подход находит применение в задачах отбора активов, оптимизации исполнения ордеров и построения предиктивных моделей. Эффективность жадных алгоритмов обусловлена низкой вычислительной сложностью — большинство реализаций работают за O(n log n) или O(n²), что позволяет…
-
Feature Store: централизованное хранилище признаков для ML
ML-проекты часто сталкиваются с проблемой разрозненного управления признаками. Дата-сайентисты создают признаки в Jupyter-ноутбуках, ML-инженеры переписывают их для продакшена, а через несколько месяцев уже никто не помнит, какие именно трансформации применялись к обучающим данным. Результат — несоответствие между обучением и инференсом, дублирование работы и сложности с воспроизводимостью экспериментов. Хранилище признаков (Feature Store) решает эти проблемы через…
-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Важность признаков полученных из ML-моделей (Feature Importance)
Важность признаков (Feature Importance) — инструмент для понимания того, какие переменные вносят наибольший вклад в предсказания модели. Методы оценки важности признаков решают несколько практических задач: отбор релевантных предикторов, детекцию утечек данных, снижение размерности для ускорения инференса. Выбор метода зависит от типа модели, структуры данных и требований к интерпретируемости. Разные подходы к оценке важности дают разные…
-
Чем отличается финансовый ML от других видов машинного обучения
Машинное обучение в финансах работает с данными, которые принципиально отличаются от изображений, текстов или табличных данных из других отраслей. Финансовые временные ряды нестационарны, зашумлены и подвержены частым структурным изменениям. Эти особенности требуют специфических подходов к моделированию, валидации и оценке качества. Сегодня стало модно подавать любые данные в трансформеры, большие языковые модели. Однако этот подход, как…
-
Техники энкодинга (encoding) категориальных атрибутов
Категориальные атрибуты представляют собой дискретные значения, которые не имеют естественного числового порядка или измеримого расстояния между категориями. В финансовой аналитике такими переменными могут быть секторы экономики, рейтинги кредитоспособности, типы финансовых инструментов или временные метки торговых сессий. Ключевая проблема заключается в том, что алгоритмы машинного обучения работают исключительно с числовыми данными, требуя преобразования категориальных признаков в…