-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Детекция аномалий через Isolation Forest
Аномалии в данных бывают разными. Большинство — это шум, ошибки сбора, сбитые логи или просто разовые всплески, которые искажают распределения и ухудшают работу моделей. Но среди них могут встречаться действительно важные точки — те, что указывают на сбои в системах, подозрительные действия пользователей или нетипичную динамику бизнес-показателей. В большинстве примеров из учебных пособий аномалии легко…
-
Мониторинг ML-моделей: детекция дрифта и снижения метрик качества
Модель обучена, метрики на валидации отличные, деплой в продакшен прошел успешно. Через два месяца точность падает на 15%, а через полгода модель работает хуже бейзлайна. Деградация качества ML-моделей в продакшене — это, увы, довольно частое явление. Данные меняются, распределения сдвигаются, зависимости трансформируются. Мониторинг ML-моделей позволяет обнаружить проблемы до того, как они повлияют на бизнес-метрики. Система…
-
Показатели ликвидности акций и методы их расчета
Ликвидность определяет возможность быстро купить или продать актив без существенного влияния на его цену. Для алгоритмической торговли это критический параметр: низкая ликвидность увеличивает издержки исполнения, ограничивает размер позиций и повышает риски проскальзываний. Количественная оценка ликвидности позволяет фильтровать торгуемую вселенную, оптимизировать исполнение ордеров и лучше управлять рисками портфеля. Ликвидность имеет несколько измерений: объем торгов, ширину спреда,…
-
Алгоритмы сбора биржевых данных: практическое руководство
Финансовые рынки генерируют колоссальные объемы данных: котировки тысяч активов, отчеты компаний, новостные потоки. Умение быстро и качественно собирать, обрабатывать и агрегировать эти данные — важное конкурентное преимущество. Профессиональный подход к сбору биржевых данных — это не просто загрузка котировок. Это комплексная система, включающая мониторинг источников, обработку аномалий, синхронизацию временных рядов из разных источников и построение…
-
Применение NumPy для финансового анализа
За годы работы в сфере data science я убедился, что правильно организованная работа с массивами данных может кардинально повысить качество аналитики и точность прогнозов. NumPy, как фундаментальная библиотека для научных вычислений в Python, предоставляет мощные инструменты, которые я ежедневно применяю в своей практике. В этой статье я подробно рассмотрю методы эффективной работы с финансовыми данными…
-
Поиск аномалий в данных с Python
Аномалии в данных (или выбросы) представляют собой нетипичные, необычные или экстремальные значения, которые могут указывать на ошибки, всплески, странные события, атаку конкурентов, мошенников и другие потенциальные проблемы. Большое количество аномалий не только пагубно влияет на многие бизнес-модели, но еще может затруднить машинное обучение или вовсе исказить его результаты. Вот почему их важно обнаруживать и работать…
-
Ad hoc анализ трафика сайтов с помощью SQL и Python
Ad hoc анализ — это метод исследования данных, который фокусируется на конкретных бизнес-вопросах или проблемах, возникающих в режиме реального времени. В контексте анализа трафика сайтов, ad hoc подход позволяет нам быстро реагировать на неожиданные тренды, аномалии или возможности, которые могут быть упущены при стандартном регулярном анализе. В этой статье я поделюсь своим опытом использования SQL…
-
Поиск и анализ аномалий в сырых данных веб-аналитики с помощью Python
Аномалии в трафике, конверсиях, поведении пользователей на сайте могут рассказать многое о здоровье веб-сайта. И если научиться их своевременно выявлять, то можно сэкономить множество сил, нервов, времени и денег. Простой пример — аномально высокая конверсия по одной из целей может быть следствием «наплыва» ботов на сайт и если это вовремя не обнаружить и не остановить…
-
Автоматизация процессов анализа данных с помощью Python
Python стал de facto стандартом в мире data science, и на это есть веские причины. Его гибкость, простота синтаксиса и богатая экосистема библиотек делают его идеальным инструментом для автоматизации рутинных задач, связанных с обработкой и анализом данных. В этой статье я поделюсь своим опытом и расскажу, как Python может помочь вам оптимизировать рабочие процессы, повысить…