-
Мониторинг ML-моделей: детекция дрифта и снижения метрик качества
Модель обучена, метрики на валидации отличные, деплой в продакшен прошел успешно. Через два месяца точность падает на 15%, а через полгода модель работает хуже бейзлайна. Деградация качества ML-моделей в продакшене — это, увы, довольно частое явление. Данные меняются, распределения сдвигаются, зависимости трансформируются. Мониторинг ML-моделей позволяет обнаружить проблемы до того, как они повлияют на бизнес-метрики. Система…
-
Основы MLOps: как развернуть ML-модель в production
В последние годы MLOps стал неотъемлемой частью жизненного цикла машинного обучения. Если раньше работа дата-сайентиста заканчивалась на этапе обучения модели, то сегодня ключевая задача — обеспечить стабильное и масштабируемое развертывание модели в production. MLOps объединяет подходы DevOps и машинного обучения, помогая автоматизировать процесс от подготовки данных и обучения до мониторинга и обновления моделей. Это позволяет…
-
Алгоритмы сбора биржевых данных: практическое руководство
Финансовые рынки генерируют колоссальные объемы данных: котировки тысяч активов, отчеты компаний, новостные потоки. Умение быстро и качественно собирать, обрабатывать и агрегировать эти данные — важное конкурентное преимущество. Профессиональный подход к сбору биржевых данных — это не просто загрузка котировок. Это комплексная система, включающая мониторинг источников, обработку аномалий, синхронизацию временных рядов из разных источников и построение…
-
Базы данных для хранения торговых данных: PostgreSQL, Redis, TimescaleDB
Современные торговые системы требуют гибридного подхода к управлению данными. С одной стороны, нужно надежно хранить терабайты исторической информации для анализа и разработки стратегий. С другой — обеспечивать мгновенный доступ к актуальным котировкам и торговым сигналам. Именно поэтому в своих проектах я использую не одну, а несколько СУБД. И ниже расскажу какие и почему. Специфика торговых…
-
Поиск аномалий в данных с Python
Аномалии в данных (или выбросы) представляют собой нетипичные, необычные или экстремальные значения, которые могут указывать на ошибки, всплески, странные события, атаку конкурентов, мошенников и другие потенциальные проблемы. Большое количество аномалий не только пагубно влияет на многие бизнес-модели, но еще может затруднить машинное обучение или вовсе исказить его результаты. Вот почему их важно обнаруживать и работать…
-
Поиск и анализ аномалий в сырых данных веб-аналитики с помощью Python
Аномалии в трафике, конверсиях, поведении пользователей на сайте могут рассказать многое о здоровье веб-сайта. И если научиться их своевременно выявлять, то можно сэкономить множество сил, нервов, времени и денег. Простой пример — аномально высокая конверсия по одной из целей может быть следствием «наплыва» ботов на сайт и если это вовремя не обнаружить и не остановить…
-
Автоматизация процессов анализа данных с помощью Python
Python стал de facto стандартом в мире data science, и на это есть веские причины. Его гибкость, простота синтаксиса и богатая экосистема библиотек делают его идеальным инструментом для автоматизации рутинных задач, связанных с обработкой и анализом данных. В этой статье я поделюсь своим опытом и расскажу, как Python может помочь вам оптимизировать рабочие процессы, повысить…