-
Масштабирование признаков в ML: StandardScaler, MinMaxScaler, RobustScaler и другие методы
Масштабирование признаков — базовая процедура предобработки данных, влияющая на скорость обучения и качество предсказаний большинства алгоритмов машинного обучения. Признаки в датасете часто имеют разные единицы измерения и диапазоны значений: цена акции может варьироваться от $10 до $500, объем торгов — от сотен тысяч до миллиардов, а волатильность измеряется в процентах от 5% до 80%. Без…
-
Градиентный бустинг: концепция и механизм работы
Градиентный бустинг относится к семейству ансамблевых методов машинного обучения, где финальное предсказание формируется как взвешенная сумма предсказаний множества слабых моделей. Ключевое отличие от других ансамблевых подходов — последовательное обучение, при котором каждая новая модель корректирует ошибки предыдущих. Алгоритм строит композицию из простых моделей (чаще всего деревьев решений малой глубины), добавляя их итеративно и минимизируя функцию…
-
Машинное обучение для A/B тестов: практический гайд по CUPAC
A/B-тестирование остается основным инструментом для принятия продуктовых решений в технологических компаниях. Главная проблема — высокая дисперсия метрик, из-за которой требуется несколько недель или даже месяцев, чтобы достичь статистической значимости. Длительные эксперименты замедляют итерации и увеличивают альтернативные издержки. Классический подход к снижению дисперсии — метод CUPED. Он использует исторические значения целевой метрики для корректировки результатов. Метод…
-
Продвинутые способы кросс-валидации, разделения выборок рядов: Expanding Window Splitter, Blocked Time Series Split и другие
Традиционно в задачах прогнозирования для разделения выборок временных рядов используется метод TimeSeriesSplit из библиотеки scikit-learn. Этот подход гарантирует сохранение хронологической последовательности: обучающая выборка всегда предшествует тестовой, исключая утечку информации из будущего. TimeSeriesSplit создает несколько последовательных сплитов с постепенно расширяющимся окном обучения, что позволяет надежно оценить обобщающую способность модели на будущих данных и является стандартом в большинстве…
-
Деревья решений: алгоритм CART, критерии разбиения и практическое применение
Деревья решений относятся к фундаментальным алгоритмам машинного обучения, которые находят применение в задачах классификации и регрессии. Их ключевое преимущество — интерпретируемость: модель представляет собой последовательность логических правил, понятных даже неспециалисту. По своей структуре дерево решений имитирует процесс принятия решений человеком, последовательно разбивая данные на все более однородные группы на основе наиболее значимых признаков. Процесс построения…
-
Топ-10 лучших инструментов MLOps: сравнение и выбор
Сегодня MLOps стал неотъемлемой частью любого серьезного проекта в data science. Стек MLOps объединяет практики разработки, развертывания и поддержки ML-моделей в продакшене. Эти инструменты предоставляют единую платформу для управления жизненным циклом моделей. Основные проблемы, которые решают MLOps-платформы: Воспроизводимость экспериментов; Отслеживание метрик и гиперпараметров; Версионирование данных и моделей; Автоматизация деплоя; Мониторинг перформанса в продакшене. Выбор MLOps-стека…
-
Feature Store: централизованное хранилище признаков для ML
ML-проекты часто сталкиваются с проблемой разрозненного управления признаками. Дата-сайентисты создают признаки в Jupyter-ноутбуках, ML-инженеры переписывают их для продакшена, а через несколько месяцев уже никто не помнит, какие именно трансформации применялись к обучающим данным. Результат — несоответствие между обучением и инференсом, дублирование работы и сложности с воспроизводимостью экспериментов. Хранилище признаков (Feature Store) решает эти проблемы через…
-
Чем отличается финансовый ML от других видов машинного обучения
Машинное обучение в финансах работает с данными, которые принципиально отличаются от изображений, текстов или табличных данных из других отраслей. Финансовые временные ряды нестационарны, зашумлены и подвержены частым структурным изменениям. Эти особенности требуют специфических подходов к моделированию, валидации и оценке качества. Сегодня стало модно подавать любые данные в трансформеры, большие языковые модели. Однако этот подход, как…
-
Техники энкодинга (encoding) категориальных атрибутов
Категориальные атрибуты представляют собой дискретные значения, которые не имеют естественного числового порядка или измеримого расстояния между категориями. В финансовой аналитике такими переменными могут быть секторы экономики, рейтинги кредитоспособности, типы финансовых инструментов или временные метки торговых сессий. Ключевая проблема заключается в том, что алгоритмы машинного обучения работают исключительно с числовыми данными, требуя преобразования категориальных признаков в…
-
Метрики качества ML-моделей: Accuracy, Precision, Recall, F1 Score, ROC-AUC
Когда мы создаем или обучаем модель машинного обучения, один из первых вопросов, который возникает: насколько хорошо она работает? Ответить на него не так просто, ведь разные задачи требуют разных критериев оценки, и не существует универсальной метрики для всех случаев. Поэтому в практике Data Science применяют целый набор показателей, позволяющих рассмотреть модель с разных сторон и…