-
Виды функций потерь в машинном обучении
Функция потерь — это способ «сообщить» модели, какие ошибки наиболее критичны. Математическая формулировка напрямую влияет на поведение модели во время обучения: какие ошибки минимизируются в приоритетном порядке, как модель реагирует на выбросы и насколько агрессивно оптимизирует параметры. Оптимизация этой функции через градиентный спуск составляет основу обучения моделей машинного обучения. Разные типы задач требуют разных функций…
-
Градиенты: от затухания до взрыва. Методы стабилизации
Глубокие нейронные сети решают задачи классификации, регрессии и прогнозирования временных рядов. Обучение таких моделей основано на методе обратного распространения ошибки (backpropagation), который вычисляет градиенты функции потерь по параметрам сети. Градиенты определяют направление и величину обновления весов. Чем больше нейронная сеть, тем сложнее контролировать градиенты. В сетях с десятками слоев возникает проблема: градиенты либо экспоненциально уменьшаются…
-
Прогнозирование временных рядов с xLSTM
Классические модели прогнозирования временных рядов, такие как градиентный бустинг, хорошо работают на табличных данных и с короткими историческими окнами. Однако при анализе длинных последовательностей и рядов с взаимозависимыми признаками их эффективность драматически падает. В таких случаях стоит присмотреться к нейронным сетям, так как они лучше моделируют сложные временные зависимости. Одним из интересных решений в этой…
-
Основы MLOps: как развернуть ML-модель в production
В последние годы MLOps стал неотъемлемой частью жизненного цикла машинного обучения. Если раньше работа дата-сайентиста заканчивалась на этапе обучения модели, то сегодня ключевая задача — обеспечить стабильное и масштабируемое развертывание модели в production. MLOps объединяет подходы DevOps и машинного обучения, помогая автоматизировать процесс от подготовки данных и обучения до мониторинга и обновления моделей. Это позволяет…
-
LSTM для прогнозирования волатильности: многослойные архитектуры и sequence-to-sequence подходы
В течение последних нескольких лет работы с временными рядами финансовых данных я неоднократно сталкивался с проблемой прогнозирования волатильности. Классические GARCH модели и их вариации показывают ограниченную эффективность при краткосрочных и intraday-стратегиях, особенно когда рынок демонстрирует резкие структурные сдвиги. Сегодня хочу поделиться своими наблюдениями о применении LSTM архитектур для решения этой задачи — от базовых многослойных…
-
Нейросети для прогнозирования последовательных данных
В мире, где объемы данных растут экспоненциально, способность точно прогнозировать будущие значения становится не просто конкурентным преимуществом, а необходимостью. Для решения этой задачи все больше компаний внедряют машинное обучение. И самым передовым подходом машинного обучения являются нейронные сети. Нейросети сегодня применяются для разного круга задач: детекция изображений, генерация текста и изображений, саммаризация и т. д.…
-
Что такое градиентный спуск и как он используется для оптимизации функций?
Градиентный спуск — это не просто метод оптимизации. Это философия поиска оптимума, основанная на понимании локальной геометрии функции потерь. Алгоритм этого метода довольно прост: движение в направлении, противоположном градиенту, с целью прийти к минимуму. Однако за этой простотой скрывается удивительная глубина, которую я постараюсь раскрыть в этой статье. Математические основы: геометрия оптимизации Прежде чем погружаться…
-
Foundation-модели для временных рядов
В последние годы я наблюдаю значительный прогресс исследований в области анализа временных рядов. В том числе в ML-моделях. То, что раньше требовало месяцев кропотливой работы, связанной с генерацией признаков и тонкой настройки специализированных моделей, теперь может быть решено с помощью Foundation-моделей буквально за несколько часов. Эта технология не просто улучшает точность прогнозов — она полностью…
-
PatchTST: Трансформер для прогнозирования временных рядов
За последние годы область прогнозирования временных рядов сделала ощутимый скачок вперед благодаря внедрению архитектур трансформеров. Если раньше в этой области полновластно доминировали бустинги, рекуррентные нейронные сети и классические статистические методы, то сегодня мы наблюдаем настоящий прорыв в точности и эффективности нейросетевых моделей. Одной из наиболее значимых инноваций стала архитектура PatchTST, которая не просто адаптировала трансформеры…
-
Вероятностные модели для прогнозирования цен биржевых активов
В этой статье я хочу поделиться своим подходом к использованию вероятностных моделей для прогнозирования цен активов. Мы разберем, почему традиционные методы часто подводят, какие подходы применяют профессионалы в хедж-фондах, и как вы можете использовать Python для реализации таких моделей. Моя цель — создать подробное руководство, которое будет полезно как для профессионалов в области data science,…