Байесовская статистика предоставляет инструменты для решения ключевых проблем количественного анализа: учет режимных сдвигов, калибровка моделей на ограниченных выборках, оптимизация гиперпараметров стратегий и управление риском переобучения.
Байесовский подход рассматривает вероятность как степень уверенности в гипотезе, а не как частоту события в бесконечной серии испытаний. Параметры модели становятся случайными величинами с распределениями, которые обновляются по мере поступления новых данных. Это позволяет естественным образом интегрировать предыдущие знания о рынке, количественно оценивать неопределенность прогнозов и адаптировать модели к изменяющимся условиям.
Теорема Байеса и обновление убеждений
Теорема Байеса связывает априорные убеждения о параметрах модели с апостериорными распределениями после наблюдения данных:
P(θ|D) = P(D|θ) × P(θ) / P(D)
где:
- θ — параметры модели (например, коэффициенты регрессии, волатильность);
- D — наблюдаемые данные (котировки, объемы, фундаментальные показатели);
- P(θ|D) — апостериорное распределение параметров после наблюдения данных;
- P(D|θ) — функция правдоподобия (вероятность данных при фиксированных параметрах);
- P(θ) — априорное распределение параметров до наблюдения данных;
- P(D) — маргинальное правдоподобие данных (нормализующая константа).
Теорема формализует процесс обновления убеждений:
- Априорное распределение P(θ) представляет начальные знания о параметрах;
- Функция правдоподобия P(D|θ) количественно оценивает согласованность данных с различными значениями параметров;
- Апостериорное распределение P(θ|D) синтезирует обе компоненты в обновленное представление о параметрах.
Маргинальное правдоподобие P(D) вычисляется как интеграл по всем возможным значениям параметров:
P(D) = ∫ P(D|θ) × P(θ) dθ
Эта величина служит нормализующей константой, обеспечивающей корректность апостериорного распределения как плотности вероятности. В задачах сравнения моделей маргинальное правдоподобие выступает мерой качества модели: оно автоматически штрафует излишнюю сложность через интегрирование по всему параметрическому пространству.
Априорные и апостериорные распределения
Априорное распределение P(θ) кодирует начальные убеждения о параметрах до анализа конкретных данных. В контексте рынков априорные убеждения могут основываться на экономической теории, результатах предыдущих исследований или экспертных оценках. Например, для волатильности актива разумно выбрать априорное распределение с положительной поддержкой и тяжелым правым хвостом, отражающим редкие периоды турбулентности.

Рис. 1: Априорное распределение, функция правдоподобия, апостериорное распределение
Выбор априорного распределения балансирует между информативностью и гибкостью. Слабо информативные приоры (широкие распределения с высокой дисперсией) минимально влияют на апостериорные выводы и позволяют данным доминировать в обновлении убеждений. Информативные приоры концентрируют вероятностную массу в регионах, которые считаются более правдоподобными на основе предыдущих знаний. Это особенно ценно при работе с малыми выборками, где данных недостаточно для надежной оценки всех параметров.
Апостериорное распределение P(θ|D) представляет обновленные убеждения после включения информации из данных. Форма апостериорного распределения определяется взаимодействием априорных убеждений и функции правдоподобия:
- При большом объеме данных влияние приора снижается, и апостериорное распределение концентрируется вокруг значений параметров, максимизирующих правдоподобие;
- При малых выборках приор играет регуляризующую роль, предотвращая экстремальные оценки параметров.
Последовательное применение теоремы Байеса позволяет непрерывно обновлять убеждения по мере поступления новых наблюдений. Апостериорное распределение после обработки первой порции данных становится априорным для следующей порции:
P(θ|D₁, D₂) = P(D₂|θ) × P(θ|D₁) / P(D₂)
Этот механизм естественным образом реализует адаптивное обучение в нестационарной среде финансовых рынков.
Функция правдоподобия
Функция правдоподобия P(D|θ) определяет вероятностную модель генерации наблюдаемых данных при заданных параметрах. Выбор правдоподобия должен отражать статистические свойства рыночных данных: гетероскедастичность, тяжелые хвосты распределения доходностей, кластеризацию волатильности.
Для доходностей активов стандартное нормальное распределение часто неадекватно из-за избыточного эксцесса реальных данных. Распределение Стьюдента с настраиваемым числом степеней свободы ν лучше описывает тяжелые хвосты:
P(r|μ, σ, ν) = Γ((ν+1)/2) / (Γ(ν/2) × √(νπ) × σ) × [1 + (r-μ)²/(ν×σ²)]^(-(ν+1)/2)
где:
- r — наблюдаемая доходность;
- μ — параметр сдвига (ожидаемая доходность);
- σ — параметр масштаба (волатильность);
- ν — число степеней свободы (контролирует толщину хвостов);
- Γ — гамма-функция.
При ν → ∞ распределение Стьюдента сходится к нормальному, при малых ν хвосты становятся тяжелее, адекватно описывая экстремальные движения рынка. Оценка параметра ν из данных позволяет модели самостоятельно определять степень отклонения от нормальности.

Рис. 2: Визуализация работы функции правдоподобия в различных сценариях
Для моделирования кластеризации волатильности функция правдоподобия может включать условную гетероскедастичность. В простейшем случае параметр масштаба σₜ становится функцией предыдущих наблюдений:
σₜ² = α₀ + α₁ × rₜ₋₁² + β₁ × σₜ₋₁²
Эта спецификация соответствует модели GARCH(1,1), где текущая волатильность зависит от предыдущего шока и предыдущей волатильности. Байесовский подход к оценке GARCH позволяет получить распределения всех параметров (α₀, α₁, β₁) и количественно оценить неопределенность прогнозов волатильности.
Функция правдоподобия напрямую определяет чувствительность апостериорных выводов к различным типам данных. Модели с тяжелыми хвостами менее чувствительны к выбросам, что важно для робастности в периоды рыночных кризисов. Неправильный выбор правдоподобия приводит к смещенным оценкам параметров и недооценке риска.
Байесовская интерпретация параметров моделей
Частотные методы возвращают точечные оценки параметров — одно число для каждого параметра модели. Стандартные ошибки и доверительные интервалы добавляются как вторичная информация, но основной результат остается детерминированным. Это создает ложное ощущение определенности: коэффициент β = 0.45 воспринимается как установленный факт, хотя истинное значение может существенно отличаться.
Байесовский подход явно представляет параметры как случайные величины с распределениями. Вместо единственного числа β = 0.45 получаем распределение P(β|D), которое полностью описывает неопределенность в значении параметра.
Апостериорное распределение может быть:
- Унимодальным и концентрированным (высокая уверенность);
- Мультимодальным (несколько правдоподобных значений);
- Широким и диффузным (высокая неопределенность).
Полное апостериорное распределение позволяет отвечать на вероятностные вопросы напрямую:
- Какова вероятность, что параметр β больше нуля? Интегрирование апостериорной плотности от 0 до ∞ дает точный ответ;
- Какова вероятность, что β лежит в интервале [0.3, 0.6]? Интеграл по этому интервалу.
Частотные методы не позволяют делать такие вероятностные утверждения о параметрах — параметр либо фиксирован (хотя неизвестен), либо вероятностная интерпретация требует гипотетических повторений эксперимента.
Количественное представление неопределенности крайне важно для управления рисками:
- Стратегия с параметрами, оцененными на малой выборке, имеет широкие апостериорные распределения, что сигнализирует о низкой надежности оценок;
- Модель с узкими распределениями параметров более надежна для продакшена.
Явное моделирование неопределенности позволяет калибровать размер позиций и риск-лимиты адекватно уверенности в параметрах.
Байесовские интервалы vs Частотные интервалы
Частотный доверительный интервал (confidence interval) интерпретируется следующим образом:
Если повторить процедуру построения интервала бесконечно много раз на разных выборках из того же распределения, то 95% построенных интервалов будут содержать истинное значение параметра. Конкретный интервал, построенный на имеющейся выборке, либо содержит истинное значение, либо нет — вероятность здесь относится к процедуре построения, а не к параметру.

Рис. 3: Байесовский интервал и частотный доверительный интервал
Байесовский интервал (credible interval) имеет прямую вероятностную интерпретацию:
95% апостериорной вероятностной массы параметра лежит внутри интервала. Утверждение «с вероятностью 95% параметр β находится между 0.3 и 0.6» математически корректно в байесовской парадигме. Это соответствует интуитивному пониманию интервала и упрощает принятие решений.
Центральный байесовский интервал (equal-tailed interval) размещает равные доли вероятности в обоих хвостах апостериорного распределения. 95% центральный интервал отсекает по 2.5% вероятности с каждого конца.
Альтернативный подход — интервал высшей плотности (highest density interval, HDI), который включает все значения параметра с апостериорной плотностью выше определенного порога. HDI гарантирует минимальную ширину интервала для заданной вероятности покрытия и лучше подходит для асимметричных распределений.
Для мультимодальных апостериорных распределений байесовские интервалы могут быть разрывными — несколько несвязных регионов параметрического пространства содержат высокую вероятностную массу. Это адекватно отражает ситуацию, когда данные поддерживают несколько альтернативных значений параметра. Частотные доверительные интервалы всегда непрерывны и не могут представить такую неопределенность.
Предиктивные распределения
Апостериорное распределение параметров P(θ|D) описывает неопределенность относительно параметров модели после наблюдения данных. Для прогнозирования будущих наблюдений требуется предиктивное распределение P(y*|D), которое маргинализует неопределенность параметров:
P(y*|D) = ∫ P(y*|θ) × P(θ|D) dθ
где:
- y* — будущее наблюдение (например, завтрашняя доходность);
- P(y*|θ) — модель генерации данных при известных параметрах;
- P(θ|D) — апостериорное распределение параметров;
- Интегрирование по θ — усреднение по всем правдоподобным значениям параметров.
Предиктивное распределение автоматически включает два источника неопределенности:
- Неопределенность параметров (epistemic uncertainty);
- Стохастичность самих данных (aleatoric uncertainty).
Модель с точно известными параметрами все равно дает неопределенные прогнозы из-за случайности рыночных движений. Неопределенность параметров добавляет дополнительную вариативность к прогнозам.

Рис. 4: Влияние размера выборки на ширину предиктивного распределения. Оценка VaR из предиктивного распределения
Ширина предиктивного распределения отражает общую неопределенность прогноза. При малых выборках апостериорные распределения параметров широкие, что приводит к широким предиктивным распределениям. По мере накопления данных апостериорные распределения сужаются, и ширина предиктивных распределений уменьшается, приближаясь к уровню, определяемому только стохастичностью данных.
Предиктивные распределения позволяют количественно оценивать риск экстремальных сценариев. Вероятность того, что завтрашняя доходность превысит определенный порог убытка, вычисляется как интеграл предиктивного распределения по соответствующей области. Это прямой способ расчета Value-at-Risk (VaR) и Expected Shortfall (ES), учитывающий неопределенность параметров модели.
Апостериорные предиктивные проверки (posterior predictive checks) используют предиктивные распределения для валидации модели:
- Генерируются синтетические данные из предиктивного распределения и сравниваются с реальными наблюдениями;
- Систематические расхождения между синтетическими и реальными данными указывают на неадекватность модели — например, модель может недооценивать частоту экстремальных движений или не улавливать кластеризацию волатильности.
Последовательное обновление в условиях нестационарности
Онлайн обучение Байеса
Финансовые рынки нестационарны: параметры моделей меняются со временем из-за структурных сдвигов, изменений режимов монетарной политики, технологических инноваций и макроэкономических шоков. В таких условиях статичные модели, обученные на исторических данных, быстро устаревают. Онлайн обучение Байеса адаптирует параметры модели по мере поступления новых наблюдений.
Последовательное применение теоремы Байеса обновляет апостериорное распределение при каждом новом наблюдении. Текущее апостериорное распределение становится априорным для следующего шага:
P(θ|D₁, …, Dₜ) = P(Dₜ|θ) × P(θ|D₁, …, Dₜ₋₁) / P(Dₜ)
Эта процедура не требует хранения всех исторических данных — достаточно поддерживать текущее апостериорное распределение. При поступлении нового наблюдения Dₜ распределение обновляется путем умножения на правдоподобие P(Dₜ|θ) и ренормализации. Вычислительная сложность каждого обновления не зависит от числа предыдущих наблюдений.

Рис. 5: Визуализация онлайн обучения Байеса: сходимость к истинному значению, снижение неопределенности, эволюция апостериорного распределения, экспоненциальное забывание
Онлайн обучение особенно эффективно с сопряженными априорными распределениями. Сопряженность означает, что априорное и апостериорное распределения принадлежат одному семейству распределений. Для нормального правдоподобия с известной дисперсией сопряженным приором для среднего является нормальное распределение. После обновления по новым данным апостериорное распределение остается нормальным с обновленными параметрами.
Например, для оценки ожидаемой доходности актива при известной волатильности σ:
- Априорное распределение: μ ~ N(μ₀, σ₀²)
- Правдоподобие одного наблюдения r: r ~ N(μ, σ²)
- Апостериорное распределение: μ ~ N(μ₁, σ₁²)
Параметры апостериорного распределения:
μ₁ = (σ² × μ₀ + σ₀² × r) / (σ² + σ₀²)
σ₁² = (σ² × σ₀²) / (σ² + σ₀²)
Апостериорное среднее μ₁ представляет взвешенное среднее априорного значения μ₀ и нового наблюдения r, где веса обратно пропорциональны дисперсиям. Апостериорная дисперсия σ₁² всегда меньше априорной σ₀², отражая уменьшение неопределенности после наблюдения данных. Эти формулы позволяют обновлять распределение параметра аналитически без численных методов.
Экспоненциальное забывание старых данных
В нестационарной среде старые наблюдения менее релевантны для текущего состояния рынка. Равномерное взвешивание всех исторических данных приводит к инерционности модели — она медленно реагирует на структурные сдвиги.
Экспоненциальное забывание (exponential forgetting) снижает влияние старых данных на текущие оценки параметров. Дисконтирующий фактор λ ∈ (0, 1] контролирует скорость забывания.
Правдоподобие наблюдения с лагом k дисконтируется как:
P(Dₜ₋ₖ|θ)^λᵏ
- При λ = 1 все наблюдения имеют равный вес (стандартное байесовское обучение);
- При λ < 1 влияние наблюдения экспоненциально убывает с увеличением лага. Например, при λ = 0.99 наблюдение месячной давности (k ≈ 21 торговый день) имеет вес 0.99²¹ ≈ 0.81 относительно сегодняшнего наблюдения.
Апостериорное распределение с экспоненциальным забыванием рассчитывается по формуле:
P(θ|D₁, …, Dₜ) ∝ [∏ᵢ₌₁ᵗ P(Dᵢ|θ)^λᵗ⁻ⁱ] × P(θ)
Где произведение правдоподобий взвешивается по лагу от текущего момента t.
Эффективный размер выборки (effective sample size) при экспоненциальном забывании составляет приблизительно:
1/(1-λ)
При λ = 0.99 эффективный размер ≈ 100 наблюдений, независимо от полной длины истории. Это означает, что модель адаптируется на основе последних ≈ 100 торговых дней.
Выбор λ балансирует между адаптивностью и стабильностью:
- Малые значения λ (например, 0.95) обеспечивают быструю адаптацию к структурным сдвигам, но повышают чувствительность к шуму и выбросам;
- Большие значения λ (например, 0.995) дают более стабильные оценки, но медленнее реагируют на изменения режимов.
Оптимальное значение λ зависит от характеристик конкретного рынка и временного масштаба анализа.
При онлайн обучении часто используется метод экспоненциального забывания. При поступлении нового наблюдения Dₜ₊₁ все предыдущие веса умножаются на λ, а правдоподобие нового наблюдения получает вес 1. Этот подход хорош тем, что не нужно пересчитывать всю историю — достаточно масштабировать текущее апостериорное распределение и обновить его по новому наблюдению.
Адаптация к структурным сдвигам рынка
Структурные сдвиги (regime changes) представляют резкие изменения статистических свойств рынка: переход от низковолатильного к высоковолатильному режиму, изменение корреляционной структуры активов, смена трендового движения на боковое. Модели, не учитывающие возможность сдвигов, дают смещенные прогнозы после изменения режима.
Байесовский подход к моделированию структурных сдвигов вводит скрытую переменную состояния sₜ, которая определяет текущий режим. Параметры модели зависят от состояния: θₜ = θ(sₜ). Апостериорное распределение включает как параметры θ, так и последовательность состояний s₁, …, sₜ:
P(θ, s₁:ₜ|D₁:ₜ) ∝ P(D₁:ₜ|θ, s₁:ₜ) × P(s₁:ₜ) × P(θ)
Модель Маркова для переходов между состояниями определяет динамику режимов. Вероятность перехода из состояния i в состояние j задается матрицей переходов:
P(sₜ₊₁ = j | sₜ = i) = πᵢⱼ
Байесовский вывод одновременно оценивает параметры модели для каждого режима θ(sᵢ), вероятности переходов πᵢⱼ и наиболее вероятную последовательность состояний. Скрытые Марковские модели (Hidden Markov Models, HMM) и их расширения формализуют эту структуру.
Альтернативный подход использует изменяющиеся во времени параметры с байесовским сглаживанием. Параметр θₜ эволюционирует случайным образом:
θₜ₊₁ = θₜ + εₜ
Где εₜ — шум процесса с малой дисперсией.
Такая спецификация позволяет параметрам плавно дрейфовать, адаптируясь к постепенным изменениям рынка. Фильтр Калмана и его нелинейные обобщения (Extended Kalman Filter, Unscented Kalman Filter) обеспечивают эффективное онлайн обновление распределений θₜ.

Рис. 6: Адаптация к структурным сдвигам и их обнаружение
Обнаружение структурных сдвигов при онлайн обучении требует мониторинга предиктивной производительности модели. Байесовский фактор (Bayes factor) сравнивает правдоподобие данных под текущей моделью с альтернативной гипотезой структурного сдвига:
BF = P(D₁:ₜ | M₀) / P(D₁:ₜ | M₁)
где:
- M₀ — гипотеза стабильных параметров;
- M₁ — гипотеза сдвига в момент τ < t.
Значения BF << 1 указывают на сильное свидетельство в пользу структурного сдвига. Систематическое ухудшение предиктивного правдоподобия P(Dₜ|D₁:ₜ₋₁) сигнализирует о несоответствии модели текущим данным и необходимости переоценки параметров.
Иерархические байесовские модели
При анализе портфеля активов возникает дилемма: оценивать параметры каждого актива независимо или объединить все данные в одну модель?
Независимая оценка (no pooling) игнорирует потенциальное сходство между активами и приводит к переобучению на малых выборках. Полное объединение (complete pooling) предполагает идентичность всех активов, что нереалистично.
Частичное объединение информации (partial pooling)
Иерархические байесовские модели реализуют частичное объединение (partial pooling): параметры отдельных активов моделируются как выборки из общего распределения, которое само оценивается из данных. Структура модели включает два уровня:
- Уровень активов: параметры θᵢ для i-го актива;
- Гиперуровень: параметры распределения θᵢ.
Например, ожидаемые доходности активов μᵢ моделируются как:
- μᵢ ~ N(μ_pop, σ_pop²) — ожидаемая доходность i-го актива;
- μ_pop ~ N(μ₀, τ²) — среднее по популяции активов;
- σ_pop ~ HalfNormal(s) — разброс доходностей между активами.
Апостериорный вывод оценивает как индивидуальные параметры μᵢ, так и популяционные параметры μ_pop и σ_pop. Ключевое свойство: оценка μᵢ для конкретного актива зависит не только от данных этого актива, но и от данных всех остальных активов через общее распределение.
Степень объединения информации определяется апостериорной оценкой σ_pop:
- Если σ_pop большая, активы сильно различаются, и индивидуальные оценки μᵢ близки к оценкам без объединения;
- Если σ_pop малая, активы однородны, и оценки μᵢ сильно притягиваются к общему среднему μ_pop.
Модель автоматически калибрует степень заимствования информации между активами на основе данных.
Частичное объединение особенно эффективно для активов с малым числом наблюдений. Оценка параметров редко торгуемого актива заимствует силу (borrows strength) от данных других активов, что снижает дисперсию оценки. Для ликвидных активов с длинной историей влияние общего распределения минимально — модель полагается преимущественно на индивидуальные данные.
Моделирование кластерной структуры активов
Финансовые активы не являются однородной популяцией: акции группируются по секторам, странам, стилям инвестирования. Иерархические модели могут кодировать многоуровневую структуру данных, где активы вложены в группы, а группы — в более крупные категории.
Многоуровневая иерархия для акций внутри секторов:
- Параметры акций: θᵢⱼ ~ N(μⱼ, σ_within²) — i-я акция в j-м секторе;
- Параметры секторов: μⱼ ~ N(μ_pop, σ_between²) — среднее по j-му сектору;
- Популяционные параметры: μ_pop, σ_within, σ_between.
Эта структура разделяет вариативность параметров на внутригрупповую (σ_within) и межгрупповую (σ_between) компоненты:
- Если σ_between >> σ_within, основная вариативность между акциями объясняется принадлежностью к сектору;
- Если σ_within >> σ_between, акции внутри секторов столь же разнообразны, как и между секторами, и группировка по секторам малоинформативна.

Рис. 7: Моделирование кластерной структуры активов
Иерархические модели автоматически оценивают релевантность группирующей структуры:
- Если апостериорное распределение σ_between концентрируется около нуля, данные не поддерживают гипотезу значимых различий между секторами;
- Если σ_between существенно отличается от нуля, секторная структура информативна для прогнозирования параметров отдельных акций.
Расширение на более глубокие иерархии (акции → сектора → страны → регионы) позволяет моделировать сложные зависимости. Каждый уровень иерархии вносит свой вклад в общую вариативность параметров. Байесовский подход естественным образом оценивает значимость каждого уровня через апостериорные распределения дисперсий на соответствующих уровнях.
Кластерная структура активов влияет на диверсификацию портфеля. Модель, игнорирующая группировку активов по секторам, недооценивает корреляции внутри секторов и переоценивает эффект диверсификации. Иерархические байесовские модели корректно учитывают зависимости, индуцированные общей принадлежностью к группе.
Shrinkage-эффект и защита от переобучения
Shrinkage (сжатие, усадка) — фундаментальное свойство иерархических байесовских моделей: экстремальные оценки параметров притягиваются к среднему популяционному значению. Актив с аномально высокой исторической доходностью получает апостериорную оценку ниже наблюдаемой, а актив с низкой доходностью — оценку выше наблюдаемой. Это защищает от переоценки перформанса на основе шума.
Степень shrinkage зависит от надежности индивидуальных оценок. Параметры, оцененные на малых выборках, сжимаются сильнее, чем параметры с длинной историей наблюдений.
Формально, апостериорная оценка параметра θᵢ представляет взвешенное среднее индивидуальной оценки θ̂ᵢ и популяционного среднего μ_pop:
E[θᵢ|D] ≈ w × θ̂ᵢ + (1-w) × μ_pop
Где вес w зависит от относительной точности оценок:
- При большом числе наблюдений для i-го актива w близок к 1, и shrinkage минимален;
- При малом числе наблюдений w близок к 0, и оценка сильно притягивается к среднему популяционному значению.

Рис. 8: Визуализация Shrinkage-эффектов
Shrinkage-эффект играет ключевую роль при построении портфелей, основанных на оптимизации средней доходности и ковариационной матрицы. Классические выборочные оценки средних и ковариаций часто содержат значительный шум, что приводит к экстремальным значениям весов активов в оптимальном портфеле. Использование иерархических байесовских моделей позволяет автоматически регуляризовать параметры, тем самым стабилизируя структуру портфеля.
Связь между shrinkage и регуляризацией проявляется через априорные распределения. Информативные приоры, концентрирующие вероятностную массу около определенного значения, индуцируют shrinkage апостериорных оценок к этому значению. L2-регуляризация в частотном подходе эквивалентна нормальному приору в байесовском подходе, L1-регуляризация — приору Лапласа.
Эмпирические байесовские методы оценивают гиперпараметры популяционного распределения из данных, а затем используют эти оценки для shrinkage индивидуальных параметров. Это промежуточный подход между полностью байесовским выводом (с априорами на гиперпараметры) и частотными методами. Эмпирический Байес вычислительно эффективнее полного байесовского вывода, но недооценивает неопределенность гиперпараметров.
Байесовская оптимизация и выбор стратегий
Функции приобретения: исследование vs эксплуатация
Байесовская оптимизация предназначена для поиска глобального максимума целевой функции f(x), вычисление которой может быть дорогостоящим или аналитически невыполнимым. В задаче трейдинга вектор параметров x соответствует гиперпараметрам стратегии — таким, как размеры окон, пороги генерации сигналов и коэффициенты риск-менеджмента, а целевая функция f(x) отражает метрику ее эффективности, например коэффициент Шарпа или доходность, скорректированную на риск.
Байесовская оптимизация строит вероятностную модель целевой функции на основе уже вычисленных точек и использует эту модель для выбора следующей точки для оценки. Гауссовский процесс (Gaussian Process, GP) обеспечивает гибкую непараметрическую модель, которая возвращает не только предсказание f(x), но и неопределенность предсказания.

Рис. 9: Визуализация Байесовской оптимизации: начальная GP модель, функция приобретения, сходимость
После k вычислений функции в точках x₁, …, xₖ с результатами y₁, …, yₖ гауссовский процесс предоставляет апостериорное распределение f(x) в любой новой точке x:
f(x) | {xᵢ, yᵢ}ᵢ₌₁ᵏ ~ N(μₖ(x), σₖ²(x))
где:
- μₖ(x) — апостериорное среднее (предсказание значения функции);
- σₖ²(x) — апостериорная дисперсия (неопределенность предсказания).
В точках, где уже проводились вычисления, дисперсия близка к нулю. Вдали от наблюдений дисперсия растет, отражая неопределенность.
Выбор следующей точки для оценки xₖ₊₁ балансирует между исследованием (exploration) и эксплуатацией (exploitation):
- Эксплуатация выбирает точки с высоким предсказанным значением μₖ(x), чтобы улучшить текущий найденный максимум;
- Исследование выбирает точки с высокой неопределенностью σₖ(x), чтобы уточнить модель и найти потенциально лучшие регионы.
Функции приобретения (acquisition functions) формализуют этот компромисс.
Ожидаемое улучшение (EI) и верхняя граница доверительного интервала
Ожидаемое улучшение (Expected Improvement, EI) количественно оценивает потенциальную пользу от оценки функции в точке x.
Пусть f⁺ = max{y₁, …, yₖ} — лучшее найденное значение. Улучшение в точке x определяется как:
I(x) = max(0, f(x) — f⁺)
Поскольку f(x) неизвестно, вычисляется ожидаемое улучшение относительно апостериорного распределения:
EI(x) = E[max(0, f(x) — f⁺)] = σₖ(x) × [Z × Φ(Z) + φ(Z)]
где:
- Z = (μₖ(x) — f⁺) / σₖ(x) — стандартизованное улучшение;
- Φ — функция распределения стандартного нормального распределения;
- φ — плотность стандартного нормального распределения.
EI автоматически балансирует исследование и эксплуатацию:
- Точки с высоким μₖ(x) имеют положительный вклад через член Φ(Z) (эксплуатация);
- Точки с высоким σₖ(x) имеют положительный вклад через множитель σₖ(x) (исследование);
- Оптимизация выбирает точку с максимальным EI(x) для следующего вычисления.
Верхняя граница доверительного интервала (Upper Confidence Bound, UCB) предлагает альтернативный критерий:
UCB(x) = μₖ(x) + κ × σₖ(x)
Параметр κ контролирует баланс между исследованием и эксплуатацией:
- При κ = 0 критерий сводится к чистой эксплуатации (выбирается точка с максимальным μₖ(x));
- При больших κ акцент смещается на исследование регионов с высокой неопределенностью. Типичные значения κ ∈ [1, 3].

Рис. 10: Механика функций приобретения EI и UCB
UCB имеет теоретические гарантии: при соответствующем выборе κ(k), растущем с числом итераций, UCB гарантирует сходимость к глобальному оптимуму. EI не имеет таких формальных гарантий, но часто демонстрирует лучшую эмпирическую производительность. Выбор между EI и UCB зависит от специфики задачи и вычислительных ограничений.
Вероятность улучшения (Probability of Improvement, PI) представляет еще один критерий:
PI(x) = P(f(x) > f⁺) = Φ((μₖ(x) — f⁺) / σₖ(x))
PI максимизирует вероятность найти точку лучше текущего максимума, но не учитывает величину потенциального улучшения. Это приводит к излишне консервативному поведению — алгоритм выбирает точки с высокой вероятностью небольшого улучшения вместо точек с малой вероятностью значительного улучшения.
Применение для поиска оптимальных параметров
Байесовская оптимизация эффективна для настройки гиперпараметров торговых стратегий, где каждая оценка целевой функции требует полного бэктестинга на исторических данных:
- Grid search вычисляет производительность на равномерной сетке значений параметров, игнорируя информацию из предыдущих вычислений;
- Random search выбирает точки случайно, что лучше grid search для высокоразмерных пространств, но все еще неэффективно.
Байесовская оптимизация адаптивно концентрирует вычислительные ресурсы в перспективных регионах параметрического пространства. После начальной фазы случайной выборки модель гауссовского процесса идентифицирует регионы с высокими значениями целевой функции и направляет поиск туда. Количество требуемых вычислений для достижения хорошего решения обычно на порядок меньше, чем для grid или random search.
Типичный процесс байесовской оптимизации стратегии включает:
- Определение диапазонов гиперпараметров (размеры окон, пороги входа/выхода);
- Выбор метрики оптимизации (коэффициент Шарпа, Sortino ratio, максимальная просадка);
- Начальная случайная выборка 5-10 точек для инициализации гауссовского процесса;
- Итеративный цикл: оптимизация функции приобретения → бэктестинг → обновление GP;
- Остановка после достижения бюджета вычислений или сходимости.
Ключевые преимущества байесовской оптимизации в этом контексте:
- Эффективность при дорогих оценках функции (каждый бэктест требует минут/часов);
- Автоматический баланс между локальным и глобальным поиском;
- Количественная оценка неопределенности найденного оптимума;
- Робастность к шумным оценкам целевой функции (учет observation noise в GP).
Важное ограничение: байесовская оптимизация масштабируется плохо на пространства высокой размерности (>20 параметров). Проклятие размерности влияет на гауссовские процессы — объем данных, необходимый для адекватной аппроксимации функции, растет экспоненциально с размерностью. Для стратегий с большим числом гиперпараметров требуется предварительная редукция размерности или использование специализированных ядер GP.
Априорные распределения: выбор и влияние
Выбор априорного распределения — критический этап байесовского анализа, влияющий на апостериорные выводы. Неинформативные (слабо информативные) приоры минимально ограничивают параметры и позволяют данным доминировать в формировании апостериорного распределения. Информативные приоры кодируют существенные предыдущие знания и направляют вывод к правдоподобным значениям параметров.
Информативные vs неинформативные приоры
Униформное распределение на ограниченном интервале представляет простейший неинформативный приор: все значения параметра в интервале равновероятны.
Для параметра масштаба (волатильность, стандартное отклонение) униформный приор неадекватен — он подразумевает одинаковую априорную вероятность для σ = 0.01 и σ = 100, что нереалистично. Логарифмически униформный приор (Jeffreys prior) корректирует эту проблему:
p(σ) ∝ 1/σ
Этот приор инвариантен относительно параметризации: переход к log(σ) не изменяет форму приора, что желательно для параметров масштаба.
Слабо информативные приоры занимают промежуточное положение: они исключают экстремальные значения параметров, но не концентрируют узко вероятностную массу. Например, для коэффициента регрессии β нормальный приор N(0, 10) допускает широкий диапазон значений, но экспоненциально подавляет |β| > 20. Это соответствует мягкой регуляризации без жестких ограничений.
Информативные приоры включают конкретные знания о параметрах:
- Для ожидаемой годовой доходности акции разумный информативный приор: N(0.08, 0.05²), отражающий историческую премию за риск около 8% с умеренной неопределенностью;
- Для корреляции между акциями одного сектора информативный приор может концентрировать массу в интервале [0.3, 0.7], если известно, что акции умеренно коррелированы.

Рис. 11: Типы априорных распределений и влияние приоров
Влияние приора на апостериорные выводы зависит от объема данных:
- При больших выборках (сотни наблюдений) правдоподобие доминирует, и апостериорное распределение слабо зависит от выбора приора;
- При малых выборках (десятки наблюдений) приор существенно влияет на апостериорные оценки. Это не недостаток байесовского подхода, а его особенность: при недостатке данных предыдущие знания легитимно влияют на выводы.
Регуляризация через априорные убеждения
Априорные распределения выполняют роль регуляризации, предотвращая переобучение модели на ограниченных данных. Концентрация априорной массы около нуля для параметров модели эквивалентна штрафу за сложность модели — параметры отклоняются от нуля только если данные предоставляют достаточное свидетельство.
Нормальный приор на коэффициенты регрессии:
β ~ N(0, τ²)
соответствует L2-регуляризации (ridge regression). Параметр τ контролирует силу регуляризации: малые τ сильно притягивают коэффициенты к нулю, большие τ ослабляют регуляризацию.
Байесовская интерпретация позволяет оценить τ из данных через иерархическую модель, избегая кросс-валидации.
Приор Лапласа на коэффициенты:
p(β) ∝ exp(-λ|β|)
соответствует L1-регуляризации (lasso). Пиковая форма распределения Лапласа в нуле индуцирует разреженность: многие апостериорные оценки коэффициентов концентрируются точно в нуле. Это автоматически выполняет отбор признаков, идентифицируя нерелевантные переменные.
Приор Хорсшоу (Horseshoe prior) представляет продвинутую регуляризацию для разреженных моделей:
βⱼ ~ N(0, λⱼ² × τ²)
λⱼ ~ Cauchy⁺(0, 1)
Локальные параметры λⱼ позволяют некоторым коэффициентам быть большими (если данные это позволяют), в то время как другие сжимаются к нулю. Глобальный параметр τ контролирует общую степень разреженности. Приор Хорсшоу адаптивнее лассо: он не сжимает сильные сигналы так агрессивно.
Регуляризация через приоры особенно ценна для высокоразмерных моделей, где число параметров сопоставимо или превышает число наблюдений. Без регуляризации максимальное правдоподобие дает переобученные оценки с нулевой предсказательной способностью. Априорные распределения стабилизируют оценки, явно кодируя предпочтение к более простым моделям.
Субъективность и надежность выводов
Субъективность априорных распределений критикуется как недостаток байесовского подхода: разные аналитики могут выбрать разные приоры и получить разные выводы. Эта критика частично справедлива, но применима и к частотным методам: выбор архитектуры модели, преобразования переменных, критериев отбора — все это субъективные решения, влияющие на результаты.
Байесовский подход делает субъективность явной и контролируемой:
- Априорные распределения документируют предположения аналитика, что улучшает воспроизводимость и позволяет критиковать конкретные допущения.
- Анализ чувствительности оценивает робастность выводов к выбору приора. Повторение анализа с несколькими альтернативными приорами (оптимистичный, пессимистичный, нейтральный) показывает, насколько апостериорные выводы зависят от априорных допущений. Если все разумные приоры приводят к качественно схожим выводам, результаты надежны. Если выводы сильно зависят от приора, это сигнализирует о недостатке данных или фундаментальной неопределенности.
- Объективные байесовские методы пытаются минимизировать субъективность через автоматический выбор приоров на основе формальных критериев. Референтные приоры (reference priors) максимизируют ожидаемую дивергенцию Кульбака-Лейблера между приором и апостериорным распределением, формализуя идею «максимального обучения от данных». Максимально энтропийные приоры (maximum entropy priors) выбираются при заданных ограничениях на моменты, минимизируя необоснованные допущения.
На практике баланс между субъективными информативными приорами и объективными слабо информативными приорами зависит от контекста:
- Для задач с богатыми предыдущими знаниями (например, волатильность индексов) информативные приоры повышают качество выводов на малых выборках;
- Для исследовательских задач с минимальными предыдущими знаниями слабо информативные приоры предпочтительны, чтобы избежать навязывания необоснованных ограничений.
Вычислительные методы байесовского вывода
Markov Chain Monte Carlo (MCMC)
Аналитическое вычисление апостериорных распределений возможно только для узкого класса моделей с сопряженными приорами. Для реалистичных моделей финансовых рынков апостериорные распределения не имеют аналитической формы и требуют численных методов.
Markov Chain Monte Carlo (MCMC) генерирует выборки из апостериорного распределения, которые используются для аппроксимации интересующих величин. MCMC конструирует цепь Маркова, стационарное распределение которой совпадает с целевым апостериорным распределением P(θ|D).
Генерация длинной последовательности θ⁽¹⁾, θ⁽²⁾, …, θ⁽ᴺ⁾ из этой цепи дает выборку из апостериорного распределения (после отбрасывания начальной burn-in фазы). Эмпирическое распределение выборки аппроксимирует истинное апостериорное распределение.
Алгоритм Метрополиса-Гастингса представляет базовый MCMC-метод. На каждой итерации предлагается новое значение параметров θ* из proposal distribution q(θ*|θ⁽ᵗ⁾). Предложение принимается с вероятностью:
α = min(1, [P(θ*|D) × q(θ⁽ᵗ⁾|θ*)] / [P(θ⁽ᵗ⁾|D) × q(θ*|θ⁽ᵗ⁾)])
Если предложение принимается, θ⁽ᵗ⁺¹⁾ = θ*, иначе θ⁽ᵗ⁺¹⁾ = θ⁽ᵗ⁾. Критическое свойство: для вычисления α не требуется знать нормализующую константу P(D), так как она сокращается в отношении апостериорных вероятностей.
Гиббс-сэмплирование упрощает процедуру для многомерных параметров. Параметры разбиваются на блоки, и каждый блок обновляется условно на текущих значениях остальных блоков. Если условные распределения P(θᵢ|θ₋ᵢ, D) имеют стандартную форму, сэмплирование из них эффективно. Гиббс-сэмплирование — частный случай Метрополиса-Гастингса с вероятностью принятия α = 1.
Hamiltonian Monte Carlo (HMC) использует градиентную информацию для эффективного исследования параметрического пространства. Метод моделирует физическую систему, где параметры соответствуют положению частицы, а отрицательный логарифм апостериорной плотности — потенциальной энергии. Вспомогательные импульсные переменные вводятся для генерации траекторий в расширенном пространстве. HMC значительно эффективнее случайного блуждания для высокоразмерных моделей.
No-U-Turn Sampler (NUTS) автоматически настраивает параметры HMC, устраняя необходимость ручной настройки длины траектории и размера шага. NUTS останавливает симуляцию траектории, когда она начинает разворачиваться назад, балансируя между исследованием и вычислительными затратами. Современные библиотеки вероятностного программирования (PyMC, Stan) используют NUTS как сэмплер по умолчанию.
Variational Inference как альтернатива
Variational Inference (VI) аппроксимирует апостериорное распределение P(θ|D) более простым параметрическим распределением:
Q(θ; φ)
оптимизируя параметры φ для минимизации расхождения между Q и P. Вместо генерации выборок VI решает оптимизационную задачу, что обычно быстрее MCMC.
Дивергенция Кульбака-Лейблера (KL divergence) количественно оценивает различие между распределениями:
KL(Q || P) = ∫ Q(θ; φ) × log[Q(θ; φ) / P(θ|D)] dθ
Минимизация KL(Q || P) по параметрам φ приводит аппроксимацию Q ближе к целевому апостериорному распределению P. Прямая минимизация затруднена, так как требуется вычисления нормализующей константы P(D). Вместо этого максимизируется Evidence Lower Bound (ELBO):
ELBO(φ) = ∫ Q(θ; φ) × log[P(D, θ) / Q(θ; φ)] dθ
ELBO (Evidence Lower Bound) — это нижняя граница для логарифма маргинального правдоподобия logP(D).
Максимизируя ELBO, мы фактически минимизируем дивергенцию Кульбака–Лейблера между аппроксимирующим распределением Q и истинным апостериорным распределением P, и при этом нам не нужно явно вычислять нормирующую константу P(D).
Для вычисления градиентов ELBO используются два основных подхода:
- Reparameterization trick (перепараметризация);
- Score function estimators (оценка функции отклика).
Mean-field variational inference предполагает факторизацию аппроксимирующего распределения:
Q(θ; φ) = ∏ⱼ Qⱼ(θⱼ; φⱼ)
Каждый параметр θⱼ моделируется независимо. Эта упрощающая гипотеза делает оптимизацию эффективной, но игнорирует апостериорные корреляции между параметрами. Для задач, где корреляции параметров критичны, mean-field VI дает смещенные приближения.

Рис. 12: Визуализация методов Variational Inference
В structured variational inference используется более гибкий класс аппроксимирующих распределений, способный частично сохранять зависимости между параметрами, в отличие от классического вариационного вывода, где часто предполагается их независимость.
Нормализующие потоки (normalizing flows) позволяют получать сложные распределения, последовательно преобразуя простое базовое распределение через набор обратимых нелинейных функций. Это делает возможным приближение даже сильно коррелированных и мультимодальных апостериорных распределений.
Ключевое преимущество VI — масштабируемость. Стохастический градиентный спуск позволяет оптимизировать ELBO на мини-батчах данных, что повышает скорость моделирования для больших датасетов. MCMC требует обработки всех данных на каждой итерации, что непрактично для миллионов наблюдений. Недостаток VI — потенциальная смещенность аппроксимации и недооценка неопределенности.
Диагностика сходимости и качества аппроксимации
Валидация результатов MCMC требует проверки сходимости цепи к стационарному распределению.
Визуальный анализ trace plots (траекторий параметров θ(t) во времени) позволяет выявить типичные проблемы: застревание в локальных модах, наличие трендов и слабое смешивание. Цепь, корректно исследующая апостериорное распределение, должна демонстрировать стационарное поведение без выраженных тенденций и автокорреляции.

Рис. 13: Диагностика сходимости MCMC
R-hat статистика (Gelman-Rubin diagnostic) сравнивает вариативность внутри цепей с вариативностью между цепями:
- Запускаются несколько независимых цепей из разных начальных точек;
- Если цепи сошлись к одному распределению, вариативность между цепями должна быть сопоставима с вариативностью внутри цепей. R-hat близкая к 1 (обычно < 1.01) указывает на сходимость, R-hat > 1.1 сигнализирует о проблемах.
Effective Sample Size (ESS) оценивает число эффективно независимых выборок, учитывая автокорреляцию в цепи. Последовательные выборки θ⁽ᵗ⁾ и θ⁽ᵗ⁺¹⁾ коррелированы из-за марковской природы процесса. ESS корректирует номинальное число итераций на степень автокорреляции:
ESS = N / (1 + 2 × Σₖ₌₁^∞ ρₖ)
где:
- N — длина цепи;
- ρₖ — автокорреляция на лаге k.
Высокая автокорреляция снижает ESS, указывая на неэффективное смешивание. Практическое правило: ESS > 1000 для каждого параметра обеспечивает надежные оценки квантилей и моментов апостериорного распределения.
Для Variational Inference качество аппроксимации оценивается через ELBO. Разность между истинным log P(D) и ELBO равна KL(Q || P). Максимизация ELBO минимизирует эту разность, но остаточное расхождение неизбежно из-за ограничений семейства Q. Мониторинг ELBO во время оптимизации показывает, сходится ли процедура.
Рекомендую также сравнивать симулированные данные из апостериорного предиктивного распределения с реальными наблюдениями. Систематические расхождения (например, модель недооценивает хвосты распределения доходностей) указывают на неадекватность модели или аппроксимации. Эта диагностика применима как к MCMC, так и к VI.
Парето-сглаженная важностная выборка (Pareto Smoothed Importance Sampling, PSIS) оценивает качество аппроксимации через анализ весов важности. Если аппроксимирующее распределение Q существенно отличается от истинного P в регионах высокой вероятности, веса важности имеют тяжелые хвосты. Параметр формы распределения Парето для хвоста весов диагностирует надежность аппроксимации: значения < 0.5 хорошие, > 0.7 проблематичные.
Заключение
В байесовской парадигме статистический вывод превращается в постоянное обновление убеждений по мере поступления новой информации. Параметры модели уже не фиксированы и неизвестны, а рассматриваются как случайные величины с меняющимися распределениями.
Это концептуальное смещение хорошо согласуется с динамикой финансовых рынков: высокая неопределенность, регулярные структурные изменения и постоянная ценность новой информации для корректировки стратегий.
В количественном анализе байесовский подход дает несколько важных преимуществ:
- Представление неопределенности через распределения параметров трансформирует управление рисками: размеры позиций калибруются не только на точечные оценки доходности, но и на ширину байесовских интервалов.
- Иерархические модели автоматически регуляризуют оценки через частичное объединение информации между активами, защищая модель от переобучения.
- Последовательное обновление убеждений позволяет стратегиям адаптироваться к меняющимся рыночным условиям, сохраняя память о предыдущих режимах через информативные приоры.
- Байесовская оптимизация эффективно находит оптимальные гиперпараметры стратегий при ограниченном бюджете вычислений.
Таким образом, байесовские методы позволяют строить модели и находить стратегии, способные эффективно работать даже в условиях рыночного шума и постоянных изменений, обеспечивая взвешенный подход к управлению рисками.