Лаговые переменные и их правильное использование. Избегаем data leakage в финансовых моделях

В трейдинге и количественном анализе существует ряд ошибок, которые могут полностью уничтожить потенциальную прибыльность модели. Одна из таких — неправильное использование лаговых переменных, она приводит к утечке данных (data leakage). Эта проблема особенно критична в финансовых моделях, где требуется быстрая реакция на изменения рынка.

В отличие от многих других областей машинного обучения, где порядок наблюдений может быть произвольным, финансовые данные обладают строгой временной структурой. Каждая цена, каждый объем торгов, каждый экономический показатель появляется в определенный момент времени и становится доступным для принятия решений только после этого момента. Нарушение этого принципа ведет к созданию моделей, которые выглядят великолепно на исторических данных, но терпят крах в реальной торговле.

Что такое лаговые переменные и почему они критичны в финансах

Лаговые переменные (lag variables) представляют собой значения временных рядов, сдвинутые на определенное количество периодов назад. В финансовом контексте это означает использование прошлых значений цен, объемов, волатильности или других показателей для предсказания будущих движений рынка.

Концепция лага в финансах выходит далеко за рамки простого технического приема. Она отражает фундаментальную идею о том, что рынки обладают определенной степенью предсказуемости, основанной на исторических паттернах. Однако эта предсказуемость крайне хрупка и требует исключительной точности в обращении с временными данными.

Когда я начинал работать с финансовыми данными, меня поражало, насколько легко получить модель с фантастическими показателями точности — 90% и выше. Такие результаты всегда должны вызывать подозрения, особенно в контексте финансовых рынков, где даже профессиональные трейдеры с многолетним опытом редко достигают винрейта выше 60-65%. Чаще всего причина таких «чудесных» результатов кроется в неправильном использовании лаговых переменных.

Основная проблема заключается в том, что при неправильной реализации модель получает доступ к информации, которая была бы недоступна в момент принятия торгового решения. Это создает иллюзию прогнозной способности, которая полностью исчезает при переходе к реальной торговле.

Анатомия утечек данных в финансовых моделях

Data leakage в финансовых моделях проявляется в нескольких формах, каждая из которых может быть разрушительной для практической применимости модели. Понимание этих форм критично для создания надежных торговых систем.

Прямая утечка через неправильное создание лагов

Наиболее очевидная форма утечки происходит, когда лаги создаются неправильно. Рассмотрим типичную ошибку:

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Сгенерируемые данные приближенные к динамике индекса S&P 500
np.random.seed(42)
dates = pd.date_range(start='2020-01-01', end='2023-12-31', freq='D')

# Моделируем реалистичную цену с трендом и волатильностью
base_price = 3000
returns = np.random.normal(0.0003, 0.02, len(dates))  # Средний дневной рост ~0.03%, волатильность 2%
returns[::50] += np.random.normal(0, 0.05, len(returns[::50]))  # Редкие большие движения
prices = base_price * np.exp(np.cumsum(returns))

df = pd.DataFrame({
    'date': dates,
    'close': prices,
    'volume': np.random.lognormal(15, 0.3, len(dates))
})

# НЕПРАВИЛЬНЫЙ способ создания лагов - частая ошибка
df_wrong = df.copy()
df_wrong['close_lag1'] = df_wrong['close'].shift(1)  # Правильно
df_wrong['close_lag2'] = df_wrong['close'].shift(2)  # Правильно
df_wrong['target'] = (df_wrong['close'].shift(-1) / df_wrong['close'] - 1) > 0.01  # ОШИБКА!

print("Неправильный подход - target использует будущие данные:")
print(df_wrong[['date', 'close', 'close_lag1', 'target']].head(10))

Неправильный подход - target использует будущие данные:
        date        close   close_lag1  target
0 2020-01-01  2850.891236          NaN   False
1 2020-01-02  2843.871630  2850.891236    True
2 2020-01-03  2881.814541  2843.871630    True
3 2020-01-04  2971.838372  2881.814541   False
4 2020-01-05  2958.841109  2971.838372   False
5 2020-01-06  2945.901656  2958.841109    True
6 2020-01-07  3041.342992  2945.901656    True
7 2020-01-08  3089.310374  3041.342992   False
8 2020-01-09  3061.357357  3089.310374    True
9 2020-01-10  3095.686216  3061.357357   False

В этом примере целевая переменная создается с использованием shift(-1), что означает использование данных следующего дня для определения цели сегодняшнего дня. Это классический пример look-ahead bias.

Скрытая утечка через агрегированные показатели

Более коварная форма утечки происходит при использовании агрегированных показателей, которые включают текущее наблюдение:

# НЕПРАВИЛЬНО - скользящее среднее включает текущее значение
def wrong_moving_average(series, window):
    return series.rolling(window=window, center=False).mean()

# ПРАВИЛЬНО - скользящее среднее использует только прошлые значения
def correct_moving_average(series, window):
    return series.shift(1).rolling(window=window, center=False).mean()

df['ma_wrong'] = wrong_moving_average(df['close'], 20)
df['ma_correct'] = correct_moving_average(df['close'], 20)

# Демонстрация разницы
comparison = df[['date', 'close', 'ma_wrong', 'ma_correct']].head(25)
print("\nСравнение правильного и неправильного скользящего среднего:")
print(comparison)

Сравнение правильного и неправильного скользящего среднего:
         date        close     ma_wrong   ma_correct
0  2020-01-01  2850.891236          NaN          NaN
1  2020-01-02  2843.871630          NaN          NaN
2  2020-01-03  2881.814541          NaN          NaN
3  2020-01-04  2971.838372          NaN          NaN
4  2020-01-05  2958.841109          NaN          NaN
5  2020-01-06  2945.901656          NaN          NaN
6  2020-01-07  3041.342992          NaN          NaN
7  2020-01-08  3089.310374          NaN          NaN
8  2020-01-09  3061.357357          NaN          NaN
9  2020-01-10  3095.686216          NaN          NaN
10 2020-01-11  3068.047130          NaN          NaN
11 2020-01-12  3040.514213          NaN          NaN
12 2020-01-13  3056.180384          NaN          NaN
13 2020-01-14  2942.325605          NaN          NaN
14 2020-01-15  2843.404023          NaN          NaN
15 2020-01-16  2812.450546          NaN          NaN
16 2020-01-17  2756.879878          NaN          NaN
17 2020-01-18  2775.093687          NaN          NaN
18 2020-01-19  2725.969177          NaN          NaN
19 2020-01-20  2650.843662  2920.628189          NaN
20 2020-01-21  2730.516888  2914.609472  2920.628189
21 2020-01-22  2719.030551  2908.367418  2914.609472
22 2020-01-23  2723.522191  2900.452801  2908.367418
23 2020-01-24  2647.805019  2884.251133  2900.452801
24 2020-01-25  2619.918859  2867.305020  2884.251133

Казалось бы, небольшая разница, но она может кардинально изменить результаты модели. Скользящее среднее, включающее текущую цену, будет более точно «предсказывать» направление движения, создавая ложное впечатление о качестве стратегии.

👉🏻 Прогнозирование временных рядов с помощью N-HITS, N-BEATS

Скрытая утечка через агрегированные показатели представляет собой одну из наиболее коварных форм утечек данных, поскольку ошибка не очевидна на первый взгляд. Основная проблема заключается в том, что многие стандартные функции pandas и других библиотек по умолчанию включают текущее наблюдение в расчет агрегированных метрик. Это создает ситуацию, когда модель получает доступ к информации, которая была бы недоступна в момент принятия торгового решения.

Наиболее часто такие утечки возникают при работе со скользящими средними, когда исследователи используют центрированные окна или забывают применить сдвиг. Классический пример — использование rolling(window).mean() без предварительного сдвига временного ряда на один период. В результате скользящее среднее на день T включает цену дня T, что в реальной торговле недопустимо, поскольку цена закрытия становится известна только в конце торгового дня.

Другие распространенные источники скрытых утечек включают расчет процентилей и квантилей на основе текущих данных, создание z-scores с использованием статистик, включающих текущее наблюдение, и формирование индикаторов momentum без должного учета временной последовательности. Особенно опасны утечки в составных индикаторах, где один компонент рассчитан правильно, а другой содержит look-ahead bias.

Чтобы избежать таких утечек, необходимо строго следовать принципу «доступности данных» — любой признак должен рассчитываться исключительно на основе информации, доступной до момента T. Это означает систематическое использование функции shift(1) перед применением любых rolling операций, явную проверку всех агрегированных вычислений на предмет включения текущих данных, и создание тестовых процедур, которые могут выявить такие утечки на ранней стадии.

Утечка через индикаторы волатильности

Волатильность является ключевым параметром для управления рисками и определения размера позиций. Неправильный расчет волатильности может привести к кардинально неверным оценкам риска стратегии и катастрофическим потерям в реальной торговле.

Основная проблема заключается в том, что большинство исследователей интуитивно включают текущий день в расчет волатильности, не осознавая, что это создает серьезную утечку данных. В реальной торговле решение о входе в позицию принимается в начале дня или в течение дня, когда окончательная цена закрытия еще неизвестна. Использование этой цены для расчета волатильности означает использование будущей информации.

Эта ошибка особенно опасна в стратегиях, использующих режимы волатильности для входа в позицию. Модель может показать отличные результаты на бэктесте, но в реальности волатильность текущего дня становится известна только в конце дня.

def calculate_volatility_wrong(prices, window=20):
    """Неправильный расчет - включает текущий день"""
    returns = prices.pct_change()
    return returns.rolling(window=window).std() * np.sqrt(252)

def calculate_volatility_correct(prices, window=20):
    """Правильный расчет - использует только прошлые данные"""
    returns = prices.pct_change()
    return returns.shift(1).rolling(window=window).std() * np.sqrt(252)

df['volatility_wrong'] = calculate_volatility_wrong(df['close'])
df['volatility_correct'] = calculate_volatility_correct(df['close'])

# Создаем более сложный пример с условными сделками
df['signal_wrong'] = (df['close'] > df['ma_wrong']) & (df['volatility_wrong'] < 0.25) df['signal_correct'] = (df['close'] > df['ma_correct']) & (df['volatility_correct'] < 0.25)

print("\nСравнение сигналов:")
print(df[['date', 'signal_wrong', 'signal_correct']].tail(20))

Сравнение сигналов:
           date  signal_wrong  signal_correct
1441 2023-12-12         False           False
1442 2023-12-13         False           False
1443 2023-12-14         False           False
1444 2023-12-15         False           False
1445 2023-12-16         False           False
1446 2023-12-17          True           False
1447 2023-12-18          True            True
1448 2023-12-19          True            True
1449 2023-12-20          True            True
1450 2023-12-21          True            True
1451 2023-12-22         False            True
1452 2023-12-23         False           False
1453 2023-12-24         False           False
1454 2023-12-25         False           False
1455 2023-12-26         False           False
1456 2023-12-27         False           False
1457 2023-12-28         False           False
1458 2023-12-29         False           False
1459 2023-12-30         False           False
1460 2023-12-31         False           False

Скрытые утечки часто возникают при расчете сложных индикаторов волатильности, таких как Average True Range (ATR), где каждый компонент может содержать look-ahead bias. Например, расчет истинного диапазона для текущего дня требует знания цены закрытия этого дня, что делает такой индикатор непригодным для внутридневной торговли. Аналогичные проблемы возникают с индикаторами типа Bollinger Bands, где и скользящее среднее, и стандартное отклонение могут содержать данные текущего периода.

Особенно коварны утечки в стратегиях volatility targeting, где размер позиции определяется на основе текущего уровня волатильности. Если волатильность рассчитана с включением сегодняшних данных, это может привести к искусственному улучшению Sharpe ratio и недооценке реальных рисков стратегии. В режимах высокой волатильности это может привести к принятию чрезмерно больших позиций именно в самые неподходящие моменты.

Для корректного расчета индикаторов волатильности необходимо использовать только исторические данные с явным сдвигом на один период. Все компоненты сложных индикаторов должны быть проверены на отсутствие look-ahead bias. При работе с внутридневными стратегиями особое внимание следует уделить времени доступности данных — например, волатильность, рассчитанная на основе вчерашних данных, доступна с самого начала торгового дня, в то время как волатильность с включением сегодняшних данных становится доступной только после закрытия рынка.

👉🏻 MSE, RMSE, MAE, MAPE для оценки качества прогнозов временных рядов

Временные аспекты создания признаков

Правильное создание временных признаков требует глубокого понимания того, когда именно информация становится доступной для принятия торговых решений. Это особенно критично при работе с внутридневными данными или при использовании экономических индикаторов.

Внутридневные данные и микроструктура рынка

При работе с высокочастотными данными проблема лагов становится еще более сложной. Необходимо учитывать не только временные задержки, но и особенности микроструктуры рынка:

# Создаем реалистичные внутридневные данные
def generate_intraday_data(start_date, end_date, freq='1H'):
    """Генерация реалистичных внутридневных данных с учетом сессий"""
    dates = pd.date_range(start=start_date, end=end_date, freq=freq)
    # Фильтруем только торговые часы (9:30-16:00 EST)
    trading_hours = dates[(dates.hour >= 9) & (dates.hour <= 16)]
    
    # Моделируем U-образную волатильность (высокая в начале и конце дня)
    hour_vol = np.array([0.025 if h in [9, 10, 15, 16] else 0.015 for h in trading_hours.hour])
    
    returns = np.random.normal(0, hour_vol, len(trading_hours))
    prices = 4000 * np.exp(np.cumsum(returns * 0.01))  # Начальная цена S&P 500
    
    spread = np.random.uniform(0.01, 0.05, len(trading_hours))  # Реалистичный спред
    
    return pd.DataFrame({
        'datetime': trading_hours,
        'price': prices,
        'bid': prices - spread/2,
        'ask': prices + spread/2,
        'volume': np.random.lognormal(10, 1, len(trading_hours))
    })

intraday_df = generate_intraday_data('2023-01-01', '2023-01-31')

# Правильное создание внутридневных лагов с учетом времени исполнения
def create_execution_aware_features(df):
    """Создание признаков с учетом времени исполнения ордера"""
    df = df.copy()
    
    # Лаг на 1 бар - доступен мгновенно
    df['price_lag1'] = df['price'].shift(1)
    
    # Волатильность за последние 6 баров (6 часов) - требует времени на расчет
    df['volatility_6h'] = df['price'].pct_change().shift(1).rolling(6).std()
    
    # Средний спред за последние 3 бара - важно для оценки издержек
    df['avg_spread_3h'] = ((df['ask'] - df['bid']) / df['price']).shift(1).rolling(3).mean()
    
    # Объемный профиль - требует дополнительного времени на обработку
    df['volume_ratio'] = (df['volume'].shift(1) / 
                         df['volume'].shift(1).rolling(10).mean())
    
    return df

intraday_features = create_execution_aware_features(intraday_df)
print("Внутридневные признаки с учетом времени исполнения:")
print(intraday_features.head(10))

Внутридневные признаки с учетом времени исполнения:
             datetime        price          bid          ask         volume   price_lag1  volatility_6h  avg_spread_3h  volume_ratio
0 2023-01-01 09:00:00  4000.466698  4000.452345  4000.481052  191962.643660          NaN            NaN            NaN           NaN
1 2023-01-01 10:00:00  4001.988171  4001.970783  4002.005559   72442.512433  4000.466698            NaN            NaN           NaN
2 2023-01-01 11:00:00  4001.418579  4001.405355  4001.431803   27243.603283  4001.988171            NaN            NaN           NaN
3 2023-01-01 12:00:00  4002.467506  4002.453956  4002.481056   61511.920441  4001.418579            NaN       0.000007           NaN
4 2023-01-01 13:00:00  4003.027205  4003.015599  4003.038811   66562.752237  4002.467506            NaN       0.000007           NaN
5 2023-01-01 14:00:00  4002.885167  4002.868882  4002.901452   12532.148629  4003.027205            NaN       0.000006           NaN
6 2023-01-01 15:00:00  4004.021768  4003.999756  4004.043779    9737.919357  4002.885167            NaN       0.000007           NaN
7 2023-01-01 16:00:00  4002.914515  4002.905484  4002.923545   23816.718308  4004.021768       0.000202       0.000008           NaN
8 2023-01-02 09:00:00  4002.089485  4002.065796  4002.113174   52137.311575  4002.914515       0.000227       0.000008           NaN
9 2023-01-02 10:00:00  4001.480624  4001.461842  4001.499405   25312.671488  4002.089485       0.000239       0.000009           NaN

Ключевой момент здесь — понимание того, что даже самые быстрые алгоритмы требуют времени на обработку данных и отправку ордеров. Поэтому все признаки должны быть доступны как минимум за один временной интервал до момента входа в позицию.

Работа с внутридневными данными и микроструктурой рынка требует особого внимания к временным аспектам создания признаков, поскольку здесь ошибки могут привести не только к переоценке стратегии, но и к техническим проблемам при реальной торговле. Микроструктурные эффекты, такие как bid-ask спреды, влияние размера ордера на цену исполнения, и задержки в обработке данных, создают дополнительные источники потенциальных утечек.

Наиболее распространенная ошибка в высокочастотной торговле — игнорирование времени, необходимого для обработки сигнала и отправки ордера. Даже самые быстрые алгоритмы требуют от нескольких микросекунд до нескольких миллисекунд на принятие решения. В течение этого времени рыночная ситуация может кардинально измениться, особенно в периоды высокой волатильности. Создание признаков без учета этой задержки приводит к нереалистично высокой прибыльности на бэктестах.

Другой источник утечек — неправильное моделирование издержек исполнения. Многие исследователи используют цены закрытия баров для расчета доходности, игнорируя тот факт, что реальные сделки исполняются по bid/ask ценам с учетом market impact. Особенно это критично для стратегий с высокой частотой торгов, где спреды могут составлять значительную часть ожидаемой прибыли. Использование mid-price вместо реалистичных цен исполнения создает иллюзию прибыльности.

Скрытые утечки могут возникать при агрегации внутридневных данных в более длительные периоды. Например, расчет дневных OHLC на основе минутных данных должен учитывать точное время открытия и закрытия торговых сессий. Использование данных из pre-market или after-hours торгов может создать look-ahead bias, поскольку эти данные могут быть недоступны всем участникам рынка одновременно.

👉🏻 Байесовский информационный критерий (BIC)

Особое внимание требуется при работе с объемными данными. Volume-weighted average price (VWAP) и другие объемные индикаторы должны рассчитываться с учетом накопительного характера объемов в течение торгового дня. Использование полного дневного объема для расчета внутридневных сигналов представляет собой классический пример look-ahead bias.

Для минимизации утечек при работе с внутридневными данными необходимо моделировать реалистичные задержки исполнения, использовать корректные цены для расчета транзакционных издержек, строго контролировать временные границы при агрегации данных, и тестировать стратегии с учетом реальных ограничений торговой инфраструктуры. Критически важно также учитывать различия в ликвидности между активами и временными периодами.

Экономические индикаторы и их запаздывание

Работа с макроэкономическими данными требует особого внимания к срокам публикации. Многие экономические индикаторы публикуются с задержкой, и эта задержка должна быть корректно учтена в модели:

# Моделируем публикацию экономических данных
def create_economic_calendar():
    """Создание календаря экономических данных с реалистичными задержками"""
    dates = pd.date_range('2020-01-01', '2023-12-31', freq='M')
    
    # NFP публикуется в первую пятницу месяца за предыдущий месяц
    nfp_dates = []
    nfp_values = []
    
    for date in dates:
        # Находим первую пятницу следующего месяца
        next_month = date + pd.DateOffset(months=1)
        first_friday = next_month + pd.DateOffset(days=(4 - next_month.weekday()) % 7)
        nfp_dates.append(first_friday)
        nfp_values.append(np.random.normal(200000, 50000))  # Реалистичные значения NFP
    
    return pd.DataFrame({
        'publication_date': nfp_dates,
        'data_period': dates,
        'nfp_value': nfp_values
    })

economic_data = create_economic_calendar()

# Правильное мержение экономических данных с рыночными
def merge_economic_data_correctly(market_df, economic_df):
    """Корректное объединение с учетом дат публикации"""
    market_df = market_df.copy()
    
    # Используем publication_date, а не data_period!
    for idx, row in economic_df.iterrows():
        mask = market_df['date'] >= row['publication_date']
        market_df.loc[mask, 'nfp_available'] = row['nfp_value']
    
    # Заполняем пропуски предыдущими значениями
    market_df['nfp_available'] = market_df['nfp_available'].fillna(method='ffill')
    
    return market_df

# Демонстрация разницы между правильным и неправильным мержингом
print("Пример корректного учета дат публикации экономических данных:")
print(economic_data.head())

Пример корректного учета дат публикации экономических данных:
  publication_date data_period      nfp_value
0       2020-03-06  2020-01-31  131357.027426
1       2020-04-03  2020-02-29  217573.995018
2       2020-05-01  2020-03-31  101088.737531
3       2020-06-05  2020-04-30  202346.745103
4       2020-07-03  2020-05-31  294888.350837

Эта техника критически важна при создании моделей, которые должны работать в реальном времени. Использование данных по периоду вместо даты публикации создает серьезную утечку данных.

Работа с экономическими индикаторами представляет особую сложность, поскольку здесь утечки данных могут быть неочевидными даже для опытных исследователей. Основная проблема заключается в разрыве между периодом, к которому относятся данные, и моментом их публикации. Этот разрыв может составлять от нескольких дней до нескольких месяцев, и игнорирование этого факта создает серьезные искажения в моделях.

Классический пример — использование данных по безработице за текущий месяц для принятия торговых решений в том же месяце. В реальности данные по безработице публикуются с задержкой около месяца, поэтому решения в марте должны основываться на данных за январь, а не за март. Аналогичные проблемы возникают с GDP, инфляцией, промышленным производством и большинством других макроэкономических показателей.

Скрытые утечки часто возникают при работе с пересмотренными данными. Многие экономические индикаторы публикуются в виде предварительных оценок, которые затем несколько раз пересматриваются. Использование окончательных пересмотренных данных вместо первоначальных оценок создает look-ahead bias, поскольку в момент принятия решения были доступны только предварительные цифры. Особенно это критично для таких показателей, как GDP, где пересмотры могут быть весьма существенными.

Другой источник утечек — игнорирование временных зон и различий в календарях публикации между странами. Экономические данные разных стран публикуются в разное время, и модель должна корректно учитывать эти различия. Например, европейские данные обычно публикуются раньше американских в тот же календарный день, что может создать арбитражные возможности, но только если модель правильно учитывает время публикации.

Корректная работа с экономическими данными требует создания детального календаря публикаций с указанием точного времени выхода каждого показателя, использования первоначальных оценок вместо пересмотренных данных, учета временных зон и различий между странами, и моделирования реалистичных задержек в обработке и интерпретации данных. Необходимо также учитывать, что некоторые показатели могут быть недоступны в определенные периоды из-за праздников или технических проблем.

Создание робастных временных признаков

Построение надежных временных признаков требует системного подхода, который учитывает все аспекты временной структуры данных. Я разработал несколько техник, которые помогают минимизировать риск утечки данных при сохранении предсказательной силы модели.

Система каскадных лагов

Вместо использования произвольных лагов я предпочитаю создавать систему каскадных лагов, которая отражает различные временные горизонты принятия решений:

def create_cascaded_lags(df, price_col='close', lag_structure=[1, 2, 5, 10, 20]):
    """Создание каскадной системы лагов для различных временных горизонтов"""
    df = df.copy()
    
    # Базовые лаги
    for lag in lag_structure:
        df[f'{price_col}_lag_{lag}'] = df[price_col].shift(lag)
    
    # Относительные изменения
    for lag in lag_structure:
        df[f'return_{lag}d'] = (df[price_col] / df[f'{price_col}_lag_{lag}'] - 1)
    
    # Каскадные соотношения (важно для momentum стратегий)
    df['momentum_short'] = df['return_1d'] / df['return_5d']
    df['momentum_medium'] = df['return_5d'] / df['return_20d']
    
    # Z-scores для выявления аномалий
    for window in [20, 60]:
        rolling_mean = df['return_1d'].shift(1).rolling(window).mean()
        rolling_std = df['return_1d'].shift(1).rolling(window).std()
        df[f'return_zscore_{window}d'] = (df['return_1d'] - rolling_mean) / rolling_std
    
    return df

# Применяем каскадные лаги
df_cascaded = create_cascaded_lags(df)
print("Каскадная система лагов:")
print(df_cascaded[['date', 'close', 'return_1d', 'momentum_short', 'return_zscore_20d']].head(25))

Каскадная система лагов:
         date        close  return_1d  momentum_short  return_zscore_20d
0  2020-01-01  2850.891236        NaN             NaN                NaN
1  2020-01-02  2843.871630  -0.002462             NaN                NaN
2  2020-01-03  2881.814541   0.013342             NaN                NaN
3  2020-01-04  2971.838372   0.031239             NaN                NaN
4  2020-01-05  2958.841109  -0.004373             NaN                NaN
5  2020-01-06  2945.901656  -0.004373       -0.131221                NaN
6  2020-01-07  3041.342992   0.032398        0.466578                NaN
7  2020-01-08  3089.310374   0.015772        0.219047                NaN
8  2020-01-09  3061.357357  -0.009048       -0.300384                NaN
9  2020-01-10  3095.686216   0.011214        0.242459                NaN
10 2020-01-11  3068.047130  -0.008928       -0.215332                NaN
11 2020-01-12  3040.514213  -0.008974       32.931933                NaN
12 2020-01-13  3056.180384   0.005152       -0.480459                NaN
13 2020-01-14  2942.325605  -0.037254        0.958128                NaN
14 2020-01-15  2843.404023  -0.033620        0.412544                NaN
15 2020-01-16  2812.450546  -0.010886        0.130671                NaN
16 2020-01-17  2756.879878  -0.019759        0.211811                NaN
17 2020-01-18  2775.093687   0.006607       -0.071833                NaN
18 2020-01-19  2725.969177  -0.017702        0.240736                NaN
19 2020-01-20  2650.843662  -0.027559        0.406947                NaN
20 2020-01-21  2730.516888   0.030056       -1.031694                NaN
21 2020-01-22  2719.030551  -0.004207        0.306405          -0.110547
22 2020-01-23  2723.522191   0.001652       -0.088891           0.181708
23 2020-01-24  2647.805019  -0.027801        0.969565          -1.255604
24 2020-01-25  2619.918859  -0.010532        0.902776          -0.258851

Преимущество каскадной системы заключается в том, что она создает иерархию временных признаков, позволяющую модели улавливать паттерны на разных временных масштабах без создания избыточности.

👉🏻 LSTM для прогнозирования волатильности: многослойные архитектуры и sequence-to-sequence подходы

Признаки основанные на режимах рынка

Особенно эффективными оказались признаки, которые характеризуют текущий режим рынка. Эти признаки помогают модели адаптироваться к изменяющимся рыночным условиям:

def create_regime_features(df, lookback_periods=[20, 60, 120]):
    """Создание признаков режимов рынка"""
    df = df.copy()
    
    for period in lookback_periods:
        # Реализованная волатильность (используем только прошлые данные)
        returns = df['close'].pct_change()
        df[f'realized_vol_{period}d'] = (returns.shift(1)
                                        .rolling(period)
                                        .std() * np.sqrt(252))
        
        # Максимальная просадка за период
        rolling_max = df['close'].shift(1).rolling(period).max()
        df[f'drawdown_{period}d'] = (df['close'] / rolling_max - 1)
        
        # Тренд strength (важно для momentum стратегий)
        ma_short = df['close'].shift(1).rolling(period//4).mean()
        ma_long = df['close'].shift(1).rolling(period).mean()
        df[f'trend_strength_{period}d'] = (ma_short / ma_long - 1)
        
        # Режим волатильности (низкий/нормальный/высокий)
        vol_percentile = (df[f'realized_vol_{period}d']
                         .shift(1)
                         .rolling(period*2)
                         .rank(pct=True))
        df[f'vol_regime_{period}d'] = pd.cut(vol_percentile, 
                                           bins=[0, 0.33, 0.66, 1.0], 
                                           labels=['low', 'normal', 'high'])
    
    return df

df_regime = create_regime_features(df_cascaded)
print("Признаки режимов рынка:")
regime_cols = ['date', 'realized_vol_20d', 'drawdown_60d', 'trend_strength_120d', 'vol_regime_20d']
print(df_regime[regime_cols].head(30))

Признаки режимов рынка:
           date  realized_vol_20d  drawdown_60d  trend_strength_120d vol_regime_20d
1441 2023-12-12          0.310733      0.024054             0.156521            low
1442 2023-12-13          0.312527      0.003928             0.161797            low
1443 2023-12-14          0.310457     -0.025311             0.166830         normal
1444 2023-12-15          0.319445     -0.017193             0.169613            low
1445 2023-12-16          0.307902     -0.029622             0.173107         normal
1446 2023-12-17          0.272409     -0.039539             0.175127            low
1447 2023-12-18          0.240141     -0.027918             0.176608            low
1448 2023-12-19          0.223983     -0.003244             0.178193            low
1449 2023-12-20          0.233162     -0.002521             0.179112            low
1450 2023-12-21          0.230300     -0.023363             0.179766            low
1451 2023-12-22          0.249708      0.010762             0.179675            low
1452 2023-12-23          0.268743      0.005128             0.179985            low
1453 2023-12-24          0.265091      0.053727             0.180682            low
1454 2023-12-25          0.308316      0.011678             0.183928            low
1455 2023-12-26          0.305442     -0.034313             0.188343         normal
1456 2023-12-27          0.342344     -0.019359             0.193027         normal
1457 2023-12-28          0.340555     -0.011558             0.196511           high
1458 2023-12-29          0.327750      0.014575             0.200971           high
1459 2023-12-30          0.334880      0.013859             0.206296           high
1460 2023-12-31          0.334545     -0.002466             0.212255           high

Эти признаки особенно ценны, потому что они отражают изменения в рыночной структуре, которые могут значительно влиять на эффективность торговых стратегий.

Продвинутые техники работы с временными рядами

В профессиональной практике количественного анализа стандартных лагов часто недостаточно для создания конкурентоспособных моделей. Необходимо использовать более сложные техники, которые позволяют извлекать информацию из временной структуры данных без создания утечек.

Техника Rolling Windows с переменным размером

Одна из продвинутых техник, которую я часто использую, — это создание скользящих окон переменного размера, которые адаптируются к текущим рыночным условиям:

def adaptive_rolling_features(df, base_window=20, volatility_col='realized_vol_20d'):
    """Создание адаптивных скользящих окон на основе волатильности"""
    df = df.copy()
    
    # Адаптивное окно: расширяем в спокойные периоды, сужаем в волатильные
    vol_median = df[volatility_col].median()
    vol_ratio = df[volatility_col] / vol_median
    vol_ratio = vol_ratio.replace([np.inf, -np.inf], np.nan).fillna(1.0)
    
    # Окно варьируется от base_window//2 до base_window*2
    adaptive_window = np.clip(base_window / vol_ratio, 
                             base_window // 2, 
                             base_window * 2).astype(int)
    
    # Создаем адаптивные признаки
    adaptive_features = []
    
    for i in range(len(df)):
        if i < base_window:
            adaptive_features.append(np.nan)
            continue
            
        window_size = adaptive_window.iloc[i]
        start_idx = max(0, i - window_size)
        
        # Адаптивное скользящее среднее
        adaptive_ma = df['close'].iloc[start_idx:i].mean()
        adaptive_features.append(adaptive_ma)
    
    df['adaptive_ma'] = adaptive_features
    df['adaptive_signal'] = df['close'] / df['adaptive_ma'] - 1
    
    return df

df_adaptive = adaptive_rolling_features(df_regime)
print("Адаптивные скользящие окна:")
adaptive_cols = ['date', 'close', 'realized_vol_20d', 'adaptive_ma', 'adaptive_signal']
print(df_adaptive[adaptive_cols].head(30))

Адаптивные скользящие окна:
         date        close  realized_vol_20d  adaptive_ma  adaptive_signal
0  2020-01-01  2850.891236               NaN          NaN              NaN
1  2020-01-02  2843.871630               NaN          NaN              NaN
2  2020-01-03  2881.814541               NaN          NaN              NaN
3  2020-01-04  2971.838372               NaN          NaN              NaN
4  2020-01-05  2958.841109               NaN          NaN              NaN
5  2020-01-06  2945.901656               NaN          NaN              NaN
6  2020-01-07  3041.342992               NaN          NaN              NaN
7  2020-01-08  3089.310374               NaN          NaN              NaN
8  2020-01-09  3061.357357               NaN          NaN              NaN
9  2020-01-10  3095.686216               NaN          NaN              NaN
10 2020-01-11  3068.047130               NaN          NaN              NaN
11 2020-01-12  3040.514213               NaN          NaN              NaN
12 2020-01-13  3056.180384               NaN          NaN              NaN
13 2020-01-14  2942.325605               NaN          NaN              NaN
14 2020-01-15  2843.404023               NaN          NaN              NaN
15 2020-01-16  2812.450546               NaN          NaN              NaN
16 2020-01-17  2756.879878               NaN          NaN              NaN
17 2020-01-18  2775.093687               NaN          NaN              NaN
18 2020-01-19  2725.969177               NaN          NaN              NaN
19 2020-01-20  2650.843662               NaN          NaN              NaN
20 2020-01-21  2730.516888               NaN  2920.628189        -0.065093
21 2020-01-22  2719.030551          0.322901  2918.332516        -0.068293
22 2020-01-23  2723.522191          0.322996  2909.764938        -0.064006
23 2020-01-24  2647.805019          0.318240  2900.452801        -0.087106
24 2020-01-25  2619.918859          0.303571  2884.251133        -0.091647
25 2020-01-26  2626.525314          0.304032  2867.305020        -0.083974
26 2020-01-27  2567.523788          0.305470  2851.336203        -0.099537
27 2020-01-28  2587.664905          0.275714  2847.782201        -0.091340
28 2020-01-29  2557.532980          0.267863  2831.644105        -0.096803
29 2020-01-30  2543.419001          0.268068  2814.758510        -0.096399

Эта техника позволяет модели быстрее реагировать на изменения в волатильных периодах и быть более консервативной в спокойные периоды.

👉🏻 Что такое алгоритмическая торговля и как она работает?

Фрактальные признаки и многомасштабный анализ

Для выявления сложных паттернов в данных я использую фрактальный анализ, который помогает обнаружить самоподобные структуры на разных временных масштабах:

def calculate_hurst_exponent(series, max_lag=20):
    """Расчет показателя Хёрста для определения персистентности ряда"""
    series = np.asarray(series)
    if len(series) < max_lag + 2: return np.nan lags = range(2, max_lag + 1) tau = [] for lag in lags: diff = series[lag:] - series[:-lag] std = np.std(diff) # Пропускаем, если std слишком мал или nan if std > 1e-8 and np.isfinite(std):
            tau.append(np.sqrt(std))
        else:
            tau.append(np.nan)

    log_lags = np.log(lags)
    log_tau = np.log(tau)

    # Только валидные значения
    valid = np.isfinite(log_tau)
    if valid.sum() < 2:
        return np.nan

    poly = np.polyfit(log_lags[valid], log_tau[valid], 1)
    return poly[0]

def create_fractal_features(df, windows=[50, 100, 200]):
    """Создание фрактальных признаков"""
    df = df.copy()
    returns = df['close'].pct_change()
    
    for window in windows:
        # Показатель Хёрста в скользящем окне
        hurst_values = []
        for i in range(len(df)):
            if i < window:
                hurst_values.append(np.nan)
            else:
                series = returns.iloc[i-window:i].dropna()
                hurst = calculate_hurst_exponent(series)
                hurst_values.append(hurst)
        
        df[f'hurst_{window}'] = hurst_values
        
        # Фрактальная размерность
        df[f'fractal_dim_{window}'] = 2 - df[f'hurst_{window}']
        
        # Режим персистентности
        df[f'persistence_regime_{window}'] = pd.cut(df[f'hurst_{window}'], 
                                                   bins=[0, 0.45, 0.55, 1.0],
                                                   labels=['mean_reverting', 'random', 'trending'])
    
    return df

df_fractal = create_fractal_features(df_adaptive)
print("Фрактальные признаки:")
fractal_cols = ['date', 'hurst_50', 'fractal_dim_100', 'persistence_regime_50']
print(df_fractal[fractal_cols].tail(30))

Фрактальные признаки:
           date  hurst_50  fractal_dim_100 persistence_regime_50
1431 2023-12-02 -0.000726         1.987792                   NaN
1432 2023-12-03 -0.005622         1.995106                   NaN
1433 2023-12-04 -0.011070         1.999328                   NaN
1434 2023-12-05 -0.011003         2.003287                   NaN
1435 2023-12-06 -0.011438         2.005938                   NaN
1436 2023-12-07 -0.012225         2.008429                   NaN
1437 2023-12-08 -0.012584         2.009181                   NaN
1438 2023-12-09 -0.011000         2.010796                   NaN
1439 2023-12-10 -0.010797         2.011143                   NaN
1440 2023-12-11 -0.009949         2.011873                   NaN
1441 2023-12-12 -0.006229         2.011475                   NaN
1442 2023-12-13 -0.003392         2.008876                   NaN
1443 2023-12-14  0.002277         2.006802        mean_reverting
1444 2023-12-15 -0.003347         2.004859                   NaN
1445 2023-12-16 -0.000903         1.999905                   NaN
1446 2023-12-17  0.001969         1.998153        mean_reverting
1447 2023-12-18  0.002146         2.000130        mean_reverting
1448 2023-12-19  0.002061         1.994602        mean_reverting
1449 2023-12-20  0.000109         1.993465        mean_reverting
1450 2023-12-21 -0.003575         1.992613                   NaN
1451 2023-12-22 -0.002574         1.991304                   NaN
1452 2023-12-23 -0.000481         1.992323                   NaN
1453 2023-12-24  0.001993         1.991187        mean_reverting
1454 2023-12-25  0.009955         1.989819        mean_reverting
1455 2023-12-26  0.009705         1.991134        mean_reverting
1456 2023-12-27  0.005695         1.994546        mean_reverting
1457 2023-12-28  0.001660         1.995785        mean_reverting
1458 2023-12-29 -0.009340         1.998282                   NaN
1459 2023-12-30 -0.010692         2.000000                   NaN
1460 2023-12-31 -0.011758         2.001294                   NaN

Фрактальные признаки особенно полезны для долгосрочных стратегий, поскольку они помогают определить, находится ли рынок в трендовом или боковом режиме.

Валидация моделей с временными данными

Правильная валидация моделей с временными данными кардинально отличается от стандартных подходов машинного обучения. Использование обычного cross-validation или случайного разделения данных неизбежно приведет к утечке данных и переоценке качества модели.

Walk-Forward анализ как золотой стандарт

Walk-forward анализ — это единственный надежный способ валидации торговых стратегий, который я использую в профессиональной практике:

from sklearn.ensemble import RandomForestClassifier 
from sklearn.metrics import accuracy_score, precision_score, recall_score
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

def walk_forward_validation(df, model, features, target, 
                          train_size=252, test_size=21, step_size=21):
    """
    Реализация walk-forward валидации для финансовых моделей
    """
    results = []
    
    df_clean = df.dropna()
    start_idx = train_size
    
    while start_idx + test_size < len(df_clean): train_start = start_idx - train_size train_end = start_idx test_start = start_idx test_end = start_idx + test_size X_train = df_clean[features].iloc[train_start:train_end] y_train = df_clean[target].iloc[train_start:train_end] X_test = df_clean[features].iloc[test_start:test_end] y_test = df_clean[target].iloc[test_start:test_end] model.fit(X_train, y_train) y_pred = model.predict(X_test) accuracy = accuracy_score(y_test, y_pred) precision = precision_score(y_test, y_pred, average='weighted', zero_division=0) recall = recall_score(y_test, y_pred, average='weighted', zero_division=0) results.append({ 'train_start': df_clean.index[train_start], 'train_end': df_clean.index[train_end], 'test_start': df_clean.index[test_start], 'test_end': df_clean.index[test_end], 'accuracy': accuracy, 'precision': precision, 'recall': recall, 'n_predictions': len(y_pred) }) start_idx += step_size return pd.DataFrame(results) # Подготавливаем данные для валидации feature_columns = ['return_1d', 'return_5d', 'momentum_short', 'realized_vol_20d', 'drawdown_60d', 'adaptive_signal', 'hurst_50'] # Создаем бинарную цель: положительная доходность через 5 дней df_fractal['target_5d'] = (df_fractal['close'].shift(-5) / df_fractal['close'] - 1) > 0.005

# Применяем walk-forward валидацию
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
wf_results = walk_forward_validation(df_fractal, model, feature_columns, 'target_5d')

print("Результаты Walk-Forward валидации:")
print(wf_results.describe())
print(f"\nСредняя точность: {wf_results['accuracy'].mean():.3f}")
print(f"Стандартное отклонение точности: {wf_results['accuracy'].std():.3f}")

# Визуализация стабильности модели во времени
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.plot(wf_results['test_start'], wf_results['accuracy'], marker='o')
plt.title('Стабильность модели во времени (Walk-Forward)')
plt.xlabel('Дата тестирования')
plt.ylabel('Точность')
plt.grid(True, alpha=0.3)
plt.axhline(y=wf_results['accuracy'].mean(), color='r', linestyle='--', 
           label=f'Средняя точность: {wf_results["accuracy"].mean():.3f}')
plt.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

Результаты Walk-Forward валидации:
       train_start    train_end   test_start     test_end  accuracy  precision    recall  n_predictions
count     4.000000     4.000000     4.000000     4.000000  4.000000   4.000000  4.000000            4.0
mean    550.000000  1276.750000  1276.750000  1334.750000  0.619048   0.482200  0.619048           21.0
std     193.513135    79.989062    79.989062    76.277454  0.202031   0.260751  0.202031            0.0
min     366.000000  1186.000000  1186.000000  1260.000000  0.428571   0.183673  0.428571           21.0
25%     392.250000  1241.500000  1241.500000  1275.750000  0.464286   0.361395  0.464286           21.0
50%     548.500000  1270.500000  1270.500000  1330.500000  0.595238   0.465420  0.595238           21.0
75%     706.250000  1305.750000  1305.750000  1389.500000  0.750000   0.586224  0.750000           21.0
max     737.000000  1380.000000  1380.000000  1418.000000  0.857143   0.814286  0.857143           21.0

Средняя точность: 0.619
Стандартное отклонение точности: 0.202

Рис. 1: Визуализация стабильности работы модели во времени (Walk-forward)

Критически важно анализировать не только средние показатели, но и их стабильность во времени. Модель, которая показывает высокую среднюю точность, но с большими колебаниями, может оказаться непригодной для практического использования.

👉🏻 Прогнозирование трафика и конверсий сайта с помощью Prophet

Техника Purged Cross-Validation

Для более детального анализа я использую технику Purged Cross-Validation, разработанную Marcos López de Prado. Она позволяет избежать утечки данных даже при перекрывающихся временных окнах:

def purged_cross_validation(df, model, features, target, n_splits=5, embargo_pct=0.05):
    """
    Purged Cross-Validation для временных рядов
    
    embargo_pct: процент данных для "карантина" между обучением и тестом
    """
    from sklearn.model_selection import KFold
    from sklearn.metrics import accuracy_score
    
    df_clean = df.dropna()
    n_samples = len(df_clean)
    embargo_size = int(n_samples * embargo_pct)
    
    # Создаем временные индексы
    time_index = np.arange(n_samples)
    kf = KFold(n_splits=n_splits, shuffle=False)
    
    cv_results = []
    
    for fold, (train_idx, test_idx) in enumerate(kf.split(time_index)):
        # Применяем embargo - убираем данные между обучением и тестом
        max_train_idx = train_idx.max()
        min_test_idx = test_idx.min()
        
        # Purging: убираем overlapping labels
        purged_train_idx = train_idx[train_idx < max_train_idx - embargo_size] purged_test_idx = test_idx[test_idx > min_test_idx + embargo_size]
        
        if len(purged_train_idx) == 0 or len(purged_test_idx) == 0:
            continue
            
        # Обучающая выборка
        X_train = df_clean[features].iloc[purged_train_idx]
        y_train = df_clean[target].iloc[purged_train_idx]
        
        # Тестовая выборка
        X_test = df_clean[features].iloc[purged_test_idx]
        y_test = df_clean[target].iloc[purged_test_idx]
        
        # Обучение и предсказание
        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        # Расчет метрик
        accuracy = accuracy_score(y_test, y_pred)
        
        cv_results.append({
            'fold': fold,
            'train_size': len(purged_train_idx),
            'test_size': len(purged_test_idx),
            'accuracy': accuracy,
            'train_period': f"{df_clean.index[purged_train_idx[0]]} - {df_clean.index[purged_train_idx[-1]]}",
            'test_period': f"{df_clean.index[purged_test_idx[0]]} - {df_clean.index[purged_test_idx[-1]]}"
        })
    
    return pd.DataFrame(cv_results)

# Применяем Purged CV
pcv_results = purged_cross_validation(df_fractal, model, feature_columns, 'target_5d')
print("Результаты Purged Cross-Validation:")
print(pcv_results)
print(f"\nСредняя точность PCV: {pcv_results['accuracy'].mean():.3f}")
print(f"Стандартное отклонение PCV: {pcv_results['accuracy'].std():.3f}")

Результаты Purged Cross-Validation:
   fold  train_size  test_size  accuracy train_period  test_period
0     0         267         54  0.314815   778 - 1420    384 - 777
1     1         267         54  0.444444   366 - 1420    796 - 994
2     2         268         53  0.490566   366 - 1420  1015 - 1111
3     3         268         53  0.490566   366 - 1420  1146 - 1272
4     4         268         53  0.584906   366 - 1215  1369 - 1457

Средняя точность PCV: 0.465
Стандартное отклонение PCV: 0.098

Purged Cross-Validation особенно важен при работе с перекрывающимися целевыми переменными (например, 5-дневные доходности), где стандартный подход может создать серьезную утечку данных.

Заключение

Правильное использование лаговых переменных в финансовых моделях представляет собой фундаментальный навык, который отделяет академические упражнения от работоспособных торговых систем. За годы практической работы я убедился, что огромное число неудач в количественной торговле связано именно с нарушением временной последовательности данных и созданием различных форм data leakage.

Ключевые принципы, которые необходимо неукоснительно соблюдать, включают строгое следование правилу доступности данных — любой признак должен рассчитываться исключительно на основе информации, доступной до момента принятия торгового решения. Это означает систематическое использование временных сдвигов, особенно при создании агрегированных показателей и технических индикаторов. Даже кажущиеся незначительными нарушения этого принципа могут привести к кардинальной переоценке качества стратегии.

Особое внимание требуется при работе с различными типами данных и временными масштабами. Внутридневные стратегии должны учитывать микроструктурные эффекты и реалистичные задержки исполнения. Макроэкономические модели требуют точного моделирования календарей публикации данных и учета пересмотров показателей. Мультиактивные портфели добавляют сложности синхронизации данных между различными инструментами.

Валидация моделей с временными данными кардинально отличается от стандартных подходов машинного обучения. Walk-forward анализ и purged cross-validation не просто предоставляют более точные оценки качества — они выявляют скрытые проблемы с данными, которые могут быть незаметны при использовании традиционных методов валидации. Различия в результатах между обычным и purged CV служат важным диагностическим инструментом.

Практический опыт показывает, что инвестиции времени в создание надежной инфраструктуры для работы с временными данными многократно окупаются в долгосрочной перспективе. Автоматизированные проверки на наличие look-ahead bias, стандартизированные процедуры создания лагов, и строгие протоколы валидации должны стать неотъемлемой частью любого серьезного исследовательского процесса.