Прогнозирование трафика и конверсий сайта с помощью LightGBM

LightGBM (Light Gradient Boosting Machine) — это высокоэффективная реализация градиентного бустинга, которая в последние годы завоевала популярность среди специалистов по машинному обучению благодаря своей скорости и точности. В этой статье мы глубоко погрузимся в то, как использовать LightGBM для прогнозирования ключевых метрик веб-сайта, рассмотрим конкретные примеры кода и обсудим лучшие практики.

Почему LightGBM является эффективным методом для прогнозирования?

Прежде чем мы углубимся в детали реализации, давайте рассмотрим, почему LightGBM является отличным выбором для прогнозирования трафика и конверсий сайта:

Высокая производительность на больших объемах данных: Веб-аналитика часто имеет дело с огромными объемами данных. LightGBM использует уникальный алгоритм построения деревьев решений, который позволяет эффективно обрабатывать большие датасеты;
Способность работать с разреженными данными: Данные о поведении пользователей на сайте часто бывают разреженными. LightGBM отлично справляется с такими данными благодаря своей оптимизированной структуре;
Встроенная обработка категориальных признаков: В веб-аналитике мы часто сталкиваемся с категориальными данными (например, тип устройства, источник трафика). LightGBM может автоматически обрабатывать такие признаки без необходимости предварительного кодирования;
Гибкость в настройке: LightGBM предоставляет множество параметров для тонкой настройки модели, что позволяет адаптировать ее под специфику конкретного сайта и бизнес-задач;
Интерпретируемость: Несмотря на сложность алгоритма, LightGBM предоставляет инструменты для оценки важности признаков, что критично для понимания факторов, влияющих на трафик и конверсии.

Теперь, когда мы поняли преимущества LightGBM, давайте перейдем к практической реализации модели для прогнозирования веб-метрик.

Подготовка данных для модели LightGBM

Первый шаг в любом проекте машинного обучения — это подготовка данных. В нашем случае мы будем работать с данными веб-аналитики, которые обычно содержат информацию о посещениях сайта, действиях пользователей и конверсиях.

Для примера давайте рассмотрим датасет с типовой структурой выгрузки из Яндекс.Метрики по Logs API. Этот датасет содержит богатую информацию о посещениях сайта, включая время посещения, источники трафика, UTM-метки и информацию о достижении целей.

👉🏻 Модель ETS для прогнозирования временных рядов

Вот пример кода на Python для загрузки и начальной обработки таких данных:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Загрузка данных
df = pd.read_csv('web_analytics_data.csv', parse_dates=['HitDateTime', 'VisitDateTime'])

# Создание новых признаков
df['DayOfWeek'] = df['HitDateTime'].dt.dayofweek
df['Hour'] = df['HitDateTime'].dt.hour
df['IsWeekend'] = df['DayOfWeek'].isin([5, 6]).astype(int)

# Преобразование категориальных переменных
categorical_features = ['Source', 'UTMSource', 'UTMMedium', 'UTMCampaign']
for feature in categorical_features:
    df[feature] = df[feature].astype('category')

# Подготовка целевой переменной (например, количество просмотров страниц)
y = df['Pageviews']

# Выбор признаков для модели
features = ['DayOfWeek', 'Hour', 'IsWeekend', 'Source', 'UTMSource', 'UTMMedium', 'UTMCampaign', 'isNewUser']
X = df[features]

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Инициализация и обучение модели LightGBM
model = LGBMRegressor(
    n_estimators=100,
    learning_rate=0.1,
    max_depth=7,
    num_leaves=31,
    random_state=42
)
model.fit(X_train, y_train, 
          eval_set=[(X_test, y_test)],
          categorical_feature=categorical_features,
          early_stopping_rounds=10,
          verbose=10)

# Оценка модели
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R-squared Score: {r2}")

Этот код демонстрирует несколько ключевых шагов в подготовке данных и обучении модели LightGBM:

Мы загружаем данные и преобразуем даты в формат datetime;
Создаем новые признаки, такие как день недели и час, которые могут быть полезны для прогнозирования трафика веб-сайта;
Преобразуем категориальные переменные в тип ‘category’, что позволяет LightGBM эффективно обрабатывать их без дополнительного кодирования;
Выбираем целевую переменную (в данном случае ‘Pageviews’) и набор признаков для модели;
Разделяем данные на обучающую и тестовую выборки;
Инициализируем модель LightGBM с некоторыми базовыми параметрами;
Обучаем модель, используя раннюю остановку для предотвращения переобучения;
Оцениваем производительность модели на тестовой выборке.

Тонкая настройка модели LightGBM

После создания базовой модели следующим шагом является ее оптимизация. LightGBM предоставляет множество гиперпараметров, которые можно настраивать для улучшения производительности модели. Вот некоторые ключевые параметры, на которые стоит обратить внимание:

n_estimators: количество деревьев в ансамбле;
learning_rate: скорость обучения;
max_depth: максимальная глубина деревьев;
num_leaves: максимальное количество листьев в дереве;
min_child_samples: минимальное количество образцов в листе;
subsample: доля образцов, используемых для обучения каждого дерева;
colsample_bytree: доля признаков, используемых для обучения каждого дерева.

👉🏻 Коинтеграция временных рядов: базовые понятия и методы проверки

Для поиска оптимальных параметров можно использовать различные методы, такие как GridSearchCV или RandomizedSearchCV из библиотеки scikit-learn. Однако для больших датасетов эти методы могут быть слишком медленными. В таких случаях я предпочитаю использовать библиотеку Optuna, которая реализует более эффективные алгоритмы оптимизации.

Вот пример использования Optuna для оптимизации параметров LightGBM:

import optuna
from lightgbm import LGBMRegressor
from sklearn.model_selection import cross_val_score

def objective(trial):
    params = {
        'n_estimators': trial.suggest_int('n_estimators', 100, 1000),
        'learning_rate': trial.suggest_loguniform('learning_rate', 1e-3, 1.0),
        'num_leaves': trial.suggest_int('num_leaves', 2, 256),
        'max_depth': trial.suggest_int('max_depth', 3, 15),
        'min_child_samples': trial.suggest_int('min_child_samples', 5, 100),
        'subsample': trial.suggest_uniform('subsample', 0.5, 1.0),
        'colsample_bytree': trial.suggest_uniform('colsample_bytree', 0.5, 1.0)
    }
    
    model = LGBMRegressor(**params, random_state=42)
    
    score = cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error')
    return -score.mean()

study = optuna.create_study(direction='minimize')
study.optimize(objective, n_trials=100)

best_params = study.best_params
print("Best parameters:", best_params)

# Обучение модели с лучшими параметрами
best_model = LGBMRegressor(**best_params, random_state=42)
best_model.fit(X_train, y_train)

Этот код использует Optuna для поиска оптимальных гиперпараметров LightGBM. Он проводит 100 испытаний, в каждом из которых оценивает производительность модели с различными комбинациями параметров с помощью кросс-валидации.

Анализ важности признаков

Одним из ключевых преимуществ LightGBM является возможность легко интерпретировать важность различных признаков для прогноза. Это особенно полезно в контексте веб-аналитики, где понимание факторов, влияющих на трафик и конверсии, может привести к ценным бизнес-инсайтам.

Вот пример кода для визуализации важности признаков:

import matplotlib.pyplot as plt

feature_importance = best_model.feature_importances_
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + .5

fig, ax = plt.subplots(figsize=(12, 6))
ax.barh(pos, feature_importance[sorted_idx], align='center')
ax.set_yticks(pos)
ax.set_yticklabels(np.array(features)[sorted_idx])
ax.set_xlabel('Feature Importance')
ax.set_title('LightGBM Feature Importance')
plt.tight_layout()
plt.show()

Этот код создает горизонтальную гистограмму, показывающую относительную важность каждого признака в модели. Например, вы можете обнаружить, что время суток (Hour) имеет большее влияние на трафик, чем день недели, или что определенный источник трафика (UTMSource) особенно важен для прогнозирования конверсий.

Прогнозирование временных рядов с LightGBM

До сих пор мы рассматривали задачу прогнозирования как проблему регрессии. Однако данные веб-аналитики часто имеют временную структуру, и мы можем улучшить наши прогнозы, явно учитывая эту временную зависимость.

👉🏻 Анализ фьючерса на Brent с помощью Pandas, Sklearn, Hmmlearn

Для этого мы можем использовать подход, известный как «скользящее окно» (rolling window). Вот пример реализации этого подхода с LightGBM:

import pandas as pd
import numpy as np
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import TimeSeriesSplit

# Предположим, что у нас есть датафрейм df с временным индексом
df = df.sort_index()

# Создаем функцию для генерации признаков из временного ряда
def create_features(df, label=None, lag=5):
    X = df[['DayOfWeek', 'Hour', 'IsWeekend', 'Source', 'UTMSource', 'UTMMedium', 'UTMCampaign', 'isNewUser']]
    for i in range(1, lag+1):
        X[f'lag_{i}'] = df['Pageviews'].shift(i)
    
    if label:
        y = df[label]
        return X, y
    return X

# Создаем признаки и целевую переменную
X, y = create_features(df, label='Pageviews')

# Удаляем строки с NaN значениями
X = X.dropna()
y = y.dropna()

# Инициализируем модель
model = LGBMRegressor(n_estimators=100, learning_rate=0.1, random_state=42)

# Используем TimeSeriesSplit для валидации
tscv = TimeSeriesSplit(n_splits=5)

errors = []

for train_index, test_index in tscv.split(X):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y.iloc[train_index], y.iloc[test_index]
    
    model.fit(X_train, y_train)
    predictions = model.predict(X_test)
    
    error = mean_squared_error(y_test, predictions, squared=False)
    errors.append(error)

print(f"Mean RMSE: {np.mean(errors)}")
print(f"Std RMSE: {np.std(errors)}")

Этот код демонстрирует несколько важных концепций:

Мы создаем лаговые признаки, которые позволяют модели учитывать исторические значения трафика;
Используем TimeSeriesSplit для валидации, что обеспечивает корректную оценку производительности модели на временных рядах;
Оцениваем модель на нескольких временных срезах, что дает нам более надежную оценку ее производительности.

Этот подход позволяет нам создавать более точные прогнозы, учитывая временную динамику трафика и конверсий.

Работа с сезонностью и трендами

Трафик на сайтах часто демонстрирует сезонные паттерны и долгосрочные тренды. LightGBM может автоматически учитывать эти паттерны, если мы предоставим соответствующие признаки. Давайте расширим наш набор признаков, чтобы включить эту информацию:

def create_advanced_features(df, label=None):
    X = df[['DayOfWeek', 'Hour', 'IsWeekend', 'Source', 'UTMSource', 'UTMMedium', 'UTMCampaign', 'isNewUser']]
    
    # Добавляем признаки времени
    X['Month'] = df.index.month
    X['DayOfMonth'] = df.index.day
    X['WeekOfYear'] = df.index.isocalendar().week
    
    # Добавляем циклические признаки для часа и дня недели
    X['Hour_sin'] = np.sin(2 * np.pi * df.index.hour / 24)
    X['Hour_cos'] = np.cos(2 * np.pi * df.index.hour / 24)
    X['DayOfWeek_sin'] = np.sin(2 * np.pi * df.index.dayofweek / 7)
    X['DayOfWeek_cos'] = np.cos(2 * np.pi * df.index.dayofweek / 7)
    
    # Добавляем лаговые признаки
    for lag in [1, 7, 14, 28]:  # день назад, неделя назад, две недели назад, месяц назад
        X[f'lag_{lag}'] = df['Pageviews'].shift(lag)
    
    # Добавляем скользящие средние
    for window in [7, 14, 28]:
        X[f'rolling_mean_{window}'] = df['Pageviews'].rolling(window=window).mean()
    
    # Добавляем признак тренда
    X['trend'] = np.arange(len(df))
    
    if label:
        y = df[label]
        return X, y
    return X

# Создаем расширенный набор признаков
X_advanced, y_advanced = create_advanced_features(df, label='Pageviews')

# Удаляем строки с NaN значениями
X_advanced = X_advanced.dropna()
y_advanced = y_advanced.dropna()

# Обучаем модель на расширенном наборе признаков
model_advanced = LGBMRegressor(**best_params, random_state=42)
model_advanced.fit(X_advanced, y_advanced)

Этот код добавляет несколько новых типов признаков:

Временные признаки (месяц, день месяца, неделя года) для учета сезонности;
Циклические признаки для часа и дня недели, которые позволяют модели лучше улавливать периодичность;
Лаговые признаки с различными временными горизонтами;
Скользящие средние для сглаживания краткосрочных колебаний;
Признак тренда для учета долгосрочных изменений в трафике.

👉🏻 Foundation-модели для временных рядов

Такой расширенный набор признаков позволяет модели LightGBM лучше улавливать сложные временные паттерны в данных веб-аналитики.

Прогнозирование конверсий

До сих пор мы фокусировались на прогнозировании трафика (количества просмотров страниц). Однако для многих бизнесов еще более важным является прогнозирование конверсий. Давайте рассмотрим, как мы можем адаптировать нашу модель для этой задачи.

Конверсии обычно представляют собой бинарные события (произошла конверсия или нет), поэтому мы будем использовать LightGBM в режиме классификации. Вот пример кода:

from lightgbm import LGBMClassifier
from sklearn.metrics import roc_auc_score, precision_score, recall_score, f1_score

# Создаем целевую переменную для конверсий
df['Conversion'] = df['GoalsID'].apply(lambda x: 1 if len(x) > 0 else 0)

# Создаем признаки и целевую переменную
X_conv, y_conv = create_advanced_features(df, label='Conversion')

# Удаляем строки с NaN значениями
X_conv = X_conv.dropna()
y_conv = y_conv.dropna()

# Разделяем данные на обучающую и тестовую выборки
X_train_conv, X_test_conv, y_train_conv, y_test_conv = train_test_split(X_conv, y_conv, test_size=0.2, random_state=42)

# Инициализируем и обучаем модель
model_conv = LGBMClassifier(n_estimators=100, learning_rate=0.1, random_state=42)
model_conv.fit(X_train_conv, y_train_conv)

# Делаем прогнозы
y_pred_conv = model_conv.predict(X_test_conv)
y_pred_proba_conv = model_conv.predict_proba(X_test_conv)[:, 1]

# Оцениваем модель
print(f"AUC-ROC: {roc_auc_score(y_test_conv, y_pred_proba_conv)}")
print(f"Precision: {precision_score(y_test_conv, y_pred_conv)}")
print(f"Recall: {recall_score(y_test_conv, y_pred_conv)}")
print(f"F1-score: {f1_score(y_test_conv, y_pred_conv)}")

В этом коде мы:

Создаем бинарную целевую переменную ‘Conversion’ на основе наличия завершенных целей;
Используем те же расширенные признаки, что и для прогнозирования трафика;
Обучаем модель LGBMClassifier для прогнозирования вероятности конверсии;
Оцениваем модель с помощью различных метрик, специфичных для задачи классификации.

Интерпретация результатов и их применение в бизнесе

Теперь, когда у нас есть модели для прогнозирования трафика и конверсий, давайте обсудим, как интерпретировать их результаты и применять их в контексте бизнеса.

Анализ важности признаков

Мы уже видели, как визуализировать важность признаков. Давайте рассмотрим, как это можно интерпретировать:

Если определенный источник трафика (например, конкретная рекламная кампания) имеет высокую важность для прогнозирования конверсий, это может указывать на эффективность этой кампании. Возможно, стоит увеличить инвестиции в этот канал;
Если время суток или день недели имеют высокую важность, это может говорить о необходимости оптимизации расписания публикации контента или запуска рекламных кампаний;
Если определенные UTM-метки имеют высокую важность для прогнозирования конверсий, это может помочь в оптимизации маркетинговых сообщений и таргетинга.

👉🏻 Сравнение временных финансовых рядов: методы, метрики и примеры на Python

Прогнозирование будущего трафика и конверсий

Используя наши модели, мы можем делать прогнозы на будущее. Вот пример:

# Создаем датафрейм с будущими датами
future_dates = pd.date_range(start=df.index[-1] + pd.Timedelta(days=1), periods=30, freq='D')
future_df = pd.DataFrame(index=future_dates)

# Создаем признаки для будущих дат
X_future = create_advanced_features(future_df)

# Делаем прогнозы
future_traffic = model_advanced.predict(X_future)
future_conversions = model_conv.predict_proba(X_future)[:, 1]

# Создаем датафрейм с прогнозами
forecast_df = pd.DataFrame({
    'Date': future_dates,
    'Predicted_Traffic': future_traffic,
    'Predicted_Conversion_Rate': future_conversions
})

print(forecast_df)

Этот прогноз может быть использован для:

Планирования ресурсов: если ожидается всплеск трафика, может понадобиться увеличение серверных мощностей;
Оптимизации маркетинговых кампаний: если прогнозируется спад конверсий, можно заранее спланировать акции или улучшения на сайте;
Постановки целей: прогнозы могут служить основой для KPI команды маркетинга и продаж.

Выявление аномалий

LightGBM также может быть использован для выявления аномалий в трафике или конверсиях. Если фактические значения значительно отклоняются от прогнозируемых, это может указывать на проблему (например, технический сбой) или неучтенный фактор (например, внешнее событие, влияющее на поведение пользователей).

# Вычисляем отклонения фактических значений от прогнозируемых
df['Traffic_Anomaly'] = np.abs(df['Pageviews'] - model_advanced.predict(X_advanced)) / df['Pageviews']
df['Conversion_Anomaly'] = np.abs(df['Conversion'] - model_conv.predict_proba(X_conv)[:, 1])

# Выводим дни с наибольшими аномалиями
print(df.nlargest(10, 'Traffic_Anomaly')[['Pageviews', 'Traffic_Anomaly']])
print(df.nlargest(10, 'Conversion_Anomaly')[['Conversion', 'Conversion_Anomaly']])

Анализ таких аномалий может помочь в выявлении проблем на сайте, неучтенных факторов влияния на трафик и конверсии, а также в улучшении модели прогнозирования.

Оптимизация воронки конверсии

Используя наши модели и анализ, мы можем оптимизировать воронку конверсии. Вот несколько стратегий:

Определение наиболее эффективных источников трафика: на основе анализа важности признаков и прогнозов конверсий мы можем определить, какие источники трафика наиболее эффективны. Это позволит оптимизировать распределение маркетингового бюджета;
Оптимизация времени показа рекламы: если модель показывает высокую важность временных признаков, мы можем настроить показы рекламы на наиболее эффективное время;
Персонализация пользовательского опыта: на основе прогнозов вероятности конверсии мы можем динамически адаптировать содержимое сайта для каждого пользователя, показывая наиболее релевантные предложения тем, кто с наибольшей вероятностью совершит конверсию;
A/B тестирование: мы можем использовать нашу модель для оценки эффективности различных версий сайта или маркетинговых кампаний, прогнозируя их влияние на конверсии.

👉🏻 Сезонность временных рядов. В чем отличие аддитивной от мультипликативной?

Заключение

В этой статье мы рассмотрели множество техник использования модели LightGBM для прогнозирования трафика и конверсий сайта. Мы рассмотрели весь процесс: от подготовки данных и создания признаков до обучения модели, анализа результатов и их применения в бизнесе.

LightGBM показал себя мощным инструментом для работы с данными веб-аналитики. Его способность эффективно обрабатывать большие объемы данных, работать с категориальными признаками и учитывать сложные взаимодействия между признаками делает его отличным выбором для задач прогнозирования в области digital-маркетинга.

Использование продвинутых методов анализа данных, таких как LightGBM, может дать существенное конкурентное преимущество. Однако важно помнить, что любая модель машинного обучения — это лишь инструмент. Ее эффективность во многом зависит от качества исходных данных, правильного выбора признаков и грамотной интерпретации результатов. Кроме того, в быстро меняющемся мире digital-маркетинга важно регулярно переобучать модель на свежих данных и адаптировать ее к изменяющимся условиям.