-
Обучение baseline моделей для временных рядов: инжиниринг признаков, регуляризация, оценка качества
Бейзлайн (baseline) — это простая стартовая модель, определяющая минимально приемлемый уровень качества следующих ML-моделей. Если другие модели с более сложной архитектурой выдают метрики хуже бейзлайна, значит, их применение неоправданно. Нередко так бывает, что линейная регрессия с правильными признаками превосходит нейросеть со слабой подготовкой данных. А градиентный бустинг с грамотной регуляризацией обходит LSTM на горизонте прогноза…
-
Важность признаков полученных из ML-моделей (Feature Importance)
Важность признаков (Feature Importance) — инструмент для понимания того, какие переменные вносят наибольший вклад в предсказания модели. Методы оценки важности признаков решают несколько практических задач: отбор релевантных предикторов, детекцию утечек данных, снижение размерности для ускорения инференса. Выбор метода зависит от типа модели, структуры данных и требований к интерпретируемости. Разные подходы к оценке важности дают разные…
-
Настройки градиентного бустинга. Гиперпараметры бустинговых ML-моделей
Градиентный бустинг занимает особое место в арсенале финансовых аналитиков. В отличие от примитивных методов вроде линейной регрессии или банальных индикаторов технического анализа, бустинговые алгоритмы способны улавливать сложные нелинейные зависимости в данных, что особенно важно при работе с финансовыми временными рядами. Однако их эффективность напрямую зависит от корректной настройки множества гиперпараметров, каждый из которых влияет на…
-
Как предсказать отток клиентов с помощью машинного обучения
Клиентский отток — это одна из ключевых проблем современного бизнеса, особенно для компаний, работающих по модели подписки или регулярных продаж. В этой статье я поделюсь своим опытом и расскажу, как построить эффективную модель машинного обучения для предсказания оттока. Почему прогнозирование оттока так важно? Привлечение нового клиента обходится бизнесу в 5-25 раз дороже, чем удержание существующего.…
-
Классические методы предиктивной аналитики
Предиктивная аналитика — это область анализа данных, которая использует статистические алгоритмы, машинное обучение и методы искусственного интеллекта для прогнозирования будущих событий или поведения на основе исторических данных. Эта дисциплина находится на стыке статистики, информатики и бизнес-аналитики, что делает ее чрезвычайно мощным инструментом для принятия решений в различных отраслях. Основная идея предиктивной аналитики заключается в том,…
-
Прогнозирование трафика и конверсий сайта с помощью LightGBM
LightGBM (Light Gradient Boosting Machine) — это высокоэффективная реализация градиентного бустинга, которая в последние годы завоевала популярность среди специалистов по машинному обучению благодаря своей скорости и точности. В этой статье мы глубоко погрузимся в то, как использовать LightGBM для прогнозирования ключевых метрик веб-сайта, рассмотрим конкретные примеры кода и обсудим лучшие практики. Почему LightGBM является эффективным…