-
Продвинутые статистические тесты в Python: причинность, бустрэп и непараметрические методы
Стандартные статистические тесты опираются на строгие допущения. Они предполагают нормальное распределение данных, независимость наблюдений и линейные связи между переменными. Финансовые данные этим требованиям обычно не соответствуют. Доходности активов имеют тяжелые хвосты распределений. Волатильность склонна группироваться во времени. Связи между финансовыми инструментами часто нелинейны и тоже меняются со временем. Продвинутые статистические методы решают задачи, с которыми…
-
Случайный лес (Random Forest): механика алгоритма, Бутстрэп-агрегирование, out-of-bag оценка
Random Forest или Случайный лес — это ансамблевый алгоритм машинного обучения, объединяющий множество деревьев решений для повышения точности и устойчивости предсказаний. Алгоритм был предложен Лео Брейманом в 2001 году и с тех пор стал одним из наиболее используемых методов в задачах классификации и регрессии. Основное преимущество Random Forest — способность снижать дисперсию модели без существенного…
-
Матожидание в статистике и трейдинге
Математическое ожидание определяет среднее значение случайной величины при бесконечном количестве наблюдений. В трейдинге этот показатель отвечает на вопрос: какую прибыль или убыток принесет стратегия в долгосрочной перспективе. Стратегия с положительным матожиданием доходности генерирует прибыль при достаточном количестве сделок, стратегия с отрицательным — приводит к убыткам независимо от краткосрочных результатов. Понимание матожидания позволяет отделить случайную удачу…
-
Прогнозирование вероятности дефолта через логистическую регрессию
Прогнозирование вероятности дефолта — одна из ключевых задач в управлении кредитными рисками, которая помогает банкам, инвестиционным компаниям и бизнесу принимать более взвешенные решения. Существует множество инструментов для таких прогнозов, хотя логистическая регрессия — пожалуй, наиболее популярный. Она позволяет на основе набора факторов (например, дохода клиента, кредитной истории, уровня долговой нагрузки) оценить вероятность того, что заемщик…
-
Расчет доверительных интервалов и уровня значимости с Python
Работая над множеством проектов в области машинного обучения и анализа данных, я постоянно сталкиваюсь с необходимостью не просто получить какие-то метрики или показатели, но и оценить, насколько мы можем им доверять. Представьте ситуацию: вы разработали новую модель машинного обучения, которая показывает accuracy 85%. Звучит неплохо, верно? Но что если этот результат получен на небольшой выборке…