-
Методы разделения деревьев решений: Gini, Энтропия, Gain Ratio, Хи-квадрат, Variance Reduction, Classification Error
Деревья решений остаются одним из самых интуитивно понятных и мощных инструментов в арсенале специалиста по данным. Выбор критерия разделения деревьев без преувеличения влияет на все: от скорости обучения до интерпретируемости результатов. В процессе работы с финансовыми данными я обнаружил, что разные критерии могут давать совершенно разные результаты даже на одних и тех же данных. Некоторые…
-
Прогнозирование трафика и конверсий сайта с помощью SVM, SVR (опорных векторов)
Данные веб-аналитики являются многомерными. И хорошо бы чтобы модель машинного обучения учитывала это. SVM (Support Vector Machines) и SVR (Support Vector Regression) — это мощные алгоритмы машинного обучения, которые отлично подходят для работы с многомерными данными. Когда мы анализируем трафик и конверсии, мы имеем дело с множеством факторов: источники трафика, поведение пользователей на сайте, сезонность,…