Книга «Доверительное A/B тестирование: Практическое руководство по контролируемым экспериментам» написана Роном Кохави, Дайан Танг и Я Сюй, опубликована в 2020 году издательством Cambridge University Press. Авторы исследуют методы проведения масштабных онлайн-экспериментов для принятия обоснованных решений в digital-продуктах на основе данных от миллионов пользователей.
Книга решает важную проблему: получить цифры легко, получить цифры, которым можно доверять, сложно. Компании проводят тысячи A/B тестов ежегодно, но большинство организаций допускают ошибки в дизайне экспериментов, интерпретации результатов или построении инфраструктуры, что приводит к неверным решениям стоимостью в миллионы долларов.
Целевая аудитория — data scientists, product managers, software engineers и руководители digital-бизнесов, работающие с онлайн-продуктами. Требуются базовые знания статистики на уровне понимания p-value и доверительных интервалов, опыт работы с метриками продукта и понимание того, как устроены веб-сервисы.

Обложка книги «Доверительное A/B тестирование: Практическое руководство по контролируемым экспериментам»
Ключевые аспекты
Авторы начинают с фундамента научного метода, применяемого к онлайн-экспериментам, объясняя почему контролируемые эксперименты — золотой стандарт для установления причинно-следственных связей.
1. Overall Evaluation Criterion (OEC) как компас для решений
OEC — количественная мера целей эксперимента, которая должна измеряться в краткосрочной перспективе (длительность эксперимента), но причинно влиять на долгосрочные стратегические цели. Для поисковой системы OEC может комбинировать usage (sessions-per-user), relevance (successful sessions) и ad revenue с весами, отражающими приоритеты бизнеса.
Авторы подчеркивают: одна метрика, даже если это взвешенная комбинация нескольких целей, предпочтительнее balanced scorecard подхода. Это устраняет конфликты в интерпретации, когда одни метрики растут, другие падают — OEC дает однозначный ответ о ценности изменения.
2. Закон Тваймана и доверие к результатам
Любая цифра, которая выглядит интересно или отлично, скорее всего ошибочна. В Bing запустили эксперимент с изменением заголовков рекламы, который показал рост revenue на 12% — сработал alert «revenue-too-high», сигнализирующий о возможном баге вроде двойного биллинга.
После недель анализа результат подтвердился — простое объединение заголовка с первой строкой текста принесло Bing более $100 миллионов годового дохода только в США. Авторы используют этот кейс для демонстрации важности валидации аномалий: реверс одного неверного решения может окупить целую команду аналитиков.
3. Статистические ловушки в практике
В книге описан метод Variance reduction через CUPED (Controlled-experiment Using Pre-Experiment Data). Метод снижает дисперсию метрик на ~50%, что эквивалентно удвоению sample size или сокращению длительности эксперимента вдвое. CUPED использует данные pre-experiment периода для уменьшения вариативности.
Также описан метод Sample Ratio Mismatch — это важная проверка, которая показывает, правильно ли сработала рандомизация. Если в эксперименте с распределением 50/50 в группу Control оказалось, например, 50,5% пользователей вместо 50%, значит, в логике распределения есть ошибка. Коррекция на множественные проверки тоже необходима, когда анализируется много метрик: без нее вероятность ложных «значимых» результатов становится слишком высокой.
Примеры и кейсы
Книга насыщена реальными кейсами, но в основном это кейсы техно-гигантов, таких как Microsoft Bing, Amazon, Google и LinkedIn.
Например, в Amazon перенесли предложение оформить кредитную карту с главной страницы на страницу корзины — простое решение, основанное на расчете экономической эффективности. Эксперимент показал рост годовой прибыли на десятки миллионов долларов. А рекомендации в корзине, предложенные аналитиком, увеличили выручку Amazon на 3%, что соответствует сотням миллионов долларов, несмотря на сопротивление со стороны одного из топ-менеджеров.
Однако книга почти не содержит примеров кода или технических деталей реализации — основной акцент сделан на концепциях, статистических принципах и бизнес-кейсах с конкретными цифрами импакта на бизнес. Авторы подробно объясняют, что нужно делать и почему это работает, но практически не раскрывают, как именно писать код или строить экспериментальные платформы.
Полезность книги
Тема доверительных a/b тестов раскрыта с разных сторон: книга охватывает весь жизненный цикл экспериментов — от проектирования до масштабирования платформы и формирования организационной культуры.
Что раскрыто хорошо?
- Практический опыт авторов из компаний, проводящих более 20 000 экспериментов в год. Рон Кохави — один из технических руководителей Microsoft с десятилетиями опыта в Bing и Amazon. Дайан Танг — ведущий специалист Google с глубокой экспертизой в рекламных системах. Я Сюй — руководитель направления Data Science в LinkedIn. Это не теоретики, а практики, которые построили платформы для миллионов экспериментов.
- Конкретные цифры влияния из реальных экспериментов. Такая прозрачность крайне редка: авторы показывают внутренние процессы крупнейших технологических компаний.
- Полный охват темы — от статистических основ до вопросов организационной культуры и этики. 1-я часть подходит начинающим, 2-я посвящена метрикам и общей метрике эффективности (OEC), 3-я — дополнительным аналитическим техникам, 4-я — инструментам и архитектуре платформы, 5-я — продвинутой статистике. Каждый читатель найдет главы, актуальные для своего уровня подготовки.
Что раскрыто плохо?
- Байесовские подходы к экспериментам рассмотрены очень поверхностно, только как дополнительные методы. Книга в основном ориентирована на частотную статистику, что ограничивает ее полезность для команд, использующих байесовские A/B-тесты с априорными распределениями и обновлением постериоров для ускорения принятия решений.
- Применение машинного обучения в контексте экспериментов освещено недостаточно глубоко для специалистов по ML. Метрики офлайн-оценки алгоритмов ранжирования, контрфактические методы, многорукие бандиты — все это упоминается, но без детального объяснения того, как применять такие подходы в промышленных ML-системах.
- Сценарии для небольших проектов и стартапов практически не рассматриваются. Большинство примеров взято из Microsoft, Google и LinkedIn — компаний с миллионами пользователей и тысячами экспериментов. Стартапы с 10 тысячами активных пользователей или B2B-сервисы с сотнями корпоративных клиентов сталкиваются с другими трудностями: нехваткой статистической мощности, длинными циклами продаж и узкими выборками.
- Анализ затрат и выгод от проведения экспериментов практически отсутствует. Авторы подробно рассказывают, как создавать платформу с минимальной себестоимостью одного эксперимента, но почти не оценивают первоначальные инвестиции в инфраструктуру, инженерные ресурсы и штат аналитиков. Окупаемость и расчеты эффективности эксперимента для презентации руководству также недостаточно раскрыты.
Вердикт
«Доверительное A/B тестирование: Практическое руководство по контролируемым экспериментам» — это уникальная книга, которая объединяет опыт ведущих экспертов Microsoft, Google и LinkedIn и приводит реальные цифры влияния экспериментов — от миллионов до сотен миллионов долларов. Такая степень прозрачности и глубина практических уроков, накопленных десятилетиями крупномасштабного экспериментирования, практически нигде больше не встречается: большинство компаний держат эти знания внутри.
Эту книгу обязательно стоит прочитать продакт-менеджерам, аналитикам данных и инженерам, работающим над цифровыми продуктами. Ее практическая ценность — в понимании того, как избежать миллионных ошибок через корректный дизайн экспериментов, создать масштабируемую платформу и внедрить культуру, где решения принимаются на основе данных, а не мнения самого высокооплачиваемого руководителя.
Приобрести книгу можно здесь: https://www.labirint.ru/books/787312/