Обзор книги «Анализ и визуализация данных в Yandex DataLens. Подробное руководство (А. Гинько)»

Книга «Анализ и визуализация данных в Yandex DataLens. Подробное руководство: от новичка до эксперта» написана Александром Гинько и издана в 2023 году издательством ДМК Пресс. Это пошаговое руководство по работе с облачной платформой визуализации данных Yandex DataLens, охватывающее полный цикл от подключения источников до построения интерактивных дашбордов с применением машинного обучения. Автор ведет читателя от базовых концепций до продвинутых техник, включая LOD-выражения, оконные функции и Python-интеграцию.

Книга решает проблему отсутствия структурированной документации на русском языке для DataLens. Официальная документация Яндекса фрагментарна, а англоязычные ресурсы по BI-инструментам не учитывают специфику российской экосистемы. Автор создал комплексный справочник, который позволяет начать работу с инструментом без изучения разрозненных статей и экспериментов методом проб и ошибок.

Целевая аудитория — аналитики данных, бизнес-аналитики, специалисты по визуализации от начального до продвинутого уровня. Требуется базовое понимание SQL для работы с датасетами, знание структуры баз данных и умение формулировать бизнес-требования к отчетности. Опыт программирования на Python желателен только для последней главы о машинном обучении.

Обложка книги "Анализ и визуализация данных в Yandex DataLens. Подробное руководство"

Обложка книги «Анализ и визуализация данных в Yandex DataLens. Подробное руководство»

Ключевые аспекты

Базой работы в DataLens служит облачная архитектура Yandex.Cloud с управляемыми базами данных и разделением слоев хранения и визуализации данных.

1. Подключение к источникам данных и создание датасетов

DataLens поддерживает подключение к управляемым БД в Yandex.Cloud, включая MySQL, PostgreSQL, ClickHouse, а также к внешним источникам через CSV, Google Sheets и Excel. Автор детально разбирает создание кластера MySQL через консоль Yandex.Cloud с выбором класса хоста и конфигурацией доступа.

Датасет формируется на основе подключения и представляет собой слой абстракции над сырыми таблицами.

2. Типы данных и агрегация

DataLens оперирует 10 типами данных: целое число, дробное число, строка, дата, дата и время, логический, геоточка, геополигон, массив. Автор приводит таблицу соответствий типов данных между источниками и DataLens, что важно при миграции между БД. Например, TIMESTAMP в PostgreSQL преобразуется в дата и время, а VARCHAR — в строку.

Поля датасета делятся на измерения и показатели. Показатели поддерживают 8 типов агрегации. Автор подчеркивает важность правильного выбора агрегации: COUNT для подсчета строк, COUNTD для уникальных значений, AVG для средних показателей. Неправильная агрегация приводит к искажению метрик в чартах и дашбордах.

3. Функции DataLens и LOD-выражения

Книга содержит справочник из более чем 150 функций, разделенных на категории: агрегатные, оконные, строковые, математические, логические, даты и времени, геофункции. Агрегатные функции включают SUM, AVG, COUNT, COUNT_IF с условиями, AVG_IF для условного среднего. Строковые функции CONCAT, SUBSTR, REPLACE, REGEXP_MATCH позволяют обрабатывать текст прямо в датасете.

LOD-выражения (Level of Detail) управляют уровнем детализации агрегации независимо от группировки в чарте. Автор разбирает три директивы:

  • FIXED вычисляет значение на заданном уровне измерений;
  • INCLUDE добавляет измерения к текущей группировке;
  • EXCLUDE удаляет измерения.

4. Оконные функции и ранжирование

Оконные функции применяют агрегацию или вычисление в пределах окна строк без сворачивания результата. DataLens поддерживает три группы оконных функций:

  • Агрегатные (SUM, AVG, MIN, MAX, COUNT с оконным контекстом);
  • Функции смещения (LAG, FIRST, LAST для доступа к предыдущим и следующим строкам);
  • Ранжирующие (RANK, RANK_DENSE, RANK_UNIQUE, RANK_PERCENTILE).

Параметры группировки WITHIN, AMONG, TOTAL определяют границы окна. WITHIN [Date] группирует по дате, AMONG [Category] разбивает окно по категориям, TOTAL вычисляет по всему датасету. ORDER BY задает сортировку внутри окна.

5. Построение чартов и типы визуализаций

DataLens предлагает 15 типов чартов: линейная диаграмма, столбчатая, линейчатая, круговая, кольцевая, точечная, диаграмма рассеяния, накопительная с областями, нормированная, древовидная, индикатор, таблица, карты пяти типов. В книге описаны настройки осей, легенды, итогов, лимитов на количество строк.

6. Дашборды, селекторы и связи

Дашборд объединяет чарты, текстовые виджеты, селекторы и вкладки в интерактивный отчет. Селекторы фильтруют данные на всех связанных чартах: селектор на основе датасета подтягивает уникальные значения из поля, селектор на основе ручного ввода задает кастомный список значений.

Связи между чартами определяют, какие селекторы влияют на какие виджеты. Алиас связи позволяет связывать поля с разными названиями из разных датасетов. Вкладки организуют дашборд в многостраничную структуру, каждая вкладка содержит независимый набор виджетов.

Примеры и кейсы

Книга построена на сквозном демонстрационном кейсе анализа продаж ритейла с таблицами товаров, заказов, клиентов, регионов. Автор использует датасет Sample Superstore для иллюстрации каждой функции и типа визуализации. В главе о машинном обучении приводится пример кластеризации магазинов по координатам методом k-средних с визуализацией на карте Москвы. Примеры учебные, адаптированы под задачи книги, но это не реальные бизнес-кейсы.

Книга содержит более 200 скриншотов интерфейса DataLens, таблиц данных, готовых чартов и дашбордов. Визуализации четкие, с выделением активных элементов интерфейса стрелками и подписями. Баланс смещен в сторону пошаговых инструкций с GUI, код присутствует только в главе о Python и QL-чартах. Инструменты на данный момент актуальны, однако интерфейс DataLens может измениться в будущих версиях.

Полезность книги

Полнота раскрытия темы неравномерна: базовые концепции и интерфейс разобраны исчерпывающе, продвинутые темы вроде ETL и ML даны обзорно.

Что раскрыто хорошо?

  1. Справочник функций с описанием синтаксиса, параметров, типов возвращаемых значений и примерами для всех 150+ функций занимает треть книги и служит полноценной заменой официальной документации при ежедневной работе.
  2. LOD-выражения объяснены через бизнес-задачи: расчет процента от общего, сравнение с бенчмарком, вычисление средних по группам независимо от детализации таблицы, с разбором директив FIXED, INCLUDE, EXCLUDE на конкретных формулах.
  3. Оконные функции даны с детальным разбором параметров WITHIN, AMONG, TOTAL, ORDER BY и примерами скользящих средних MAVG, накопительных сумм RSUM, ранжирования RANK для построения топов и трендов в динамике.
  4. Создание дашбордов описано пошагово от выбора типа чарта до настройки связей между виджетами, конфигурации селекторов, организации вкладок, управления доступом на уровне датасетов и строк через RLS-фильтры.

Что раскрыто плохо?

  1. Подключение к внешним БД вне Yandex.Cloud дано поверхностно без разбора настройки сетевых правил, VPN-туннелей, белых списков IP, что критично для корпоративных сценариев с on-premise БД и firewall-ограничениями.
  2. Производительность и оптимизация запросов не рассматриваются: нет рекомендаций по индексам в источниках, материализации датасетов, кешированию, партиционированию, что приводит к медленным дашбордам на больших данных.
  3. Python-интеграция через QL-чарты описана на одном примере кластеризации без разбора установки библиотек, работы с pandas DataFrame, обработки ошибок, передачи параметров из селекторов, что делает главу демонстрационной, а не практической.
  4. Версионирование и CI/CD для дашбордов не упоминаются: нет методологии переноса между окружениями, хранения конфигураций в Git, автоматизации деплоя через API, что необходимо для командной разработки и продакшн-развертывания.

Вердикт

Уникальность данной книги заключается в том, что это пока единственное комплексное руководство по DataLens на русском языке с исчерпывающим справочником функций. Я не встречал других источников, которые бы так системно раскрывали LOD-выражения и оконные функции применительно к российской BI-платформе с практическими примерами на знакомых бизнес-задачах.

Книга стоит прочтения для быстрого старта в DataLens и как настольный справочник. Читатель получит готовые формулы для типовых аналитических задач, понимание архитектуры датасетов и дашбордов, навыки построения интерактивных отчетов с фильтрацией и детализацией, что сокращает время на освоение инструмента с месяцев до недель.

Приобрести книгу можно здесь: https://www.labirint.ru/books/896310/