Данная книга выпущена в 2022 году и посвящена разработке нового метода обнаружения повторяющихся паттернов в данных временных рядов (KITE), способного выявлять закономерности, которые не могли выявить другие алгоритмы.
Объектом исследования являются временные ряды различной природы (синтетические и реальные данные из различных областей). Книга Discovery of Ill-Known Motifs in Time Series Data посвящена обнаружению так называемых «ill-known motifs» – ранее неизвестных паттернов, претерпевших аффинные преобразования (сдвиг, масштабирование, отражение, сжатие, растяжение), а также искаженных шумом или имеющих переменную длину.
Как отмечает автор, все существующие алгоритмы, неэффективны при обнаружении паттернов временных рядов, подвергшихся более чем двум типам преобразований. Исследование автора посвящено решению проблемы недостаточной инвариантности существующих алгоритмов к различным типам искажений и переменной длине паттернов, предлагая новый подход, основанный на комбинированном использовании методов предварительной обработки, инвариантного представления данных, извлечения признаков и измерения сходства.
Ключевые аспекты
Алгоритм KITE разделяет входные данные на подпоследовательности равной и переменной длины. В отличие от других методов, KITE автоматически определяет порог сходства, уменьшая количество ложноотрицательных результатов.
Предложен новый метод инвариантного представления данных – Analytic Complex Quad Tree Wavelet Packet Transform (ACQTWP), который приближает данные без потери информации и инвариантен к сдвигу, растяжению и сжатию. ACQTWP-преобразование применяется не только к обнаружению повторяющихся паттернов, но и к задачам обработки сигналов и изображений.
Для уменьшения размера данных и идентификации паттернов переменной длины, а также частей временных рядов, измененных масштабированием и отражением, выполняется извлечение признаков (6 признаков: первые четыре статистических момента и максимальное и минимальное значение фазы вейвлет-коэффициентов).
Эффективность KITE продемонстрирована на наборах данных из различных областей и сравнена с современными алгоритмами, где KITE показал лучшие результаты. Проведены эксперименты с синтетическими и реальными данными, включая анализ устойчивости к шуму. Представлены примеры применения KITE в задачах обнаружения аномалий и обработки изображений.
Полезность
Что хорошо раскрыто:
- Подробное описание алгоритма KITE, включая все его этапы и математическое обоснование;
- Сравнительный анализ KITE с существующими алгоритмами обнаружения повторяющихся паттернов временных рядов, демонстрирующий его преимущества;
- Результаты экспериментов на различных наборах данных, подтверждающие эффективность KITE.
Что раскрыто недостаточно:
- Отсутствует подробное описание наборов данных, используемых в экспериментах (кроме краткого описания синтетических данных);
- Недостаточно подробно описаны параметры, используемые в алгоритме KITE (например, порог τΔ);
- Не обсуждаются потенциальные ограничения KITE, например, его вычислительная сложность при работе с очень большими наборами данных.
Заключение
Книга Discovery of Ill-Known Motifs in Time Series Data представляет собой значительный вклад в область обнаружения паттернов во временных рядах. Разработанный алгоритм KITE демонстрирует высокую эффективность в обнаружении ill-known motifs, превосходя по результатам многие существующие методы.
Комбинированный подход, объединяющий предварительную обработку, инвариантное представление данных с помощью ACQTWP-преобразования, извлечение признаков и автоматическое определение порога сходства, позволяет KITE эффективно обрабатывать данные с шумом и различными аффинными преобразованиями, а также паттерны с переменной длиной.
Практическая ценность работы заключается в предоставлении нового, более универсального и эффективного алгоритма обнаружения паттернов, применимого в различных областях, от анализа сигналов до обработки изображений.
Приобрести книгу можно здесь: https://link.springer.com/book/10.1007/978-3-662-64215-3