Поделиться через


Подключаемый модуль autocluster

autocluster находит общие шаблоны дискретных атрибутов (измерений) в данных. Затем он уменьшает результаты исходного запроса, будь то 100 или 100 000 строк, до нескольких шаблонов. Подключаемый модуль был разработан для анализа сбоев (например, исключений или сбоев), но потенциально может работать с любым отфильтрованным набором данных. Подключаемый модуль вызывается с evaluate помощью оператора .

Примечание

autocluster в основном основан на алгоритме Seed-Expand из следующей статьи: Алгоритмы интеллектуального анализа данных телеметрии с использованием дискретных атрибутов.

Синтаксис

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Дополнительные сведения о соглашениях о синтаксисе.

Параметры

Параметры должны быть упорядочены в соответствии с синтаксисом . Чтобы указать, что следует использовать значение по умолчанию, поместите строковое значение ~тильды . Дополнительные сведения см. в разделе Примеры.

Имя Тип Обязательно Описание
T string ✔️ Входное табличное выражение.
SizeWeight double Значение типа double в диапазоне от 0 до 1, которое управляет балансом между универсальными (высокий уровень охвата) и информативными (многие общие) значениями. Увеличение этого значения обычно уменьшает количество шаблонов при расширении охвата. И наоборот, при уменьшении этого значения создаются более конкретные шаблоны, характеризующиеся увеличением общих значений и меньшим процентным охватом. Значение по умолчанию — 0.5. Формула представляет собой взвешемое геометрическое среднее с весами SizeWeight и 1-SizeWeight.
WeightColumn string Рассматривает каждую строку во входных данных в соответствии с заданным весом. Вес каждой строки по умолчанию — 1. Аргумент должен быть именем числового целочисленного столбца. Обычно столбец веса используется для учета выборки, сегментирования или агрегирования данных, уже внедренных в каждую строку.
NumSeeds int Определяет количество начальных локальных точек поиска. Корректировка количества семян влияет на количество или качество результатов на основе структуры данных. Увеличение начального значения может улучшить результаты, но с более медленным компромиссом запросов. Снижение ниже пяти дает незначительные улучшения, в то время как увеличение выше 50 редко генерирует больше шаблонов. Значение по умолчанию — 25.
CustomWildcard string Литерал типа, который задает подстановочное значение для определенного типа в таблице результатов, не указывая на отсутствие ограничений для этого столбца. Значение по умолчанию — null, представляющее пустую строку. Если значение по умолчанию является хорошим значением в данных, следует использовать другое значение с подстановочными знаками, например *. Можно добавить несколько пользовательских подстановочных знаков, добавляя их последовательно.

Возвращаемое значение

Подключаемый autocluster модуль обычно возвращает небольшой набор шаблонов. Шаблоны захватывают части данных с общими общими значениями в нескольких дискретных атрибутах. Каждый шаблон в результатах представлен строкой.

Первый столбец — это идентификатор сегмента. Следующие два столбца — это число и процент строк из исходного запроса, которые охватывает шаблон. Остальные столбцы берутся из исходного запроса. Их значение является либо конкретным значением из столбца, либо подстановочными знаками (которые по умолчанию имеют значение NULL), означающее значения переменных.

Шаблоны не отличаются друг от друга, могут перекрываться и обычно не охватывают все исходные строки. Некоторые строки могут не охватываться ни одним из шаблонов.

Совет

Используйте параметр where и project во входном канале, чтобы сократить объем данных только до того, что вас интересует.

Если вы хотите узнать дополнительные сведения о конкретной строке, добавьте ее значения в фильтр where .

Примеры

Использование вычисления

T | evaluate autocluster()

Использование автокластера

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Выходные данные

Идентификатор сегмента Count Процент Состояние EventType Ущерб
0 2278 38,7 Град NO
1 512 8,7 Шквалистый ветер YES
2 898 15,3 Техас

Использование пользовательских подстановочных знаков

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Выходные данные

Идентификатор сегмента Count Процент Состояние EventType Ущерб
0 2278 38,7 * Град NO
1 512 8,7 * Шквалистый ветер YES
2 898 15,3 Техас * *