Подключаемый модуль autocluster

Статья
01/23/2024

autocluster находит общие шаблоны дискретных атрибутов (измерений) в данных. Затем он уменьшает результаты исходного запроса, будь то 100 или 100 000 строк, до нескольких шаблонов. Подключаемый модуль был разработан для анализа сбоев (например, исключений или сбоев), но потенциально может работать с любым отфильтрованным набором данных. Подключаемый модуль вызывается с evaluate помощью оператора .

Примечание

autocluster в основном основан на алгоритме Seed-Expand из следующей статьи: Алгоритмы интеллектуального анализа данных телеметрии с использованием дискретных атрибутов.

Синтаксис

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Дополнительные сведения о соглашениях о синтаксисе.

Параметры

Параметры должны быть упорядочены в соответствии с синтаксисом . Чтобы указать, что следует использовать значение по умолчанию, поместите строковое значение ~тильды . Дополнительные сведения см. в разделе Примеры.

Имя	Тип	Обязательно	Описание
T	`string`	✔️	Входное табличное выражение.
SizeWeight	double		Значение типа double в диапазоне от 0 до 1, которое управляет балансом между универсальными (высокий уровень охвата) и информативными (многие общие) значениями. Увеличение этого значения обычно уменьшает количество шаблонов при расширении охвата. И наоборот, при уменьшении этого значения создаются более конкретные шаблоны, характеризующиеся увеличением общих значений и меньшим процентным охватом. Значение по умолчанию — `0.5`. Формула представляет собой взвешемое геометрическое среднее с весами `SizeWeight` и `1-SizeWeight`.
WeightColumn	`string`		Рассматривает каждую строку во входных данных в соответствии с заданным весом. Вес каждой строки по умолчанию — `1`. Аргумент должен быть именем числового целочисленного столбца. Обычно столбец веса используется для учета выборки, сегментирования или агрегирования данных, уже внедренных в каждую строку.
NumSeeds	`int`		Определяет количество начальных локальных точек поиска. Корректировка количества семян влияет на количество или качество результатов на основе структуры данных. Увеличение начального значения может улучшить результаты, но с более медленным компромиссом запросов. Снижение ниже пяти дает незначительные улучшения, в то время как увеличение выше 50 редко генерирует больше шаблонов. Значение по умолчанию — `25`.
CustomWildcard	`string`		Литерал типа, который задает подстановочное значение для определенного типа в таблице результатов, не указывая на отсутствие ограничений для этого столбца. Значение по умолчанию — `null`, представляющее пустую строку. Если значение по умолчанию является хорошим значением в данных, следует использовать другое значение с подстановочными знаками, например `*`. Можно добавить несколько пользовательских подстановочных знаков, добавляя их последовательно.

Возвращаемое значение

Подключаемый autocluster модуль обычно возвращает небольшой набор шаблонов. Шаблоны захватывают части данных с общими общими значениями в нескольких дискретных атрибутах. Каждый шаблон в результатах представлен строкой.

Первый столбец — это идентификатор сегмента. Следующие два столбца — это число и процент строк из исходного запроса, которые охватывает шаблон. Остальные столбцы берутся из исходного запроса. Их значение является либо конкретным значением из столбца, либо подстановочными знаками (которые по умолчанию имеют значение NULL), означающее значения переменных.

Шаблоны не отличаются друг от друга, могут перекрываться и обычно не охватывают все исходные строки. Некоторые строки могут не охватываться ни одним из шаблонов.

Совет

Используйте параметр where и project во входном канале, чтобы сократить объем данных только до того, что вас интересует.

Если вы хотите узнать дополнительные сведения о конкретной строке, добавьте ее значения в фильтр where .

Примеры

Использование вычисления

T | evaluate autocluster()

Использование автокластера

Выполнить запрос

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Выходные данные

Идентификатор сегмента	Count	Процент	Состояние	EventType	Ущерб
0	2278	38,7		Град	NO
1	512	8,7		Шквалистый ветер	YES
2	898	15,3	Техас

Использование пользовательских подстановочных знаков

Выполнить запрос

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Выходные данные

Идентификатор сегмента	Count	Процент	Состояние	EventType	Ущерб
0	2278	38,7	*	Град	NO
1	512	8,7	*	Шквалистый ветер	YES
2	898	15,3	Техас	*	*

Поделиться через

Подключаемый модуль autocluster

Синтаксис

Параметры

Возвращаемое значение

Примеры

Использование вычисления

Использование автокластера

Использование пользовательских подстановочных знаков

Обратная связь

Обратная связь

Дополнительные ресурсы

Поделиться через

Подключаемый модуль autocluster

Синтаксис

Параметры

Возвращаемое значение

Примеры

Использование вычисления

Использование автокластера

Использование пользовательских подстановочных знаков

См. также

Обратная связь

Обратная связь

Дополнительные ресурсы