Подключаемый модуль autocluster

2024-11-23

Область применения: ✅Microsoft Fabric ✅Azure Data Explorer

autocluster находит общие шаблоны дискретных атрибутов (измерений) в данных. Затем он уменьшает результаты исходного запроса, будь то 100 или 100 000 строк, до нескольких шаблонов. Подключаемый модуль был разработан для анализа сбоев (таких как исключения или сбои), но потенциально может работать с любым фильтрованным набором данных. Подключаемый модуль вызывается оператором evaluate .

Примечание.

autocluster в значительной степени основан на алгоритме начального развертывания из следующего документа: алгоритмы для интеллектуального анализа данных телеметрии с помощью дискретных атрибутов.

Синтаксис

T evaluate | (autocluster [SizeWeight [ WeightColumn , [, NumSeeds [, CustomWildcard [, ... ]]]]])

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Параметры должны быть упорядочены, как указано в синтаксисе. Чтобы указать, что необходимо использовать значение по умолчанию, поместите строковое значение ~тильды. Дополнительные сведения см. в примерах.

Имя.	Type	Обязательно	Описание
T	`string`	✔️	Входное табличное выражение.
Размер веса	двойной точности		Двойное значение от 0 до 1, которое управляет балансом между универсальными (высоким уровнем охвата) и информативными (многие общие) значениями. Увеличение этого значения обычно уменьшает количество шаблонов при расширении охвата. И наоборот, уменьшение этого значения создает более конкретные шаблоны, характеризующиеся увеличением общих значений и меньшим процентным охватом. Значение по умолчанию — `0.5`. Формула — это весовое геометрическое среднее с весами `SizeWeight` и `1-SizeWeight`.
WeightColumn	`string`		Учитывает каждую строку во входных данных в соответствии с указанным весом. Каждая строка имеет вес `1`по умолчанию. Аргумент должен быть именем числового целочисленного столбца. Обычное использование столбца веса заключается в том, чтобы учитывать выборку или сегментирование или агрегирование данных, которые уже внедрены в каждую строку.
NumSeeds	`int`		Определяет количество начальных локальных точек поиска. Изменение количества семян влияет на количество результатов или качество на основе структуры данных. Увеличение семян может повысить результаты, но с более медленным компромиссом запросов. Снижение ниже пяти дает незначительные улучшения, в то время как увеличение выше 50 редко создает больше шаблонов. Значение по умолчанию — `25`.
CustomWildcard	`string`		Литерал типа, который задает значение подстановочного знака для определенного типа в таблице результатов, указывая отсутствие ограничений на этот столбец. Значение по умолчанию представляет `null`пустую строку. Если значение по умолчанию является хорошим значением в данных, следует использовать другое подстановочное значение, например `*`. Можно включить несколько пользовательских подстановочных знаков, добавив их последовательно.

Возвраты

Подключаемый autocluster модуль обычно возвращает небольшой набор шаблонов. Шаблоны захватывают части данных с общими общими значениями в нескольких дискретных атрибутах. Каждый шаблон в результатах представлен строкой.

Первый столбец — это идентификатор сегмента. Следующие два столбца — это число и процент строк из исходного запроса, которые охватывает шаблон. Остальные столбцы берутся из исходного запроса. Их значение — это либо определенное значение из столбца, либо подстановочное значение (которое по умолчанию равно NULL) означает значения переменных.

Шаблоны не отличаются, могут перекрываться и обычно не охватывают все исходные строки. Некоторые строки могут не охватываться ни одним из шаблонов.

Совет

Используйте место и проект в входной канале, чтобы уменьшить объем данных до интересующего вас значения.

Если вы хотите узнать дополнительные сведения о конкретной строке, добавьте ее значения в фильтр where .

Примеры

Использование оценки

T | evaluate autocluster()

Использование автокластера

Выполнить запрос

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Выходные данные

Идентификатор сегмента	Count	Процент	Штат	EventType	Damage
0	2278	38,7		Град	Нет
1	512	8,7		Ураганный ветер	Да
2	898	15,3	TEXAS

Использование пользовательских подстановочных знаков

Выполнить запрос

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Выходные данные

Идентификатор сегмента	Count	Процент	Штат	EventType	Damage
0	2278	38,7	*	Град	Нет
1	512	8,7	*	Ураганный ветер	Да
2	898	15,3	TEXAS	*	*

Поделиться через