Подключаемый модуль autocluster
Область применения: ✅Microsoft Fabric✅Azure Data Explorer
autocluster
находит общие шаблоны дискретных атрибутов (измерений) в данных. Затем он уменьшает результаты исходного запроса, будь то 100 или 100 000 строк, до нескольких шаблонов. Подключаемый модуль был разработан для анализа сбоев (таких как исключения или сбои), но потенциально может работать с любым фильтрованным набором данных. Подключаемый модуль вызывается оператором evaluate
.
Примечание
autocluster
в значительной степени основан на алгоритме начального развертывания из следующего документа: алгоритмы для интеллектуального анализа данных телеметрии с помощью дискретных атрибутов.
T evaluate
|
(
autocluster
[SizeWeight [ WeightColumn ,
[,
NumSeeds [,
CustomWildcard [,
... ]]]]])
Дополнительные сведения о соглашениях синтаксиса.
Параметры должны быть упорядочены, как указано в синтаксисе. Чтобы указать, что необходимо использовать значение по умолчанию, поместите строковое значение ~
тильды. Дополнительные сведения см. в примерах.
Имя. | Type | Обязательно | Описание |
---|---|---|---|
T | string |
✔️ | Входное табличное выражение. |
Размер веса | двойной точности | Двойное значение от 0 до 1, которое управляет балансом между универсальными (высоким уровнем охвата) и информативными (многие общие) значениями. Увеличение этого значения обычно уменьшает количество шаблонов при расширении охвата. И наоборот, уменьшение этого значения создает более конкретные шаблоны, характеризующиеся увеличением общих значений и меньшим процентным охватом. Значение по умолчанию — 0.5 . Формула — это весовое геометрическое среднее с весами SizeWeight и 1-SizeWeight . |
|
WeightColumn | string |
Учитывает каждую строку во входных данных в соответствии с указанным весом. Каждая строка имеет вес 1 по умолчанию. Аргумент должен быть именем числового целочисленного столбца. Обычное использование столбца веса заключается в том, чтобы учитывать выборку или сегментирование или агрегирование данных, которые уже внедрены в каждую строку. |
|
NumSeeds | int |
Определяет количество начальных локальных точек поиска. Изменение количества семян влияет на количество результатов или качество на основе структуры данных. Увеличение семян может повысить результаты, но с более медленным компромиссом запросов. Снижение ниже пяти дает незначительные улучшения, в то время как увеличение выше 50 редко создает больше шаблонов. Значение по умолчанию — 25 . |
|
CustomWildcard | string |
Литерал типа, который задает значение подстановочного знака для определенного типа в таблице результатов, указывая отсутствие ограничений на этот столбец. Значение по умолчанию представляет null пустую строку. Если значение по умолчанию является хорошим значением в данных, следует использовать другое подстановочное значение, например * . Можно включить несколько пользовательских подстановочных знаков, добавив их последовательно. |
Подключаемый autocluster
модуль обычно возвращает небольшой набор шаблонов. Шаблоны захватывают части данных с общими общими значениями в нескольких дискретных атрибутах. Каждый шаблон в результатах представлен строкой.
Первый столбец — это идентификатор сегмента. Следующие два столбца — это число и процент строк из исходного запроса, которые охватывает шаблон. Остальные столбцы берутся из исходного запроса. Их значение — это либо определенное значение из столбца, либо подстановочное значение (которое по умолчанию равно NULL) означает значения переменных.
Шаблоны не отличаются, могут перекрываться и обычно не охватывают все исходные строки. Некоторые строки могут не охватываться ни одним из шаблонов.
Совет
Используйте место и проект в входной канале, чтобы уменьшить объем данных до интересующего вас значения.
Если вы хотите узнать дополнительные сведения о конкретной строке, добавьте ее значения в фильтр where
.
T | evaluate autocluster()
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Выходные данные
Идентификатор сегмента | Count | Процент | Штат | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | Град | Нет | |
1 | 512 | 8,7 | Ураганный ветер | Да | |
2 | 898 | 15,3 | TEXAS |
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Выходные данные
Идентификатор сегмента | Count | Процент | Штат | EventType | Damage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | * | Град | Нет |
1 | 512 | 8,7 | * | Ураганный ветер | Да |
2 | 898 | 15,3 | TEXAS | * | * |