Поделиться через


Оператор reduce

Группирует набор строк вместе на основе сходства значений.

Для каждой такой группы оператор возвращает patternзначение , countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак. Число count значений в группе и representative одно из исходных значений в группе.

Синтаксис

T | reduce [kind = ReduceKind] Expr [with threshold = пороговое значение] by [ characters =, символы]]

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Имя (название) Type Обязательно Описание
Expr string ✔️ Значение, по которому требуется уменьшить.
Threshold real Значение от 0 до 1, определяющее минимальную долю строк, необходимых для сопоставления критериев группировки для активации операции сокращения. Значение по умолчанию — 0,1.

Рекомендуется задать небольшое пороговое значение для больших входных данных. При меньшем пороговом значении более похожие значения группируются, что приводит к меньшему, но более похожим группам. Для большего порогового значения требуется меньше сходства, что приводит к тому, что больше групп, которые менее похожи. См. примеры.
Символы string Список символов, разделяющих термины. По умолчанию используется каждый числовый символ, отличный от ascii. Примеры см. в разделе "Поведение символов".
ReduceKind string Единственным допустимым значением является source. Если source задано, оператор добавляет Pattern столбец к существующим строкам таблицы вместо агрегирования Pattern.

Возвраты

Таблица с столько строк, сколько есть группы и столбцы с заголовком pattern, countи representative. Лучше pattern всего описывает группу, в которой * символ представляет подстановочный знак или заполнитель для произвольной строки вставки. Число count значений в группе и representative одно из исходных значений в группе.

Например, результат выполнения reduce by city может быть таким:

Расписание Count Уполномоченный
Сан * 5182 Сан-Бернард
Сант * 2846 Сент-Люси
Москва 3726 Москва
*-на-* 2730 One -on- One
Париж 2716 Париж

Примеры

Небольшое пороговое значение

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.001 , characters = "X" 

Выходные данные

Расписание Count Уполномоченный
MachineLearning* 1000 MachineLearningX4

Большое пороговое значение

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.9 , characters = "X" 

Выходные данные

Расписание Count Уполномоченный
MachineLearning* 177 MachineLearningX9
MachineLearning* 102 MachineLearningX0
MachineLearning* 106 MachineLearningX1
MachineLearning* 96 MachineLearningX6
MachineLearning* 110 MachineLearningX4
MachineLearning* 100 MachineLearningX3
MachineLearning* 99 MachineLearningX8
MachineLearning* 104 MachineLearningX7
MachineLearning* 106 MachineLearningX2

Поведение параметра Символов

Если параметр Characters не определен, то каждый символ, отличный от ascii, становится разделителем терминов.

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str

Выходные данные

Расписание Count Уполномоченный
и так далее. 10

Однако если указать, что "Z" является разделителем, то это как если бы каждое значение в str 2 терминах: иtostring(x): foo

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str with characters="Z"

Выходные данные

Расписание Count Уполномоченный
foo* 10 fooZ1

Применение reduce к санизированным входным данным

В следующем примере показано, как можно применить reduce оператор к входным данным с очисткой, в котором идентификаторы GUID в столбце заменяются до уменьшения

// Start with a few records from the Trace table.
Trace | take 10000
// We will reduce the Text column which includes random GUIDs.
// As random GUIDs interfere with the reduce operation, replace them all
// by the string "GUID".
| extend Text=replace_regex(Text, @"[[:xdigit:]]{8}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{12}", @"GUID")
// Now perform the reduce. In case there are other "quasi-random" identifiers with embedded '-'
// or '_' characters in them, treat these as non-term-breakers.
| reduce by Text with characters="-_"

autocluster

Примечание.

Реализация оператора в значительной reduce степени основана на документе Алгоритм кластеризации данных для шаблонов интеллектуального анализа данных из журналов событий Risto Vaarandi.