Sdílet prostřednictvím


Operátor reduce

Seskupí sadu řetězců na základě podobnosti hodnot.

Pro každou takovou skupinu vrátí patternoperátor hodnotu , counta representative. Nejlépe pattern popisuje skupinu, ve které * znak představuje zástupný znak. Jedná se count o počet hodnot ve skupině a representative jedná se o jednu z původních hodnot ve skupině.

Syntaxe

T reduce | [kind = ReduceKind] by Výraz [with [ =threshold Prahová hodnota] [ characters =, Znaky]]

Přečtěte si další informace o konvencích syntaxe.

Parametry

Název Type Požadováno Popis
Výraz string ✔️ Hodnota, o kterou chcete snížit.
Prahová hodnota real Hodnota mezi 0 a 1, která určuje minimální zlomek řádků potřebných ke splnění kritérií seskupení, aby se mohla aktivovat operace redukce. Výchozí hodnota je 0,1.

Doporučujeme nastavit malou prahovou hodnotu pro velké vstupy. S menší prahovou hodnotou se seskupí více podobných hodnot, což vede k menšímu, ale více podobným skupinám. Větší prahová hodnota vyžaduje menší podobnost, což vede k tomu, že více skupin, které jsou méně podobné. Viz příklady.
Znaky string Seznam znaků, které se oddělují mezi termíny. Výchozí hodnota je každý číselný znak, který není ascii. Příklady najdete v tématu Chování parametru Characters.
ReduceKind string Jediná platná hodnota je source. Pokud source je zadán, operátor připojí Pattern sloupec k existujícím řádkům v tabulce místo agregace Pattern.

Návraty

Tabulka s tolika řádky, kolik jsou skupiny a sloupce s názvem pattern, counta representative. Nejlépe pattern popisuje skupinu, ve které * znak představuje zástupný znak nebo zástupný symbol pro libovolný řetězec vložení. Jedná se count o počet hodnot ve skupině a representative jedná se o jednu z původních hodnot ve skupině.

Například výsledek reduce by city může zahrnovat:

Vzor Počet Zástupce
San* 5182 San Bernard
Svatý* 2846 Svatá Lucy
Moskva 3726 Moskva
*-na-* 2730 Jeden -on- Jeden
Paříž 2716 Paříž

Příklady

Malá prahová hodnota

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.001 , characters = "X" 

Výstup

Vzor Počet Zástupce
MachineLearning* 1000 MachineLearningX4

Velká prahová hodnota

range x from 1 to 1000 step 1
| project MyText = strcat("MachineLearningX", tostring(toint(rand(10))))
| reduce by MyText  with threshold=0.9 , characters = "X" 

Výstup

Vzor Počet Zástupce
MachineLearning* 177 MachineLearningX9
MachineLearning* 102 MachineLearningX0
MachineLearning* 106 MachineLearningX1
MachineLearning* 96 MachineLearningX6
MachineLearning* 110 MachineLearningX4
MachineLearning* 100 MachineLearningX3
MachineLearning* 99 MachineLearningX8
MachineLearning* 104 MachineLearningX7
MachineLearning* 106 MachineLearningX2

Chování parametru Characters

Pokud je parametr Characters nezadaný, stane se každý číselný znak, který není ascii, oddělovač termínů.

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str

Výstup

Vzor Počet Zástupce
jiní 10

Pokud ale zadáte, že "Z" je oddělovač, je to jako by každá hodnota ve str 2 termínech: foo a tostring(x):

range x from 1 to 10 step 1 | project str = strcat("foo", "Z", tostring(x)) | reduce by str with characters="Z"

Výstup

Vzor Počet Zástupce
Foo* 10 fooZ1

Použít reduce u sanitizovaného vstupu

Následující příklad ukazuje, jak může operátor použít reduce na "sanitized" vstup, ve kterém identifikátory GUID ve sloupci, které se snižují, jsou nahrazeny před snížením.

// Start with a few records from the Trace table.
Trace | take 10000
// We will reduce the Text column which includes random GUIDs.
// As random GUIDs interfere with the reduce operation, replace them all
// by the string "GUID".
| extend Text=replace_regex(Text, @"[[:xdigit:]]{8}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{4}-[[:xdigit:]]{12}", @"GUID")
// Now perform the reduce. In case there are other "quasi-random" identifiers with embedded '-'
// or '_' characters in them, treat these as non-term-breakers.
| reduce by Text with characters="-_"

autocluster

Poznámka:

Implementace operátoru reduce je z velké části založena na papíru A Data Clustering Algorithm for Mining Patterns From Event Logs, autor Risto Vaarandi.