autocluster-plugin-program

Artikel
01/23/2024

autocluster hittar vanliga mönster för diskreta attribut (dimensioner) i data. Den minskar sedan resultatet av den ursprungliga frågan, oavsett om det är 100 eller 100 000 rader, till några mönster. Plugin-programmet har utvecklats för att analysera fel (till exempel undantag eller krascher) men kan eventuellt fungera med alla filtrerade datauppsättningar. Plugin-programmet anropas med operatorn evaluate .

Anteckning

autocluster baseras till stor del på Seed-Expand-algoritmen från följande dokument: Algoritmer för telemetridatautvinning med diskreta attribut.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Läs mer om syntaxkonventioner.

Parametrar

Parametrarna måste sorteras enligt syntaxen. Ange att standardvärdet ska användas genom att ange värdet för strängen tilde ~. Mer information finns i Exempel.

Namn	Typ	Obligatorisk	Beskrivning
T	`string`	✔️	Tabelluttrycket för indata.
Storleksvikt	double		En dubbel mellan 0 och 1 som styr balansen mellan generiska (hög täckning) och informativa (många delade) värden. Om du ökar det här värdet minskar du vanligtvis antalet mönster samtidigt som täckningen utökas. Om du minskar det här värdet genereras däremot mer specifika mönster som kännetecknas av ökade delade värden och en mindre procentandel täckning. Standardvärdet är `0.5`. Formeln är ett viktat geometriskt medelvärde med vikter `SizeWeight` och `1-SizeWeight`.
WeightColumn	`string`		Tar hänsyn till varje rad i indata enligt den angivna vikten. Varje rad har standardvikten `1`. Argumentet måste vara ett namn på en numerisk heltalskolumn. En vanlig användning av en viktkolumn är att ta hänsyn till sampling eller bucketing eller aggregering av de data som redan är inbäddade i varje rad.
NumSeeds	`int`		Avgör antalet inledande lokala sökpunkter. Om du justerar antalet frön påverkas resultatkvantiteten eller kvaliteten baserat på datastrukturen. Att öka antalet frön kan förbättra resultatet, men med långsammare frågeavvägning. Att minska under fem ger försumbara förbättringar, medan ökning över 50 sällan genererar fler mönster. Standardvärdet är `25`.
CustomWildcard	`string`		En typliteral som anger jokerteckenvärdet för en viss typ i resultattabellen, vilket inte anger någon begränsning för den här kolumnen. Standardvärdet är `null`, som representerar en tom sträng. Om standardvärdet är ett bra värde i data ska ett annat jokerteckenvärde användas, till exempel `*`. Du kan inkludera flera anpassade jokertecken genom att lägga till dem i följd.

Returer

Plugin-programmet autocluster returnerar vanligtvis en liten uppsättning mönster. Mönstren samlar in delar av data med delade gemensamma värden över flera diskreta attribut. Varje mönster i resultatet representeras av en rad.

Den första kolumnen är segment-ID:t. Följande två kolumner är antalet och procentandelen rader från den ursprungliga frågan som fångas upp av mönstret. De återstående kolumnerna kommer från den ursprungliga frågan. Deras värde är antingen ett specifikt värde från kolumnen eller ett jokerteckenvärde (som är som standard null) vilket innebär variabelvärden.

Mönstren är inte distinkta, kan överlappa varandra och täcker vanligtvis inte alla ursprungliga rader. Vissa rader kanske inte omfattas av något mönster.

Tips

Använd where och project i indatapipan för att minska data till precis det du är intresserad av.

När du hittar en intressant rad kanske du vill öka detaljnivån ytterligare genom att lägga till dess specifika värden i where filtret.

Exempel

Använda evaluate

T | evaluate autocluster()

Använda autokluster

Köra frågan

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Resultat

SegmentId	Antal	Procent	Tillstånd	Eventtype	Skada
0	2278	38.7		Hagel	NO
1	512	8.7		Åska vind	JA
2	898	15,3	TEXAS

Använda anpassade jokertecken

Köra frågan

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Resultat

SegmentId	Antal	Procent	Tillstånd	Eventtype	Skada
0	2278	38.7	*	Hagel	NO
1	512	8.7	*	Åska vind	JA
2	898	15,3	TEXAS	*	*

Dela via

autocluster-plugin-program

Syntax

Parametrar

Returer

Exempel

Använda evaluate

Använda autokluster

Använda anpassade jokertecken

Feedback

Feedback

Ytterligare resurser

Dela via

autocluster-plugin-program

Syntax

Parametrar

Returer

Exempel

Använda evaluate

Använda autokluster

Använda anpassade jokertecken

Relaterat innehåll

Feedback

Feedback

Ytterligare resurser