Dela via


autocluster-plugin-program

autocluster hittar vanliga mönster för diskreta attribut (dimensioner) i data. Den minskar sedan resultatet av den ursprungliga frågan, oavsett om det är 100 eller 100 000 rader, till några mönster. Plugin-programmet har utvecklats för att analysera fel (till exempel undantag eller krascher) men kan eventuellt fungera med alla filtrerade datauppsättningar. Plugin-programmet anropas med operatorn evaluate .

Anteckning

autocluster baseras till stor del på Seed-Expand-algoritmen från följande dokument: Algoritmer för telemetridatautvinning med diskreta attribut.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Läs mer om syntaxkonventioner.

Parametrar

Parametrarna måste sorteras enligt syntaxen. Ange att standardvärdet ska användas genom att ange värdet för strängen tilde ~. Mer information finns i Exempel.

Namn Typ Obligatorisk Beskrivning
T string ✔️ Tabelluttrycket för indata.
Storleksvikt double En dubbel mellan 0 och 1 som styr balansen mellan generiska (hög täckning) och informativa (många delade) värden. Om du ökar det här värdet minskar du vanligtvis antalet mönster samtidigt som täckningen utökas. Om du minskar det här värdet genereras däremot mer specifika mönster som kännetecknas av ökade delade värden och en mindre procentandel täckning. Standardvärdet är 0.5. Formeln är ett viktat geometriskt medelvärde med vikter SizeWeight och 1-SizeWeight.
WeightColumn string Tar hänsyn till varje rad i indata enligt den angivna vikten. Varje rad har standardvikten 1. Argumentet måste vara ett namn på en numerisk heltalskolumn. En vanlig användning av en viktkolumn är att ta hänsyn till sampling eller bucketing eller aggregering av de data som redan är inbäddade i varje rad.
NumSeeds int Avgör antalet inledande lokala sökpunkter. Om du justerar antalet frön påverkas resultatkvantiteten eller kvaliteten baserat på datastrukturen. Att öka antalet frön kan förbättra resultatet, men med långsammare frågeavvägning. Att minska under fem ger försumbara förbättringar, medan ökning över 50 sällan genererar fler mönster. Standardvärdet är 25.
CustomWildcard string En typliteral som anger jokerteckenvärdet för en viss typ i resultattabellen, vilket inte anger någon begränsning för den här kolumnen. Standardvärdet är null, som representerar en tom sträng. Om standardvärdet är ett bra värde i data ska ett annat jokerteckenvärde användas, till exempel *. Du kan inkludera flera anpassade jokertecken genom att lägga till dem i följd.

Returer

Plugin-programmet autocluster returnerar vanligtvis en liten uppsättning mönster. Mönstren samlar in delar av data med delade gemensamma värden över flera diskreta attribut. Varje mönster i resultatet representeras av en rad.

Den första kolumnen är segment-ID:t. Följande två kolumner är antalet och procentandelen rader från den ursprungliga frågan som fångas upp av mönstret. De återstående kolumnerna kommer från den ursprungliga frågan. Deras värde är antingen ett specifikt värde från kolumnen eller ett jokerteckenvärde (som är som standard null) vilket innebär variabelvärden.

Mönstren är inte distinkta, kan överlappa varandra och täcker vanligtvis inte alla ursprungliga rader. Vissa rader kanske inte omfattas av något mönster.

Tips

Använd where och project i indatapipan för att minska data till precis det du är intresserad av.

När du hittar en intressant rad kanske du vill öka detaljnivån ytterligare genom att lägga till dess specifika värden i where filtret.

Exempel

Använda evaluate

T | evaluate autocluster()

Använda autokluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Resultat

SegmentId Antal Procent Tillstånd Eventtype Skada
0 2278 38.7 Hagel NO
1 512 8.7 Åska vind JA
2 898 15,3 TEXAS

Använda anpassade jokertecken

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Resultat

SegmentId Antal Procent Tillstånd Eventtype Skada
0 2278 38.7 * Hagel NO
1 512 8.7 * Åska vind JA
2 898 15,3 TEXAS * *