Freigeben über


autocluster-Plug-In

autocluster findet allgemeine Muster von diskreten Attributen (Dimensionen) in den Daten. Anschließend werden die Ergebnisse der ursprünglichen Abfrage , unabhängig davon, ob es sich um 100 oder 100.000 Zeilen handelt, auf ein paar Muster reduziert. Das Plug-In wurde entwickelt, um Fehler (z. B. Ausnahmen oder Abstürze) zu analysieren, kann aber möglicherweise an jedem gefilterten Dataset arbeiten. Das Plug-In wird mit dem evaluate Operator aufgerufen.

Hinweis

autocluster basiert weitgehend auf dem Seed-Expand-Algorithmus aus dem folgenden Dokument: Algorithmen für Telemetrie Data Mining mit diskreten Attributen.

Syntax

T | evaluate (autocluster [SizeWeight [, WeightColumn [, NumSeeds [ CustomWildcard [,, ... ]]]]])

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Die Parameter müssen wie in der Syntax angegeben sortiert werden. Um anzugeben, dass der Standardwert verwendet werden soll, legen Sie den Zeichenfolgen-Tildewert ein ~. Weitere Informationen finden Sie unter "Beispiele".

Name Type Erforderlich Beschreibung
T string ✔️ Der Tabellarische Eingabeausdruck.
SizeWeight double Ein double between 0 and 1 that controls the balance between generic (high coverage) and informative (many shared) values. Das Erhöhen dieses Werts reduziert in der Regel die Anzahl von Mustern, während die Abdeckung erweitert wird. Umgekehrt erzeugt das Verringern dieses Werts spezifischere Muster, die durch erhöhte gemeinsame Werte und eine geringere Prozentuale Abdeckung gekennzeichnet sind. Der Standardwert ist 0.5. Die Formel ist ein gewichtetes geometrisches Mittel mit Gewichtungen SizeWeight und 1-SizeWeight.
WeightColumn string Berücksichtigt jede Zeile in der Eingabe entsprechend der angegebenen Gewichtung. Jede Zeile weist eine Standardgewichtung von 1. Das Argument muss ein Name einer numerischen ganzzahligen Spalte sein. Eine häufige Verwendung einer Gewichtungsspalte besteht darin, das Sampling oder Bucketing oder die Aggregation der Daten zu berücksichtigen, die bereits in jede Zeile eingebettet sind.
NumSeeds int Bestimmt die Anzahl der anfänglichen lokalen Suchpunkte. Das Anpassen der Anzahl der Samen wirkt sich auf die Ergebnismenge oder -qualität auf der Grundlage der Datenstruktur aus. Das Erhöhen von Samen kann die Ergebnisse verbessern, aber mit einem langsameren Abfrage-Kompromiss. Der Rückgang unter fünf führt zu vernachlässigbaren Verbesserungen, während eine Zunahme über 50 selten mehr Muster erzeugt. Der Standardwert ist 25.
CustomWildcard string Ein Typliteral, das den Wildcardwert für einen bestimmten Typ in der Ergebnistabelle festlegt, der keine Einschränkung für diese Spalte angibt. Der Standardwert ist null, der eine leere Zeichenfolge darstellt. Wenn der Standardwert ein guter Wert in den Daten ist, sollte ein anderer Wildcardwert verwendet werden, z *. B. . Sie können mehrere benutzerdefinierte Wildcards einschließen, indem Sie sie aufeinander folgenden hinzufügen.

Gibt zurück

Das autocluster Plug-In gibt in der Regel einen kleinen Satz von Mustern zurück. Die Muster erfassen Teile der Daten mit gemeinsam genutzten gemeinsamen Werten über mehrere einzelne Attribute hinweg. Jedes Muster in den Ergebnissen wird durch eine Zeile dargestellt.

Die erste Spalte ist die Segment-ID. Die nächsten beiden Spalten enthalten die Anzahl und den Prozentsatz der Zeilen aus der ursprünglichen Abfrage, die mit dem Muster erfasst wurden. Die übrigen Spalten stammen aus der ursprünglichen Abfrage. Ihr Wert ist entweder ein bestimmter Wert aus der Spalte oder ein Wildcardwert (der standardmäßig null ist), was Variablenwerte bedeutet.

Die Muster unterscheiden sich nicht, können sich überschneiden und in der Regel nicht alle ursprünglichen Zeilen abdecken. Einige Zeilen fallen ggf. nicht in eines der Muster.

Tipp

Verwenden Sie die Position und das Projekt in der Eingabepipeline, um die Daten auf das zu reduzieren, was Sie interessieren.

Wenn Sie eine interessante Zeile finden, können Sie dafür einen Drilldown durchführen, indem Sie die jeweiligen Werte dem where -Filter hinzufügen.

Beispiele

Verwenden der Auswertung

T | evaluate autocluster()

Verwenden von Autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId Anzahl Percent Staat EventType Damage
0 2278 38,7 Hagel NO
1 512 8.7 Sturm YES
2 898 15,3 TEXAS

Verwenden von benutzerdefinierten Wildcards

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId Anzahl Percent Staat EventType Damage
0 2278 38,7 * Hagel NO
1 512 8.7 * Sturm YES
2 898 15,3 TEXAS * *