autocluster-Plug-In

Artikel
07/04/2024

autocluster findet allgemeine Muster von diskreten Attributen (Dimensionen) in den Daten. Anschließend werden die Ergebnisse der ursprünglichen Abfrage , unabhängig davon, ob es sich um 100 oder 100.000 Zeilen handelt, auf ein paar Muster reduziert. Das Plug-In wurde entwickelt, um Fehler (z. B. Ausnahmen oder Abstürze) zu analysieren, kann aber möglicherweise an jedem gefilterten Dataset arbeiten. Das Plug-In wird mit dem evaluate Operator aufgerufen.

Hinweis

autocluster basiert weitgehend auf dem Seed-Expand-Algorithmus aus dem folgenden Dokument: Algorithmen für Telemetrie Data Mining mit diskreten Attributen.

Syntax

T | evaluate (autocluster [SizeWeight [, WeightColumn [, NumSeeds [ CustomWildcard [,, ... ]]]]])

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Die Parameter müssen wie in der Syntax angegeben sortiert werden. Um anzugeben, dass der Standardwert verwendet werden soll, legen Sie den Zeichenfolgen-Tildewert ein ~. Weitere Informationen finden Sie unter "Beispiele".

Name	Type	Erforderlich	Beschreibung
T	`string`	✔️	Der Tabellarische Eingabeausdruck.
SizeWeight	double		Ein double between 0 and 1 that controls the balance between generic (high coverage) and informative (many shared) values. Das Erhöhen dieses Werts reduziert in der Regel die Anzahl von Mustern, während die Abdeckung erweitert wird. Umgekehrt erzeugt das Verringern dieses Werts spezifischere Muster, die durch erhöhte gemeinsame Werte und eine geringere Prozentuale Abdeckung gekennzeichnet sind. Der Standardwert ist `0.5`. Die Formel ist ein gewichtetes geometrisches Mittel mit Gewichtungen `SizeWeight` und `1-SizeWeight`.
WeightColumn	`string`		Berücksichtigt jede Zeile in der Eingabe entsprechend der angegebenen Gewichtung. Jede Zeile weist eine Standardgewichtung von `1`. Das Argument muss ein Name einer numerischen ganzzahligen Spalte sein. Eine häufige Verwendung einer Gewichtungsspalte besteht darin, das Sampling oder Bucketing oder die Aggregation der Daten zu berücksichtigen, die bereits in jede Zeile eingebettet sind.
NumSeeds	`int`		Bestimmt die Anzahl der anfänglichen lokalen Suchpunkte. Das Anpassen der Anzahl der Samen wirkt sich auf die Ergebnismenge oder -qualität auf der Grundlage der Datenstruktur aus. Das Erhöhen von Samen kann die Ergebnisse verbessern, aber mit einem langsameren Abfrage-Kompromiss. Der Rückgang unter fünf führt zu vernachlässigbaren Verbesserungen, während eine Zunahme über 50 selten mehr Muster erzeugt. Der Standardwert ist `25`.
CustomWildcard	`string`		Ein Typliteral, das den Wildcardwert für einen bestimmten Typ in der Ergebnistabelle festlegt, der keine Einschränkung für diese Spalte angibt. Der Standardwert ist `null`, der eine leere Zeichenfolge darstellt. Wenn der Standardwert ein guter Wert in den Daten ist, sollte ein anderer Wildcardwert verwendet werden, z `*`. B. . Sie können mehrere benutzerdefinierte Wildcards einschließen, indem Sie sie aufeinander folgenden hinzufügen.

Gibt zurück

Das autocluster Plug-In gibt in der Regel einen kleinen Satz von Mustern zurück. Die Muster erfassen Teile der Daten mit gemeinsam genutzten gemeinsamen Werten über mehrere einzelne Attribute hinweg. Jedes Muster in den Ergebnissen wird durch eine Zeile dargestellt.

Die erste Spalte ist die Segment-ID. Die nächsten beiden Spalten enthalten die Anzahl und den Prozentsatz der Zeilen aus der ursprünglichen Abfrage, die mit dem Muster erfasst wurden. Die übrigen Spalten stammen aus der ursprünglichen Abfrage. Ihr Wert ist entweder ein bestimmter Wert aus der Spalte oder ein Wildcardwert (der standardmäßig null ist), was Variablenwerte bedeutet.

Die Muster unterscheiden sich nicht, können sich überschneiden und in der Regel nicht alle ursprünglichen Zeilen abdecken. Einige Zeilen fallen ggf. nicht in eines der Muster.

Tipp

Verwenden Sie die Position und das Projekt in der Eingabepipeline, um die Daten auf das zu reduzieren, was Sie interessieren.

Wenn Sie eine interessante Zeile finden, können Sie dafür einen Drilldown durchführen, indem Sie die jeweiligen Werte dem where -Filter hinzufügen.

Beispiele

Verwenden der Auswertung

T | evaluate autocluster()

Verwenden von Autocluster

Abfrage ausführen

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId	Anzahl	Percent	Staat	EventType	Damage
0	2278	38,7		Hagel	NO
1	512	8.7		Sturm	YES
2	898	15,3	TEXAS

Verwenden von benutzerdefinierten Wildcards

Abfrage ausführen

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId	Anzahl	Percent	Staat	EventType	Damage
0	2278	38,7	*	Hagel	NO
1	512	8.7	*	Sturm	YES
2	898	15,3	TEXAS	*	*

Korb
reduce

Freigeben über

autocluster-Plug-In

Syntax

Parameter

Gibt zurück

Beispiele

Verwenden der Auswertung

Verwenden von Autocluster

Verwenden von benutzerdefinierten Wildcards

Feedback

Feedback

Zusätzliche Ressourcen

Freigeben über

autocluster-Plug-In

Syntax

Parameter

Gibt zurück

Beispiele

Verwenden der Auswertung

Verwenden von Autocluster

Verwenden von benutzerdefinierten Wildcards

Zugehöriger Inhalt

Feedback

Feedback

Zusätzliche Ressourcen