autocluster-Plug-In

autocluster findet gängige Muster diskreter Attribute (Dimensionen) in den Daten. Anschließend werden die Ergebnisse der ursprünglichen Abfrage , unabhängig davon, ob es sich um 100 oder 100.000 Zeilen handelt, auf einige Muster reduziert. Das Plug-In wurde entwickelt, um Fehler (z. B. Ausnahmen oder Abstürze) zu analysieren, kann aber möglicherweise für jedes gefilterte Dataset funktionieren. Das Plug-In wird mit dem evaluate Operator aufgerufen.

Hinweis

autocluster basiert größtenteils auf dem Seed-Expand Algorithmus aus dem folgenden Artikel: Algorithmen für Telemetrie data Mining mithilfe diskreter Attribute.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Die Parameter müssen wie in der Syntax angegeben sortiert werden. Um anzugeben, dass der Standardwert verwendet werden soll, legen Sie den Zeichenfolgenkachelwert ~ein. Weitere Informationen finden Sie unter Beispiele.

Name Typ Erforderlich Beschreibung
T string ✔️ Der tabellarische Eingabeausdruck.
SizeWeight double Ein Double zwischen 0 und 1, das das Gleichgewicht zwischen generischen (hohe Abdeckung) und informativen (viele freigegebenen) Werten steuert. Das Erhöhen dieses Werts verringert in der Regel die Anzahl von Mustern, während die Abdeckung erweitert wird. Umgekehrt führt die Verringerung dieses Werts zu spezifischeren Mustern, die sich durch höhere gemeinsame Werte und eine geringere prozentuale Abdeckung auszeichnen. Der Standardwert lautet 0.5. Die Formel ist ein gewichtetes geometrisches Mittel mit Gewichten SizeWeight und 1-SizeWeight.
WeightColumn string Berücksichtigt jede Zeile in der Eingabe entsprechend der angegebenen Gewichtung. Jede Zeile hat die Standardgewichtung.1 Das Argument muss ein Name einer numerischen ganzzahligen Spalte sein. Eine häufige Verwendung einer Gewichtungsspalte besteht darin, die Stichprobenerstellung, das Bucketing oder die Aggregation der Daten zu berücksichtigen, die bereits in jede Zeile eingebettet sind.
NumSeeds int Bestimmt die Anzahl der anfänglichen lokalen Suchpunkte. Das Anpassen der Anzahl von Samen wirkt sich auf die Quantität oder Qualität des Ergebnisses basierend auf der Datenstruktur aus. Das Erhöhen von Seeds kann die Ergebnisse verbessern, aber mit einem langsameren Abfragekonflikt. Das Absteigen unter fünf ergibt vernachlässigbare Verbesserungen, während eine Erhöhung über 50 selten mehr Muster erzeugt. Der Standardwert lautet 25.
CustomWildcard string Ein Typliteral, das den Kurshalterwert für einen bestimmten Typ in der Ergebnistabelle festlegt und keine Einschränkung für diese Spalte angibt. Der Standardwert ist null, was eine leere Zeichenfolge darstellt. Wenn der Standardwert ein guter Wert in den Daten ist, sollte ein anderer Feldhalterwert verwendet werden, z *. B. . Sie können mehrere benutzerdefinierte Wildcards einschließen, indem Sie sie nacheinander hinzufügen.

Gibt zurück

Das autocluster Plug-In gibt normalerweise einen kleinen Satz von Mustern zurück. Die Muster erfassen Teile der Daten mit freigegebenen gemeinsamen Werten über mehrere diskrete Attribute hinweg. Jedes Muster in den Ergebnissen wird durch eine Zeile dargestellt.

Die erste Spalte ist die Segment-ID. Die nächsten beiden Spalten enthalten die Anzahl und den Prozentsatz der Zeilen aus der ursprünglichen Abfrage, die mit dem Muster erfasst wurden. Die übrigen Spalten stammen aus der ursprünglichen Abfrage. Ihr Wert ist entweder ein bestimmter Wert aus der Spalte oder ein Feldhalterwert (die standardmäßig NULL sind), was Variablenwerte bedeutet.

Die Muster unterscheiden sich nicht, können sich überschneiden und decken in der Regel nicht alle ursprünglichen Zeilen ab. Einige Zeilen fallen ggf. nicht in eines der Muster.

Tipp

Verwenden Sie where und project in der Eingabepipeline, um die Daten auf das zu reduzieren, was Sie interessieren.

Wenn Sie eine interessante Zeile finden, können Sie dafür einen Drilldown durchführen, indem Sie die jeweiligen Werte dem where -Filter hinzufügen.

Beispiele

Verwenden von evaluate

T | evaluate autocluster()

Verwenden von Autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Ausgabe

SegmentId Anzahl Percent State EventType Damage
0 2278 38,7 Hagel Nein
1 512 8,7 Sturm YES
2 898 15,3 TEXAS

Verwenden von benutzerdefinierten Wildcards

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Ausgabe

SegmentId Anzahl Percent State EventType Damage
0 2278 38,7 * Hagel Nein
1 512 8,7 * Sturm YES
2 898 15,3 TEXAS * *