Plug-In „diffpatterns_text“

Artikel
01/23/2024

Vergleicht zwei Datasets mit Zeichenfolgenwerten und findet Textmuster, die Unterschiede zwischen den beiden Datasets charakterisieren. Das Plug-In wird mit dem evaluate Operator aufgerufen.

Gibt diffpatterns_text eine Reihe von Textmustern zurück, die verschiedene Teile der Daten in den beiden Sätzen erfassen. Beispiel: Ein Muster, das einen großen Prozentsatz der Zeilen erfasst, wenn die Bedingung ist true , und einen niedrigen Prozentsatz der Zeilen, wenn die Bedingung ist false. Die Muster werden aus aufeinanderfolgenden Token erstellt, die durch Leerzeichen getrennt sind, wobei ein Token aus der Textspalte oder ein * Platzhalter darstellt. Jede Zeile in den Ergebnissen steht für ein Muster.

Syntax

T | evaluate diffpatterns_text(TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Erfahren Sie mehr über Syntaxkonventionen.

Parameter

Name	Typ	Erforderlich	BESCHREIBUNG
Textspalte	`string`	✔️	Die zu analysierende Textspalte.
BooleanCondition	`string`	✔️	Ein Ausdruck, der zu einem booleschen Wert ausgewertet wird. Der Algorithmus teilt die Abfrage in die beiden Datasets auf, die basierend auf diesem Ausdruck verglichen werden sollen.
MinTokens	`int`		Ein ganzzahliger Wert zwischen 0 und 200, der die minimale Anzahl von Nicht-Platzhaltertoken pro Ergebnismuster darstellt. Der Standardwert ist 1.
Schwellenwert	`decimal`		Ein Dezimalwert zwischen 0,015 und 1, der das minimale Musterverhältnis zwischen den beiden Sätzen festlegt. Der Standardwert ist 0.05. Siehe diffpatterns.
MaxTokens	`int`		Ein ganzzahliger Wert zwischen 0 und 20, der die maximale Anzahl von Token pro Ergebnismuster festlegt und einen niedrigeren Grenzwert angibt, verringert die Abfragelaufzeit.

Gibt zurück

Das Ergebnis von diffpatterns_text gibt die folgenden Spalten zurück:

Count_of_True: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet true.
Count_of_False: Die Anzahl der Zeilen, die dem Muster entsprechen, wenn die Bedingung lautet false.
Percent_of_True: Der Prozentsatz der Zeilen, die dem Muster aus den Zeilen entsprechen, wenn die Bedingung lautet true.
Percent_of_False: Der Prozentsatz der Zeilen, die dem Muster der Zeilen entsprechen, wenn die Bedingung lautet false.
Muster: Das Textmuster, das Token aus der Textzeichenfolge und "*" für Feldhalter enthält.

Hinweis

Die Muster sind nicht unbedingt unterschiedlich und bieten möglicherweise keine vollständige Abdeckung des Datasets. Die Muster können sich überlappen, und einige Zeilen entsprechen möglicherweise keinem Muster.

Beispiel

Im folgenden Beispiel werden Daten aus der StormEvents-Tabelle im Hilfecluster verwendet. Melden Sie sich bei https://dataexplorer.azure.com/clusters/help/databases/Samplesan, um auf diese Daten zuzugreifen. Navigieren Sie im linken Menü zuBeispieltabellen>>>Storm_Events.

Abfrage ausführen

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Ausgabe

Count_of_True	Count_of_False	Percent_of_True	Percent_of_False	Muster
11	0	6.29	0	Windwechsel nach Nordwesten in * Wake * ein Oberflächentrog brachte schweren See effekt Schneefall abWind * Lake Superior von
9	0	5.14	0	Kanadischer Hochdruck setzte sich ab * * Region * erzeugte die kältesten Temperaturen seit Februar * 2006. Dauer * Gefriertemperaturen
0	34	0	6.24	* * * * * * * * * * * * * * * * * West Tennessee,
0	42	0	7.71	* * * * * verursacht * * * * * * * * im westen colorado. *
0	45	0	8.26	* * unter normal *
0	110	0	20.18	Unter normal *