Dela via


diffpatterns_text insticksprogram

Växla tjänster genom att använda listrutan Version. Läs mer om navigering.
Gäller för: ✅ Microsoft Fabric ✅ Azure Data Explorer

Jämför två datauppsättningar med strängvärden och hittar textmönster som kännetecknar skillnader mellan de två datauppsättningarna. Plugin-programmet anropas med operatorn evaluate.

diffpatterns_text Returnerar en uppsättning textmönster som samlar in olika delar av data i de två uppsättningarna. Till exempel ett mönster som samlar in en stor procentandel av raderna när villkoret är true och låg procentandel av raderna när villkoret är false. Mönstren skapas från på varandra följande token avgränsade med blanksteg, med en token från textkolumnen eller ett * som representerar ett jokertecken. Varje mönster representeras av en rad i resultatet.

Syntax

T | evaluate diffpatterns_text( TextColumn, BooleanCondition [, MinTokens, Threshold , MaxTokens])

Läs mer om syntaxkonventioner.

Parameterar

Namn Typ Krävs Beskrivning
TextColumn string ✔️ Textkolumnen som ska analyseras.
BooleanCondition string ✔️ Ett uttryck som utvärderas till ett booleskt värde. Algoritmen delar upp frågan i de två datauppsättningarna som ska jämföras baserat på det här uttrycket.
MinTokens int Ett heltalsvärde mellan 0 och 200 som representerar det minimala antalet token som inte är jokertecken per resultatmönster. Standardvärdet är 1.
Tröskel decimal Ett decimalvärde mellan 0,015 och 1 som anger den minimala mönsterförhållandeskillnaden mellan de två uppsättningarna. Standardvärdet är 0,05. Se diffpatterns.
MaxTokens int Ett heltalsvärde mellan 0 och 20 som anger maximalt antal token per resultatmönster, vilket minskar frågekörningen genom att ange en lägre gräns.

Retur

Resultatet av diffpatterns_text returnerar följande kolumner:

  • Count_of_True: Antalet rader som matchar mönstret när villkoret är true.
  • Count_of_False: Antalet rader som matchar mönstret när villkoret är false.
  • Percent_of_True: Procentandelen rader som matchar mönstret från raderna när villkoret är true.
  • Percent_of_False: Procentandelen rader som matchar mönstret från raderna när villkoret är false.
  • Mönster: Textmönstret som innehåller token från textsträngen och "*" för jokertecken.

Anmärkning

Mönstren är inte nödvändigtvis distinkta och kanske inte ger fullständig täckning av datamängden. Mönstren kan överlappa varandra och vissa rader kanske inte matchar något mönster.

Exempel

I följande exempel visas hur du använder plugin-programmet diffpatterns_text för att hitta mönster i kolumnen i EpisodeNarrativeStormEvents tabellen. I exemplet jämförs textmönstren i EpisodeNarrative kolumnen när EventType är "Extreme Cold/Wind Chill" och när det inte är det.

I följande exempel används data från tabellen StormEvents i hjälpklustret. Logga in https://dataexplorer.azure.com/clusters/help/databases/Samplespå för att komma åt dessa data. I den vänstra menyn bläddrar du för att hjälpa>exempeltabeller>>Storm_Events.

Exemplen i den här handledningen använder tabellen StormEvents, som är offentligt tillgänglig i exempeldata för väderanalys.

StormEvents     
| where EventNarrative != "" and monthofyear(StartTime) > 1 and monthofyear(StartTime) < 9
| where EventType == "Drought" or EventType == "Extreme Cold/Wind Chill"
| evaluate diffpatterns_text(EpisodeNarrative, EventType == "Extreme Cold/Wind Chill", 2)

Resultat

Count_of_True Count_of_False Percent_of_True Percent_of_False Mönster
11 0 6.29 0 Vindar som skiftar nordväst i * wake * ett yttråg förde tung sjöeffekt snöfall nervind * Lake Superior från
9 0 5.14 0 Kanadensiska högtryck bosatte * * region * producerade de kallaste temperaturerna sedan februari * 2006. Varaktigheter * frystemperaturer
0 34 0 6.24 * * * * * * * * * * * * West Tennessee,
0 42 0 7.71 * * * * * * * * orsakade * * * * * * * * * över västra Colorado. *
0 45 0 8.26 * * under det normala *
0 110 0 20.18 Under det normala *