Share via


Invoegtoepassing voor autocluster

autocluster zoekt naar algemene patronen van discrete kenmerken (dimensies) in de gegevens. Vervolgens worden de resultaten van de oorspronkelijke query, of deze nu 100 of 100.000 rijen zijn, teruggebracht tot enkele patronen. De invoegtoepassing is ontwikkeld om fouten (zoals uitzonderingen of crashes) te analyseren, maar kan mogelijk werken met elke gefilterde gegevensset. De invoegtoepassing wordt aangeroepen met de evaluate operator.

Notitie

autocluster is grotendeels gebaseerd op het Seed-Expand algoritme uit het volgende artikel: Algoritmen voor telemetriegegevensanalyse met behulp van discrete kenmerken.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Meer informatie over syntaxisconventies.

Parameters

De parameters moeten worden gerangschikt zoals opgegeven in de syntaxis. Als u wilt aangeven dat de standaardwaarde moet worden gebruikt, plaatst u de tekenreeks tildewaarde ~. Zie Voorbeelden voor meer informatie.

Naam Type Vereist Beschrijving
T string ✔️ De tabellaire invoerexpressie.
GrootteGewicht double Een dubbele waarde tussen 0 en 1 die de balans bepaalt tussen algemene (hoge dekking) en informatieve (veel gedeelde) waarden. Het verhogen van deze waarde vermindert doorgaans de hoeveelheid patronen terwijl de dekking wordt uitgebreid. Omgekeerd genereert het verlagen van deze waarde specifiekere patronen die worden gekenmerkt door verhoogde gedeelde waarden en een kleiner percentage dekking. De standaardwaarde is 0.5. De formule is een gewogen meetkundig gemiddelde met gewichten SizeWeight en 1-SizeWeight.
WeightColumn string Houdt rekening met elke rij in de invoer op basis van het opgegeven gewicht. Elke rij heeft een standaardgewicht van 1. Het argument moet een naam zijn van een kolom met een geheel getal. Een kolom gewicht wordt vaak gebruikt om rekening te houden met steekproeven of bucketing of aggregatie van de gegevens die al in elke rij zijn ingesloten.
NumSeeds int Hiermee bepaalt u het aantal initiële lokale zoekpunten. Het aanpassen van het aantal zaden heeft invloed op de kwantiteit of kwaliteit van het resultaat op basis van de gegevensstructuur. Het verhogen van zaden kan de resultaten verbeteren, maar met een tragere query-afweging. Een daling van minder dan vijf levert verwaarloosbare verbeteringen op, terwijl een toename boven de 50 zelden meer patronen genereert. De standaardwaarde is 25.
CustomWildcard string Een letterlijk type waarmee de jokertekenwaarde voor een specifiek type in de resultatentabel wordt ingesteld, waarmee geen beperking voor deze kolom wordt aangegeven. De standaardwaarde is null, wat een lege tekenreeks vertegenwoordigt. Als de standaardwaarde een goede waarde in de gegevens is, moet een andere jokertekenwaarde worden gebruikt, zoals *. U kunt meerdere aangepaste jokertekens toevoegen door ze opeenvolgend toe te voegen.

Retouren

De autocluster invoegtoepassing retourneert meestal een kleine set patronen. De patronen leggen delen van de gegevens vast met gedeelde gemeenschappelijke waarden voor meerdere discrete kenmerken. Elk patroon in de resultaten wordt vertegenwoordigd door een rij.

De eerste kolom is de segment-id. De volgende twee kolommen zijn het aantal en het percentage rijen uit de oorspronkelijke query die zijn vastgelegd door het patroon. De resterende kolommen zijn afkomstig uit de oorspronkelijke query. Hun waarde is een specifieke waarde uit de kolom of een jokertekenwaarde (die standaard null is) wat variabele waarden betekent.

De patronen zijn niet verschillend, overlappen mogelijk en omvatten meestal niet alle oorspronkelijke rijen. Sommige rijen vallen mogelijk niet onder een patroon.

Tip

Gebruik waar en project in de invoerpijp om de gegevens te beperken tot precies wat u wilt.

Wanneer u een interessante rij vindt, kunt u er verder op inzoomen door de specifieke waarden aan uw where filter toe te voegen.

Voorbeelden

Evalueren gebruiken

T | evaluate autocluster()

Autocluster gebruiken

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Uitvoer

SegmentId Count Percentage Staat EventType Schade
0 2278 38.7 Hagel NO
1 512 8.7 Onweerswind JA
2 898 15.3 TEXAS

Aangepaste jokertekens gebruiken

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Uitvoer

SegmentId Count Percentage Staat EventType Schade
0 2278 38.7 * Hagel NO
1 512 8.7 * Onweerswind JA
2 898 15.3 TEXAS * *