Invoegtoepassing voor autocluster
autocluster
zoekt naar algemene patronen van discrete kenmerken (dimensies) in de gegevens. Vervolgens worden de resultaten van de oorspronkelijke query, of deze nu 100 of 100.000 rijen zijn, teruggebracht tot enkele patronen. De invoegtoepassing is ontwikkeld om fouten (zoals uitzonderingen of crashes) te analyseren, maar kan mogelijk werken met elke gefilterde gegevensset. De invoegtoepassing wordt aangeroepen met de evaluate
operator.
Notitie
autocluster
is grotendeels gebaseerd op het Seed-Expand algoritme uit het volgende artikel: Algoritmen voor telemetriegegevensanalyse met behulp van discrete kenmerken.
Syntax
T|
evaluate
autocluster
(
[SizeWeight [,
WeightColumn [,
NumSeeds [,
CustomWildcard [,
... ]]]]])
Meer informatie over syntaxisconventies.
Parameters
De parameters moeten worden gerangschikt zoals opgegeven in de syntaxis. Als u wilt aangeven dat de standaardwaarde moet worden gebruikt, plaatst u de tekenreeks tildewaarde ~
. Zie Voorbeelden voor meer informatie.
Naam | Type | Vereist | Beschrijving |
---|---|---|---|
T | string |
✔️ | De tabellaire invoerexpressie. |
GrootteGewicht | double | Een dubbele waarde tussen 0 en 1 die de balans bepaalt tussen algemene (hoge dekking) en informatieve (veel gedeelde) waarden. Het verhogen van deze waarde vermindert doorgaans de hoeveelheid patronen terwijl de dekking wordt uitgebreid. Omgekeerd genereert het verlagen van deze waarde specifiekere patronen die worden gekenmerkt door verhoogde gedeelde waarden en een kleiner percentage dekking. De standaardwaarde is 0.5 . De formule is een gewogen meetkundig gemiddelde met gewichten SizeWeight en 1-SizeWeight . |
|
WeightColumn | string |
Houdt rekening met elke rij in de invoer op basis van het opgegeven gewicht. Elke rij heeft een standaardgewicht van 1 . Het argument moet een naam zijn van een kolom met een geheel getal. Een kolom gewicht wordt vaak gebruikt om rekening te houden met steekproeven of bucketing of aggregatie van de gegevens die al in elke rij zijn ingesloten. |
|
NumSeeds | int |
Hiermee bepaalt u het aantal initiële lokale zoekpunten. Het aanpassen van het aantal zaden heeft invloed op de kwantiteit of kwaliteit van het resultaat op basis van de gegevensstructuur. Het verhogen van zaden kan de resultaten verbeteren, maar met een tragere query-afweging. Een daling van minder dan vijf levert verwaarloosbare verbeteringen op, terwijl een toename boven de 50 zelden meer patronen genereert. De standaardwaarde is 25 . |
|
CustomWildcard | string |
Een letterlijk type waarmee de jokertekenwaarde voor een specifiek type in de resultatentabel wordt ingesteld, waarmee geen beperking voor deze kolom wordt aangegeven. De standaardwaarde is null , wat een lege tekenreeks vertegenwoordigt. Als de standaardwaarde een goede waarde in de gegevens is, moet een andere jokertekenwaarde worden gebruikt, zoals * . U kunt meerdere aangepaste jokertekens toevoegen door ze opeenvolgend toe te voegen. |
Retouren
De autocluster
invoegtoepassing retourneert meestal een kleine set patronen. De patronen leggen delen van de gegevens vast met gedeelde gemeenschappelijke waarden voor meerdere discrete kenmerken. Elk patroon in de resultaten wordt vertegenwoordigd door een rij.
De eerste kolom is de segment-id. De volgende twee kolommen zijn het aantal en het percentage rijen uit de oorspronkelijke query die zijn vastgelegd door het patroon. De resterende kolommen zijn afkomstig uit de oorspronkelijke query. Hun waarde is een specifieke waarde uit de kolom of een jokertekenwaarde (die standaard null is) wat variabele waarden betekent.
De patronen zijn niet verschillend, overlappen mogelijk en omvatten meestal niet alle oorspronkelijke rijen. Sommige rijen vallen mogelijk niet onder een patroon.
Tip
Gebruik waar en project in de invoerpijp om de gegevens te beperken tot precies wat u wilt.
Wanneer u een interessante rij vindt, kunt u er verder op inzoomen door de specifieke waarden aan uw where
filter toe te voegen.
Voorbeelden
Evalueren gebruiken
T | evaluate autocluster()
Autocluster gebruiken
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Uitvoer
SegmentId | Count | Percentage | Staat | EventType | Schade |
---|---|---|---|---|---|
0 | 2278 | 38.7 | Hagel | NO | |
1 | 512 | 8.7 | Onweerswind | JA | |
2 | 898 | 15.3 | TEXAS |
Aangepaste jokertekens gebruiken
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Uitvoer
SegmentId | Count | Percentage | Staat | EventType | Schade |
---|---|---|---|---|---|
0 | 2278 | 38.7 | * | Hagel | NO |
1 | 512 | 8.7 | * | Onweerswind | JA |
2 | 898 | 15.3 | TEXAS | * | * |
Gerelateerde inhoud
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor