autocluster, wtyczka

autocluster znajduje typowe wzorce atrybutów dyskretnych (wymiarów) w danych. Następnie zmniejsza wyniki oryginalnego zapytania, niezależnie od tego, czy jest to 100, czy 100 000 wierszy, do kilku wzorców. Wtyczka została opracowana w celu ułatwienia analizowania błędów (takich jak wyjątki lub awarie), ale potencjalnie może działać na dowolnym filtrowanym zestawie danych. Wtyczka jest wywoływana za pomocą evaluate operatora .

Uwaga

autocluster jest w dużej mierze oparty na algorytmie Seed-Expand z następującego artykułu: Algorytmy wyszukiwania danych telemetrycznych przy użyciu atrybutów dyskretnych.

Składnia

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Dowiedz się więcej o konwencjach składniowych.

Parametry

Parametry muszą być uporządkowane zgodnie ze składnią. Aby wskazać, że należy użyć wartości domyślnej, umieść wartość ~tyldy ciągu . Aby uzyskać więcej informacji, zobacz Przykłady.

Nazwa Typ Wymagane Opis
T string ✔️ Wyrażenie tabelaryczne danych wejściowych.
Waga rozmiaru double Podwójna wartość z zakresu od 0 do 1, która kontroluje równowagę między ogólnymi (wysokim pokryciem) i wartościami informacyjną (wiele współużytkowanych). Zwiększenie tej wartości zwykle zmniejsza ilość wzorców podczas rozszerzania pokrycia. Z drugiej strony zmniejszenie tej wartości generuje bardziej szczegółowe wzorce charakteryzujące się zwiększonymi wartościami udostępnionymi i mniejszym pokryciem procentowym. Wartość domyślna to 0.5. Formuła jest średnią geometryczną ważoną z wagami SizeWeight i 1-SizeWeight.
Kolumna wagowa string Uwzględnia każdy wiersz w danych wejściowych zgodnie z określoną wagą. Każdy wiersz ma domyślną wagę .1 Argument musi być nazwą kolumny liczbowej liczby całkowitej. Typowym użyciem kolumny wagi jest uwzględnienie próbkowania lub zasobnika lub agregacji danych, które są już osadzone w każdym wierszu.
NumSeeds int Określa liczbę początkowych lokalnych punktów wyszukiwania. Dostosowanie liczby nasion wpływa na ilość wyników lub jakość na podstawie struktury danych. Zwiększenie nasion może poprawić wyniki, ale z wolniejszym kompromisem zapytań. Zmniejszenie poniżej pięciu daje nieznaczne ulepszenia, podczas gdy wzrost powyżej 50 rzadko generuje więcej wzorców. Wartość domyślna to 25.
CustomWildcard string Literał typu, który ustawia wartość symboli wieloznacznych dla określonego typu w tabeli wyników, wskazujący brak ograniczeń dla tej kolumny. Wartość domyślna to null, która reprezentuje pusty ciąg. Jeśli wartość domyślna jest dobrą wartością w danych, należy użyć innej wartości wieloznacznych, takiej jak *. Możesz uwzględnić wiele niestandardowych symboli wieloznacznych, dodając je kolejno.

Zwraca

Wtyczka autocluster zwykle zwraca mały zestaw wzorców. Wzorce przechwytują fragmenty danych z udostępnionymi wspólnymi wartościami w wielu dyskretnych atrybutach. Każdy wzorzec w wynikach jest reprezentowany przez wiersz.

Pierwsza kolumna to identyfikator segmentu. Następne dwie kolumny to liczba i procent wierszy z oryginalnego zapytania, które są przechwytywane przez wzorzec. Pozostałe kolumny pochodzą z oryginalnego zapytania. Ich wartość jest określoną wartością z kolumny lub wartością wieloznacznymi (domyślnie null) oznaczaną wartościami zmiennych.

Wzorce nie są odrębne, mogą się nakładać i zwykle nie obejmują wszystkich oryginalnych wierszy. Niektóre wiersze mogą nie należeć do żadnego wzorca.

Porada

Użyj miejsca i projektu w potoku wejściowym, aby zmniejszyć dane do interesujących Cię elementów.

Jeśli znajdziesz interesujący wiersz, możesz przejść do szczegółów, dodając jego określone wartości do filtru where .

Przykłady

Korzystanie z oceny

T | evaluate autocluster()

Używanie autoklastratora

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Dane wyjściowe

Identyfikator segmentu Liczba Procent Stan Typ zdarzenia Uszkodzenia
0 2278 38.7 Grad NO
1 512 8.7 Burza wiatru TAK
2 898 15,3 TEXAS

Używanie niestandardowych symboli wieloznacznych

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Dane wyjściowe

Identyfikator segmentu Liczba Procent Stan Typ zdarzenia Uszkodzenia
0 2278 38.7 * Grad NO
1 512 8.7 * Burza wiatru TAK
2 898 15,3 TEXAS * *