autocluster, wtyczka

Artykuł
01/23/2024

autocluster znajduje typowe wzorce atrybutów dyskretnych (wymiarów) w danych. Następnie zmniejsza wyniki oryginalnego zapytania, niezależnie od tego, czy jest to 100, czy 100 000 wierszy, do kilku wzorców. Wtyczka została opracowana w celu ułatwienia analizowania błędów (takich jak wyjątki lub awarie), ale potencjalnie może działać na dowolnym filtrowanym zestawie danych. Wtyczka jest wywoływana za pomocą evaluate operatora .

Uwaga

autocluster jest w dużej mierze oparty na algorytmie Seed-Expand z następującego artykułu: Algorytmy wyszukiwania danych telemetrycznych przy użyciu atrybutów dyskretnych.

Składnia

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Dowiedz się więcej o konwencjach składniowych.

Parametry

Parametry muszą być uporządkowane zgodnie ze składnią. Aby wskazać, że należy użyć wartości domyślnej, umieść wartość ~tyldy ciągu . Aby uzyskać więcej informacji, zobacz Przykłady.

Nazwa	Typ	Wymagane	Opis
T	`string`	✔️	Wyrażenie tabelaryczne danych wejściowych.
Waga rozmiaru	double		Podwójna wartość z zakresu od 0 do 1, która kontroluje równowagę między ogólnymi (wysokim pokryciem) i wartościami informacyjną (wiele współużytkowanych). Zwiększenie tej wartości zwykle zmniejsza ilość wzorców podczas rozszerzania pokrycia. Z drugiej strony zmniejszenie tej wartości generuje bardziej szczegółowe wzorce charakteryzujące się zwiększonymi wartościami udostępnionymi i mniejszym pokryciem procentowym. Wartość domyślna to `0.5`. Formuła jest średnią geometryczną ważoną z wagami `SizeWeight` i `1-SizeWeight`.
Kolumna wagowa	`string`		Uwzględnia każdy wiersz w danych wejściowych zgodnie z określoną wagą. Każdy wiersz ma domyślną wagę .`1` Argument musi być nazwą kolumny liczbowej liczby całkowitej. Typowym użyciem kolumny wagi jest uwzględnienie próbkowania lub zasobnika lub agregacji danych, które są już osadzone w każdym wierszu.
NumSeeds	`int`		Określa liczbę początkowych lokalnych punktów wyszukiwania. Dostosowanie liczby nasion wpływa na ilość wyników lub jakość na podstawie struktury danych. Zwiększenie nasion może poprawić wyniki, ale z wolniejszym kompromisem zapytań. Zmniejszenie poniżej pięciu daje nieznaczne ulepszenia, podczas gdy wzrost powyżej 50 rzadko generuje więcej wzorców. Wartość domyślna to `25`.
CustomWildcard	`string`		Literał typu, który ustawia wartość symboli wieloznacznych dla określonego typu w tabeli wyników, wskazujący brak ograniczeń dla tej kolumny. Wartość domyślna to `null`, która reprezentuje pusty ciąg. Jeśli wartość domyślna jest dobrą wartością w danych, należy użyć innej wartości wieloznacznych, takiej jak `*`. Możesz uwzględnić wiele niestandardowych symboli wieloznacznych, dodając je kolejno.

Zwraca

Wtyczka autocluster zwykle zwraca mały zestaw wzorców. Wzorce przechwytują fragmenty danych z udostępnionymi wspólnymi wartościami w wielu dyskretnych atrybutach. Każdy wzorzec w wynikach jest reprezentowany przez wiersz.

Pierwsza kolumna to identyfikator segmentu. Następne dwie kolumny to liczba i procent wierszy z oryginalnego zapytania, które są przechwytywane przez wzorzec. Pozostałe kolumny pochodzą z oryginalnego zapytania. Ich wartość jest określoną wartością z kolumny lub wartością wieloznacznymi (domyślnie null) oznaczaną wartościami zmiennych.

Wzorce nie są odrębne, mogą się nakładać i zwykle nie obejmują wszystkich oryginalnych wierszy. Niektóre wiersze mogą nie należeć do żadnego wzorca.

Porada

Użyj miejsca i projektu w potoku wejściowym, aby zmniejszyć dane do interesujących Cię elementów.

Jeśli znajdziesz interesujący wiersz, możesz przejść do szczegółów, dodając jego określone wartości do filtru where .

Przykłady

Korzystanie z oceny

T | evaluate autocluster()

Używanie autoklastratora

Uruchamianie zapytania

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Dane wyjściowe

Identyfikator segmentu	Liczba	Procent	Stan	Typ zdarzenia	Uszkodzenia
0	2278	38.7		Grad	NO
1	512	8.7		Burza wiatru	TAK
2	898	15,3	TEXAS

Używanie niestandardowych symboli wieloznacznych

Uruchamianie zapytania

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Dane wyjściowe

Identyfikator segmentu	Liczba	Procent	Stan	Typ zdarzenia	Uszkodzenia
0	2278	38.7	*	Grad	NO
1	512	8.7	*	Burza wiatru	TAK
2	898	15,3	TEXAS	*	*

autocluster, wtyczka

Składnia

Parametry

Zwraca

Przykłady

Korzystanie z oceny

Używanie autoklastratora

Używanie niestandardowych symboli wieloznacznych

Opinia

Opinia

Dodatkowe zasoby

autocluster, wtyczka

Składnia

Parametry

Zwraca

Przykłady

Korzystanie z oceny

Używanie autoklastratora

Używanie niestandardowych symboli wieloznacznych

Zawartość pokrewna

Opinia

Opinia

Dodatkowe zasoby