Modul plug-in autocluster

autocluster vyhledá v datech běžné vzory diskrétních atributů (dimenzí). Potom zmenšuje výsledky původního dotazu, ať už je to 100 nebo 100 000 řádků, na několik vzorů. Modul plug-in byl vyvinut, aby pomohl analyzovat chyby (například výjimky nebo chybové ukončení), ale může potenciálně fungovat na jakékoli filtrované datové sadě. Modul plug-in se vyvolá pomocí operátoru evaluate .

Poznámka

autocluster je z velké části založen na algoritmu Seed-Expand z následujícího dokumentu: Algoritmy pro dolování telemetrických dat pomocí diskrétních atributů.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Přečtěte si další informace o konvencích syntaxe.

Parametry

Parametry musí být seřazeny tak, jak je uvedeno v syntaxi. Chcete-li označit, že se má použít výchozí hodnota, vložte řetězcovou tildovou hodnotu ~. Další informace najdete v příkladech.

Název Typ Vyžadováno Popis
T string ✔️ Vstupní tabulkový výraz.
Váha velikosti double Dvojitá hodnota mezi 0 a 1, která řídí rovnováhu mezi obecnými (vysokým pokrytím) a informativními (mnoho sdílených) hodnot. Zvýšením této hodnoty se obvykle sníží množství vzorů a zároveň se zvýší pokrytí. Naopak snížení této hodnoty generuje konkrétnější vzory charakterizované zvýšenými sdílenými hodnotami a menším procentuálním pokrytím. Výchozí formát je 0.5. Vzorec je vážený geometrický průměr se závažími SizeWeight a 1-SizeWeight.
WeightColumn string Každý řádek ve vstupu se posuzuje podle zadané hmotnosti. Každý řádek má výchozí váhu : 1. Argument musí být název číselného celočíselného sloupce. Běžným použitím sloupce hmotnosti je vzít v úvahu vzorkování, dělení do kontejnerů nebo agregace dat, která jsou již vložena do každého řádku.
NumSeeds int Určuje počet počátečních místních vyhledávacích bodů. Úprava počtu semen ovlivňuje množství nebo kvalitu výsledku na základě struktury dat. Zvýšení počtu semen může zlepšit výsledky, ale s pomalejším kompromisem dotazů. Snížení pod pět přináší zanedbatelné zlepšení, zatímco zvýšení nad 50 zřídka generuje více vzorů. Výchozí formát je 25.
CustomWildcard string Literál typu, který nastaví hodnotu zástupné znaméně pro konkrétní typ v tabulce výsledků a neudává žádné omezení pro tento sloupec. Výchozí hodnota je null, což představuje prázdný řetězec. Pokud je výchozí hodnota v datech dobrá, měla by se použít jiná hodnota se zástupným znakem, například *. Můžete zahrnout několik vlastních zástupných znaků tak, že je postupně přidáte.

Návraty

Modul plug-in autocluster obvykle vrací malou sadu vzorů. Vzory zachycují části dat se sdílenými společnými hodnotami napříč několika diskrétními atributy. Každý vzor ve výsledcích je reprezentován řádkem.

První sloupec je ID segmentu. Další dva sloupce jsou počet a procento řádků z původního dotazu, které jsou zachyceny vzorem. Zbývající sloupce pocházejí z původního dotazu. Jejich hodnota je buď konkrétní hodnota ze sloupce, nebo hodnota se zástupným znakem (která má ve výchozím nastavení hodnotu null), což znamená hodnoty proměnných.

Vzory nejsou odlišné, můžou se překrývat a obvykle nepokrývají všechny původní řádky. Některé řádky nemusí spadat pod žádný vzor.

Tip

Pomocí umístění a promítání ve vstupním kanálu zredukujte data na to, co vás zajímá.

Když najdete zajímavý řádek, možná budete chtít přejít k jeho podrobnostem tak, že do filtru přidáte where jeho konkrétní hodnoty.

Příklady

Použití vyhodnocení

T | evaluate autocluster()

Použití autoclusteru

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Výstup

Id segmentu Počet Procento Stav Typ události Poškození
0 2278 38.7 Krupobití NO
1 512 8.7 Bouřkový vítr ANO
2 898 15.3 TEXAS

Použití vlastních zástupných znaků

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Výstup

Id segmentu Počet Procento Stav Typ události Poškození
0 2278 38.7 * Krupobití NO
1 512 8.7 * Bouřkový vítr ANO
2 898 15.3 TEXAS * *