Sdílet prostřednictvím


Modul plug-in autocluster

autocluster najde v datech běžné vzory diskrétních atributů (dimenzí). Potom zmenšuje výsledky původního dotazu, ať už je to 100 nebo 100 000 řádků, na několik vzorů. Modul plug-in byl vyvinut tak, aby pomohl analyzovat selhání (například výjimky nebo chybové ukončení), ale může potenciálně pracovat na jakékoli filtrované datové sadě. Modul plug-in se vyvolá pomocí operátoru evaluate .

Poznámka:

autocluster je z velké části založen na algoritmu Seed-Expand z následujícího dokumentu: Algoritmy pro dolování telemetrických dat pomocí diskrétních atributů.

Syntaxe

T (autocluster | evaluate [SizeWeight [, WeightColumn [, NumSeeds [ , CustomWildcard [, ... ]]]]])

Přečtěte si další informace o konvencích syntaxe.

Parametry

Parametry musí být seřazené tak, jak je uvedeno v syntaxi. Chcete-li označit, že má být použita výchozí hodnota, vložte řetězcovou vlnovku hodnotu ~. Další informace najdete v tématu Příklady.

Name Type Požadováno Popis
T string ✔️ Vstupní tabulkový výraz.
SizeWeight double Dvojitá hodnota mezi 0 a 1, která řídí rovnováhu mezi obecnými (vysokým pokrytím) a informativními (mnoha sdílenými) hodnotami. Zvýšení této hodnoty obvykle snižuje množství vzorů při rozšiřování pokrytí. Naopak snížení této hodnoty generuje konkrétnější vzory, které jsou charakterizovány zvýšenými sdílenými hodnotami a menším procentem pokrytí. Výchozí hodnota je 0.5. Vzorec je vážený geometrický průměr s váhami SizeWeight a 1-SizeWeight.
WeightColumn string Bere v úvahu každý řádek ve vstupu podle zadané váhy. Každý řádek má výchozí váhu 1. Argument musí být název číselného celočíselného sloupce. Běžným použitím sloupce hmotnosti je vzít v úvahu vzorkování nebo kontejnery nebo agregaci dat, která jsou již vložena do každého řádku.
NumSeeds int Určuje početpočátečních Úprava počtu semen ovlivňuje množství výsledků nebo kvalitu na základě datové struktury. Zvýšení semen může zlepšit výsledky, ale s pomalejším kompromisem dotazu. Snížení pod pět přináší zanedbatelná vylepšení, zatímco zvýšení nad 50 zřídka generuje více vzorů. Výchozí hodnota je 25.
CustomWildcard string Literál typu, který nastaví hodnotu zástupného znaku pro konkrétní typ v tabulce výsledků, což značí žádné omezení pro tento sloupec. Výchozí hodnota je null, která představuje prázdný řetězec. Pokud je výchozí hodnota v datech dobrá, měla by se použít jiná hodnota se zástupným znakem, například *. Můžete zahrnout několik vlastních zástupných znaků přidáním po sobě jdoucích.

Návraty

Modul plug-in autocluster obvykle vrací malou sadu vzorů. Vzory zachycují části dat se sdílenými běžnými hodnotami napříč několika diskrétními atributy. Každý vzor ve výsledcích je reprezentován řádkem.

Prvním sloupcem je ID segmentu. Další dva sloupce jsou počet a procento řádků z původního dotazu zachyceného vzorem. Zbývající sloupce pocházejí z původního dotazu. Jejich hodnota je buď konkrétní hodnota ze sloupce, nebo hodnota se zástupným znakem (která je ve výchozím nastavení null), což znamená hodnoty proměnných.

Vzory nejsou odlišné, můžou se překrývat a obvykle nepokrývají všechny původní řádky. Některé řádky nemusí spadat pod žádný vzor.

Tip

Pomocí umístění a projektu ve vstupním kanálu zmenšete data jenom na to, co vás zajímá.

Když najdete zajímavý řádek, možná ho budete chtít podrobněji rozbalit přidáním konkrétních hodnot do where filtru.

Příklady

Použití vyhodnocení

T | evaluate autocluster()

Použití automatickéhoclusteru

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Výstup

SegmentId Počet Procenta State Typ události Škoda
0 2278 38.7 Krupobití NE
0 512 8.7 Větrná bouře ANO
2 898 15.3 TEXAS

Použití vlastních zástupných znaků

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Výstup

SegmentId Počet Procenta State Typ události Škoda
0 2278 38.7 * Krupobití NE
0 512 8.7 * Větrná bouře ANO
2 898 15.3 TEXAS * *