Share via


autocluster, plug-in

autocluster recherche des modèles courants d’attributs discrets (dimensions) dans les données. Il réduit ensuite les résultats de la requête d’origine, qu’il s’agisse de 100 ou de 100 000 lignes, à quelques modèles. Le plug-in a été développé pour faciliter l’analyse des défaillances (telles que des exceptions ou des incidents), mais peut potentiellement fonctionner sur n’importe quel jeu de données filtré. Le plug-in est appelé avec l’opérateur evaluate .

Notes

autocluster est largement basé sur l’algorithme Seed-Expand du document suivant : Algorithmes pour l’exploration de données de télémétrie à l’aide d’attributs discrets.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Découvrez les conventions de syntaxe.

Paramètres

Les paramètres doivent être classés comme spécifié dans la syntaxe. Pour indiquer que la valeur par défaut doit être utilisée, placez la valeur ~tilde de chaîne . Pour plus d’informations, consultez Exemples.

Nom Type Obligatoire Description
T string ✔️ Expression tabulaire d’entrée.
SizeWeight double Double compris entre 0 et 1 qui contrôle l’équilibre entre les valeurs génériques (couverture élevée) et informatives (beaucoup partagées). L’augmentation de cette valeur réduit généralement la quantité de modèles lors de l’extension de la couverture. À l’inverse, la diminution de cette valeur génère des modèles plus spécifiques caractérisés par une augmentation des valeurs partagées et une couverture en pourcentage plus faible. Par défaut, il s’agit de 0.5. La formule est une moyenne géométrique pondérée avec les pondérations SizeWeight et 1-SizeWeight.
WeightColumn string Considère chaque ligne dans l’entrée en fonction de la pondération spécifiée. Chaque ligne a une pondération par défaut de 1. L’argument doit être le nom d’une colonne d’entiers numériques. Une utilisation courante d’une colonne de pondération consiste à prendre en compte l’échantillonnage, le compartimentage ou l’agrégation des données déjà incorporées dans chaque ligne.
NumSeeds int Détermine le nombre de points de recherche locaux initiaux. L’ajustement du nombre de graines a un impact sur la quantité ou la qualité des résultats en fonction de la structure des données. L’augmentation des semences peut améliorer les résultats, mais avec un compromis de requête plus lent. Le fait de diminuer en dessous de cinq donne des améliorations négligeables, tandis que l’augmentation au-dessus de 50 génère rarement plus de tendances. Par défaut, il s’agit de 25.
CustomWildcard string Littéral de type qui définit la valeur générique d’un type spécifique dans la table de résultats, indiquant aucune restriction sur cette colonne. La valeur par défaut est null, qui représente une chaîne vide. Si la valeur par défaut est une bonne valeur dans les données, une autre valeur générique doit être utilisée, telle que *. Vous pouvez inclure plusieurs caractères génériques personnalisés en les ajoutant consécutivement.

Retours

Le autocluster plug-in retourne généralement un petit ensemble de modèles. Les modèles capturent des parties des données avec des valeurs communes partagées sur plusieurs attributs discrets. Chaque modèle dans les résultats est représenté par une ligne.

La première colonne est l’ID de segment. Les deux colonnes suivantes contiennent le nombre et le pourcentage de lignes de la requête d’origine qui sont capturés par le modèle. Les colonnes restantes proviennent de la requête d’origine. Leur valeur est soit une valeur spécifique de la colonne, soit une valeur générique (qui est null par défaut) qui signifie des valeurs de variable.

Les modèles ne sont pas distincts, peuvent se chevaucher et ne couvrent généralement pas toutes les lignes d’origine. Certaines lignes peuvent n’appartenir à aucun modèle.

Conseil

Utilisez et projetez dans le canal d’entrée pour réduire les données à ce qui vous intéresse.

Lorsque vous trouvez une ligne intéressante, vous pouvez l’explorer plus en détail en ajoutant ses valeurs spécifiques à votre filtre where .

Exemples

Utilisation de l’évaluation

T | evaluate autocluster()

Utilisation du cluster automatique

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Sortie

ID de segment Count Pourcentage État Type d’événement Dommage
0 2278 38,7 Grêle Non
1 512 8,7 Vent d’orage YES
2 898 15,3 TEXAS

Utilisation de caractères génériques personnalisés

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Sortie

ID de segment Count Pourcentage État Type d’événement Dommage
0 2278 38,7 * Grêle Non
1 512 8,7 * Vent d’orage YES
2 898 15,3 TEXAS * *