Partage via


autocluster, plug-in

autocluster recherche des modèles courants d’attributs discrets (dimensions) dans les données. Il réduit ensuite les résultats de la requête d’origine, qu’il s’agisse de 100 ou 100 000 lignes, à quelques modèles. Le plug-in a été développé pour aider à analyser les défaillances (telles que les exceptions ou les plantages), mais peut potentiellement fonctionner sur n’importe quel jeu de données filtré. Le plug-in est appelé avec l’opérateur evaluate .

Remarque

autocluster est largement basé sur l’algorithme Seed-Expand du document suivant : algorithmes pour l’exploration de données de télémétrie à l’aide d’attributs discrets.

Syntaxe

T evaluate (| autocluster [SizeWeight [, WeightColumn [, NumSeeds [, CustomWildcard [, ... ]]]]])

En savoir plus sur les conventions de syntaxe.

Paramètres

Les paramètres doivent être classés comme spécifié dans la syntaxe. Pour indiquer que la valeur par défaut doit être utilisée, placez la valeur ~de chaîne tilde . Pour plus d’informations, consultez Exemples.

Nom Type Requise Description
T string ✔️ Expression tabulaire d’entrée.
SizeWeight double Double compris entre 0 et 1 qui contrôle l’équilibre entre les valeurs génériques (couverture élevée) et informatives (plusieurs partagés). L’augmentation de cette valeur réduit généralement la quantité de modèles tout en développant la couverture. À l’inverse, la diminution de cette valeur génère des modèles plus spécifiques caractérisés par une augmentation des valeurs partagées et une couverture en pourcentage plus faible. Par défaut, il s’agit de 0.5. La formule est une moyenne géométrique pondérée avec des SizeWeight poids et 1-SizeWeight.
WeightColumn string Considère chaque ligne dans l’entrée en fonction du poids spécifié. Chaque ligne a un poids par défaut de 1. L’argument doit être un nom d’une colonne d’entier numérique. Une utilisation courante d’une colonne de pondération consiste à prendre en compte l’échantillonnage ou le compartimentage ou l’agrégation des données déjà incorporées dans chaque ligne.
NumSeeds int Détermine le nombre de points de recherche locaux initiaux. Ajuster le nombre de graines affecte la quantité ou la qualité des résultats en fonction de la structure des données. L’augmentation des graines peut améliorer les résultats, mais avec un compromis de requête plus lent. La diminution inférieure à cinq génère des améliorations négligeables, tandis que l’augmentation supérieure à 50 génère rarement plus de modèles. Par défaut, il s’agit de 25.
CustomWildcard string Littéral de type qui définit la valeur générique d’un type spécifique dans la table de résultats, indiquant aucune restriction sur cette colonne. La valeur par défaut est null, qui représente une chaîne vide. Si la valeur par défaut est une bonne valeur dans les données, une autre valeur générique doit être utilisée, par *exemple . Vous pouvez inclure plusieurs caractères génériques personnalisés en les ajoutant consécutivement.

Retours

Le autocluster plug-in retourne généralement un petit ensemble de modèles. Les modèles capturent des parties des données avec des valeurs communes partagées entre plusieurs attributs discrets. Chaque modèle dans les résultats est représenté par une ligne.

La première colonne est l’ID de segment. Les deux colonnes suivantes contiennent le nombre et le pourcentage de lignes de la requête d’origine qui sont capturés par le modèle. Les colonnes restantes proviennent de la requête d’origine. Leur valeur est soit une valeur spécifique de la colonne, soit une valeur générique (qui sont par défaut null) qui signifie des valeurs de variable.

Les modèles ne sont pas distincts, peuvent se chevaucher et ne couvrent généralement pas toutes les lignes d’origine. Certaines lignes peuvent n’appartenir à aucun modèle.

Conseil

Utilisez et projetez dans le canal d’entrée pour réduire les données à ce qui vous intéresse.

Lorsque vous trouvez une ligne intéressante, vous pouvez l’explorer plus en détail en ajoutant ses valeurs spécifiques à votre filtre where .

Exemples

Utilisation de l’évaluation

T | evaluate autocluster()

Utilisation de l’autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Sortie

ID de segment Count Pourcentage État Type d’événement Dommage
0 2278 38,7 Grêle NO
1 512 8.7 Vent d’orage OUI
2 898 15,3 TEXAS

Utilisation de caractères génériques personnalisés

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Sortie

ID de segment Count Pourcentage État Type d’événement Dommage
0 2278 38,7 * Grêle NO
1 512 8.7 * Vent d’orage OUI
2 898 15,3 TEXAS * *