autocluster, plug-in
autocluster
recherche des modèles courants d’attributs discrets (dimensions) dans les données. Il réduit ensuite les résultats de la requête d’origine, qu’il s’agisse de 100 ou de 100 000 lignes, à quelques modèles. Le plug-in a été développé pour faciliter l’analyse des défaillances (telles que des exceptions ou des incidents), mais peut potentiellement fonctionner sur n’importe quel jeu de données filtré. Le plug-in est appelé avec l’opérateur evaluate
.
Notes
autocluster
est largement basé sur l’algorithme Seed-Expand du document suivant : Algorithmes pour l’exploration de données de télémétrie à l’aide d’attributs discrets.
Syntax
T|
evaluate
autocluster
(
[SizeWeight [,
WeightColumn [,
NumSeeds [,
CustomWildcard [,
... ]]]]])
Découvrez les conventions de syntaxe.
Paramètres
Les paramètres doivent être classés comme spécifié dans la syntaxe. Pour indiquer que la valeur par défaut doit être utilisée, placez la valeur ~
tilde de chaîne . Pour plus d’informations, consultez Exemples.
Nom | Type | Obligatoire | Description |
---|---|---|---|
T | string |
✔️ | Expression tabulaire d’entrée. |
SizeWeight | double | Double compris entre 0 et 1 qui contrôle l’équilibre entre les valeurs génériques (couverture élevée) et informatives (beaucoup partagées). L’augmentation de cette valeur réduit généralement la quantité de modèles lors de l’extension de la couverture. À l’inverse, la diminution de cette valeur génère des modèles plus spécifiques caractérisés par une augmentation des valeurs partagées et une couverture en pourcentage plus faible. Par défaut, il s’agit de 0.5 . La formule est une moyenne géométrique pondérée avec les pondérations SizeWeight et 1-SizeWeight . |
|
WeightColumn | string |
Considère chaque ligne dans l’entrée en fonction de la pondération spécifiée. Chaque ligne a une pondération par défaut de 1 . L’argument doit être le nom d’une colonne d’entiers numériques. Une utilisation courante d’une colonne de pondération consiste à prendre en compte l’échantillonnage, le compartimentage ou l’agrégation des données déjà incorporées dans chaque ligne. |
|
NumSeeds | int |
Détermine le nombre de points de recherche locaux initiaux. L’ajustement du nombre de graines a un impact sur la quantité ou la qualité des résultats en fonction de la structure des données. L’augmentation des semences peut améliorer les résultats, mais avec un compromis de requête plus lent. Le fait de diminuer en dessous de cinq donne des améliorations négligeables, tandis que l’augmentation au-dessus de 50 génère rarement plus de tendances. Par défaut, il s’agit de 25 . |
|
CustomWildcard | string |
Littéral de type qui définit la valeur générique d’un type spécifique dans la table de résultats, indiquant aucune restriction sur cette colonne. La valeur par défaut est null , qui représente une chaîne vide. Si la valeur par défaut est une bonne valeur dans les données, une autre valeur générique doit être utilisée, telle que * . Vous pouvez inclure plusieurs caractères génériques personnalisés en les ajoutant consécutivement. |
Retours
Le autocluster
plug-in retourne généralement un petit ensemble de modèles. Les modèles capturent des parties des données avec des valeurs communes partagées sur plusieurs attributs discrets. Chaque modèle dans les résultats est représenté par une ligne.
La première colonne est l’ID de segment. Les deux colonnes suivantes contiennent le nombre et le pourcentage de lignes de la requête d’origine qui sont capturés par le modèle. Les colonnes restantes proviennent de la requête d’origine. Leur valeur est soit une valeur spécifique de la colonne, soit une valeur générique (qui est null par défaut) qui signifie des valeurs de variable.
Les modèles ne sont pas distincts, peuvent se chevaucher et ne couvrent généralement pas toutes les lignes d’origine. Certaines lignes peuvent n’appartenir à aucun modèle.
Conseil
Utilisez où et projetez dans le canal d’entrée pour réduire les données à ce qui vous intéresse.
Lorsque vous trouvez une ligne intéressante, vous pouvez l’explorer plus en détail en ajoutant ses valeurs spécifiques à votre filtre where
.
Exemples
Utilisation de l’évaluation
T | evaluate autocluster()
Utilisation du cluster automatique
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)
Sortie
ID de segment | Count | Pourcentage | État | Type d’événement | Dommage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | Grêle | Non | |
1 | 512 | 8,7 | Vent d’orage | YES | |
2 | 898 | 15,3 | TEXAS |
Utilisation de caractères génériques personnalisés
StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')
Sortie
ID de segment | Count | Pourcentage | État | Type d’événement | Dommage |
---|---|---|---|---|---|
0 | 2278 | 38,7 | * | Grêle | Non |
1 | 512 | 8,7 | * | Vent d’orage | YES |
2 | 898 | 15,3 | TEXAS | * | * |
Contenu connexe
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour