Complemento autocluster

autocluster busca patrones comunes de atributos discretos (dimensiones) en los datos. A continuación, reduce los resultados de la consulta original, ya sea 100 o 100 000 filas, a algunos patrones. El complemento se desarrolló para ayudar a analizar errores (como excepciones o bloqueos), pero puede funcionar potencialmente en cualquier conjunto de datos filtrado. El complemento se invoca con el evaluate operador .

Nota

autocluster se basa en gran medida en el algoritmo de Seed-Expand del siguiente documento: Algoritmos para la minería de datos de telemetría mediante atributos discretos.

Syntax

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Obtenga más información sobre las convenciones de sintaxis.

Parámetros

Los parámetros se deben ordenar como se especifica en la sintaxis . Para indicar que se debe usar el valor predeterminado, coloque el valor ~de tilde de cadena . Para obtener más información, vea Ejemplos.

Nombre Tipo Requerido Descripción
T string ✔️ Expresión tabular de entrada.
SizeWeight double Un doble entre 0 y 1 que controla el equilibrio entre los valores genéricos (cobertura alta) e informativos (muchos compartidos). Aumentar este valor normalmente reduce la cantidad de patrones mientras se expande la cobertura. Por el contrario, reducir este valor genera patrones más específicos caracterizados por un aumento de los valores compartidos y una cobertura de porcentaje menor. El valor predeterminado es 0.5. La fórmula es una media geométrica ponderada con pesos SizeWeight y 1-SizeWeight.
WeightColumn string Considera cada fila de la entrada según el peso especificado. Cada fila tiene un peso predeterminado de 1. El argumento debe ser un nombre de una columna de entero numérico. Un uso común de una columna de peso es tener en cuenta el muestreo, la creación de depósitos o la agregación de los datos que ya están incrustados en cada fila.
NumSeeds int Determina el número de puntos de búsqueda locales iniciales. Ajustar el número de semillas afecta a la cantidad de resultados o la calidad en función de la estructura de datos. Aumentar las semillas puede mejorar los resultados, pero con un equilibrio de consulta más lento. Al disminuir por debajo de cinco, se producen mejoras insignificantes, mientras que aumentar por encima de 50 rara vez genera más patrones. El valor predeterminado es 25.
CustomWildcard string Literal de tipo que establece el valor comodín de un tipo específico en la tabla de resultados, lo que indica que no hay ninguna restricción en esta columna. El valor predeterminado es null, que representa una cadena vacía. Si el valor predeterminado es un buen valor en los datos, se debe usar un valor comodín diferente, como *. Puede incluir varios caracteres comodín personalizados agregándolos de forma consecutiva.

Devoluciones

Normalmente, el autocluster complemento devuelve un pequeño conjunto de patrones. Los patrones capturan partes de los datos con valores comunes compartidos en varios atributos discretos. Cada patrón de los resultados se representa mediante una fila.

La primera columna es el identificador de segmento. Las dos columnas siguientes son el número y el porcentaje de filas fuera de la consulta original capturadas por el patrón. Las columnas restantes provienen de la consulta original. Su valor es un valor específico de la columna o un valor comodín (que son null de forma predeterminada) que significan valores de variable.

Los patrones no son distintos, pueden superponerse y, normalmente, no cubren todas las filas originales. Algunas filas no pueden estar en cualquier patrón.

Sugerencia

Use dónde y project en la canalización de entrada para reducir los datos a lo que le interesa.

Al buscar una fila interesante, puede profundizar aún más mediante la adición de sus valores específicos a su filtro where .

Ejemplos

Uso de evaluate

T | evaluate autocluster()

Uso de autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Salida

SegmentId Count Percent State EventType Daños
0 2278 38,7 Granizo No
1 512 8,7 Viento de tormenta
2 898 15,3 TEXAS

Uso de caracteres comodín personalizados

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Salida

SegmentId Count Percent State EventType Daños
0 2278 38,7 * Granizo No
1 512 8,7 * Viento de tormenta
2 898 15,3 TEXAS * *