Diagnóstico de anomalias para análise de causa raiz

Artigo
03/14/2024

Kusto Query Language (KQL) tem built-in detecção de anomalias e funções de previsão para verificar o comportamento anômalo. Uma vez que esse padrão é detectado, uma Análise de Causa Raiz (RCA) pode ser executada para mitigar ou resolver a anomalia.

O processo de diagnóstico é complexo e longo, e é feito por especialistas em domínio. Esse processo inclui:

Buscar e unir mais dados de diferentes fontes para o mesmo período de tempo
Procurar alterações na distribuição de valores em várias dimensões
Criando gráficos de mais variáveis
Outras técnicas com base no conhecimento e na intuição do domínio

Como esses cenários de diagnóstico são comuns, plug-ins de aprendizado de máquina estão disponíveis para facilitar a fase de diagnóstico e encurtar a duração do RCA.

Todos os três plug-ins de Machine Learning a seguir implementam algoritmos de clustering: autocluster, baskete diffpatterns. Os plug-ins autocluster e basket agrupam um único conjunto de registros, e o plug-in diffpatterns agrupa as diferenças entre dois conjuntos de registros.

Clustering de um único conjunto de registros

Um cenário comum inclui um conjunto de dados selecionado por um critério específico, como:

Janela de tempo que mostra o comportamento anômalo
Leituras de dispositivo de alta temperatura
Comandos de longa duração
Usuários que mais gastam

Você quer uma maneira rápida e fácil de encontrar padrões comuns (segmentos) nos dados. Padrões são um subconjunto do conjunto de dados cujos registros compartilham os mesmos valores em várias dimensões (colunas categóricas).

A consulta a seguir cria e mostra uma série temporal de exceções de serviço durante o período de uma semana, em compartimentos de dez minutos:

Executar a consulta

let min_t = toscalar(demo_clustering1 | summarize min(PreciseTimeStamp));  
let max_t = toscalar(demo_clustering1 | summarize max(PreciseTimeStamp));  
demo_clustering1
| make-series num=count() on PreciseTimeStamp from min_t to max_t step 10m
| render timechart with(title="Service exceptions over a week, 10 minutes resolution")

Gráfico de tempo das exceções de serviço.

A contagem de exceção de serviço se correlaciona com o tráfego de serviço geral. Você pode ver claramente o padrão diário para dias úteis, de segunda a sexta-feira. Há um aumento nas contagens de exceção de serviço ao meio-dia, e uma diminuição durante a noite. Contagens planas baixas são visíveis nos finais de semana. Picos de exceção podem ser detectados usando a detecção de anomalias de séries temporais.

O segundo pico nos dados ocorre na terça-feira à tarde. A consulta a seguir é usada para diagnosticar e verificar se é um pico acentuado. A consulta redesenha o gráfico em volta do pico em uma resolução mais alta de oito horas em compartimentos de um minuto. E, então, você pode estudar suas bordas.

Executar a consulta

let min_t=datetime(2016-08-23 11:00);
demo_clustering1
| make-series num=count() on PreciseTimeStamp from min_t to min_t+8h step 1m
| render timechart with(title="Zoom on the 2nd spike, 1 minute resolution")

Concentre-se no gráfico de tempo do pico.

Você vê um pico estreito de dois minutos das 15:00 às 15:02. Na consulta a seguir, conte as exceções nesta janela de dois minutos:

Executar a consulta

let min_peak_t=datetime(2016-08-23 15:00);
let max_peak_t=datetime(2016-08-23 15:02);
demo_clustering1
| where PreciseTimeStamp between(min_peak_t..max_peak_t)
| count

Count
972

Na consulta a seguir, colha amostras de 20 exceções das 972:

Executar a consulta

let min_peak_t=datetime(2016-08-23 15:00);
let max_peak_t=datetime(2016-08-23 15:02);
demo_clustering1
| where PreciseTimeStamp between(min_peak_t..max_peak_t)
| take 20

PreciseTimeStamp	Region	ScaleUnit	DeploymentId	Tracepoint	ServiceHost
2016-08-23 15:00:08.7302460	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	100005	00000000-0000-0000-0000-000000000000
2016-08-23 15:00:09.9496584	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007006	8d257da1-7a1c-44f5-9acd-f9e02ff507fd
2016-08-23 15:00:10.5911748	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	100005	00000000-0000-0000-0000-000000000000
2016-08-23 15:00:12.2957912	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007007	f855fcef-ebfe-405d-aaf8-9c5e2e43d862
2016-08-23 15:00:18.5955357	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007006	9d390e07-417d-42eb-bebd-793965189a28
2016-08-23 15:00:20.7444854	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007006	6e54c1c8-42d3-4e4e-8b79-9bb076ca71f1
2016-08-23 15:00:23.8694999	eus2	su2	89e2f62a73bb4efd8f545aeae40d7e51	36109	19422243-19b9-4d85-9ca6-bc961861d287
2016-08-23 15:00:26.4271786	ncus	su1	e24ef436e02b4823ac5d5b1465a9401e	36109	3271bae4-1c5b-4f73-98ef-cc117e9be914
2016-08-23 15:00:27.8958124	scus	su3	90d3d2fc7ecc430c9621ece335651a01	904498	8cf38575-fca9-48ca-bd7c-21196f6d6765
2016-08-23 15:00:32.9884969	scus	su3	90d3d2fc7ecc430c9621ece335651a01	10007007	d5c7c825-9d46-4ab7-a0c1-8e2ac1d83ddb
2016-08-23 15:00:34.5061623	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	1002110	55a71811-5ec4-497a-a058-140fb0d611ad
2016-08-23 15:00:37.4490273	scus	su3	90d3d2fc7ecc430c9621ece335651a01	10007006	f2ee8254-173c-477d-a1de-4902150ea50d
2016-08-23 15:00:41.2431223	scus	su3	90d3d2fc7ecc430c9621ece335651a01	103200	8cf38575-fca9-48ca-bd7c-21196f6d6765
2016-08-23 15:00:47.2983975	ncus	su1	e24ef436e02b4823ac5d5b1465a9401e	423690590	00000000-0000-0000-0000-000000000000
2016-08-23 15:00:50.5932834	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007006	2a41b552-aa19-4987-8cdd-410a3af016ac
2016-08-23 15:00:50.8259021	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	1002110	0d56b8e3-470d-4213-91da-97405f8d005e
2016-08-23 15:00:53.2490731	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	36109	55a71811-5ec4-497a-a058-140fb0d611ad
2016-08-23 15:00:57.0000946	eus2	su2	89e2f62a73bb4efd8f545aeae40d7e51	64038	cb55739e-4afe-46a3-970f-1b49d8ee7564
2016-08-23 15:00:58.2222707	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6	10007007	8215dcf6-2de0-42bd-9c90-181c70486c9c
2016-08-23 15:00:59.9382620	scus	su3	90d3d2fc7ecc430c9621ece335651a01	10007006	451e3c4c-0808-4566-a64d-84d85cf30978

Usar autocluster() para clustering de conjunto de registros único

Embora haja menos de mil exceções, ainda é difícil encontrar segmentos comuns, pois há diversos valores em cada coluna. Você pode usar o plug-in autocluster() para extrair instantaneamente uma breve lista de segmentos comuns e encontrar os clusters interessantes dentro dos dois minutos do pico, conforme visto na consulta a seguir:

Executar a consulta

let min_peak_t=datetime(2016-08-23 15:00);
let max_peak_t=datetime(2016-08-23 15:02);
demo_clustering1
| where PreciseTimeStamp between(min_peak_t..max_peak_t)
| evaluate autocluster()

SegmentId	Count	Percentual	Region	ScaleUnit	DeploymentId	ServiceHost
0	639	65.7407407407407	eau	su7	b5d1d4df547d4a04ac15885617edba57	e7f60c5d-4944-42b3-922a-92e98a8e7dec
1	94	9.67078189300411	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6
2	82	8.43621399176955	ncus	su1	e24ef436e02b4823ac5d5b1465a9401e
3	68	6.99588477366255	scus	su3	90d3d2fc7ecc430c9621ece335651a01
4	55	5.65843621399177	weu	su4	be1d6d7ac9574cbc9a22cb8ee20f16fc

Você pode ver pelos resultados acima que o segmento mais dominante contém 65,74% do total de registros de exceção e compartilha quatro dimensões. O próximo segmento é bem menos comum. Ele contém apenas 9,67% dos registros e compartilha três dimensões. Os outros segmentos são ainda menos comuns.

O autocluster usa um algoritmo proprietário para mineração de várias dimensões e extração de segmentos interessantes. "Interessante" significa que cada segmento tem cobertura significativa do conjunto de registros e do conjunto de recursos. Os segmentos também são divergentes, o que significa que cada um é diferente dos outros. Um ou mais desses segmentos podem ser relevantes para o processo de RCA. Para minimizar a análise e a avaliação de segmentos, o autocluster extrai apenas uma pequena lista de segmentos.

Usar basket() para clustering de conjunto de registros único

Você também pode usar o plug-in basket() como visto na seguinte consulta:

Executar a consulta

let min_peak_t=datetime(2016-08-23 15:00);
let max_peak_t=datetime(2016-08-23 15:02);
demo_clustering1
| where PreciseTimeStamp between(min_peak_t..max_peak_t)
| evaluate basket()

SegmentId	Count	Percentual	Region	ScaleUnit	DeploymentId	Tracepoint	ServiceHost
0	639	65.7407407407407	eau	su7	b5d1d4df547d4a04ac15885617edba57		e7f60c5d-4944-42b3-922a-92e98a8e7dec
1	642	66.0493827160494	eau	su7	b5d1d4df547d4a04ac15885617edba57
2	324	33.3333333333333	eau	su7	b5d1d4df547d4a04ac15885617edba57	0	e7f60c5d-4944-42b3-922a-92e98a8e7dec
3	315	32.4074074074074	eau	su7	b5d1d4df547d4a04ac15885617edba57	16108	e7f60c5d-4944-42b3-922a-92e98a8e7dec
4	328	33.7448559670782				0
5	94	9.67078189300411	scus	su5	9dbd1b161d5b4779a73cf19a7836ebd6
6	82	8.43621399176955	ncus	su1	e24ef436e02b4823ac5d5b1465a9401e
7	68	6.99588477366255	scus	su3	90d3d2fc7ecc430c9621ece335651a01
8	167	17.1810699588477	scus
9	55	5.65843621399177	weu	su4	be1d6d7ac9574cbc9a22cb8ee20f16fc
10	92	9.46502057613169				10007007
11	90	9.25925925925926				10007006
12	57	5.8641975308642					00000000-0000-0000-0000-000000000000

O basket implementa o algoritmo "Apriori" para mineração de conjunto de itens. Ele extrai todos os segmentos cuja cobertura do conjunto de registros esteja acima de um limite (padrão de 5%). Você pode ver que mais segmentos foram extraídos com segmentos semelhantes, como os segmentos 0 e 1 ou 2 e 3.

Ambos os plug-ins são poderosos e fáceis de usar. Sua limitação é que eles agrupam um único conjunto de registros de maneira não supervisionada e sem rótulos. Não fica claro se os padrões extraídos caracterizam o conjunto de registros selecionado, registros anômalos ou o conjunto de registros global.

Clustering da diferença entre dois conjuntos de registros

O plug-in diffpatterns() supera a limitação de autocluster e basket. Diffpatterns pega dois conjuntos de registros e extrai os segmentos principais que sejam diferentes. Um conjunto geralmente contém o conjunto de registros anômalos que está sendo investigado. Um é analisado por autocluster e basket. O outro conjunto contém o conjunto de registros de referência – a linha de base.

Na consulta a seguir, diffpatterns localiza clusters interessantes dentro dos dois minutos do pico, que são diferentes dos clusters dentro da linha de base. A janela da linha de base é definida como os oito minutos antes das 15h, quando o pico foi iniciado. Você estende por uma coluna binária (AB) e especifica se um registro específico pertence à linha de base ou ao conjunto anômalo. Diffpatterns implementa um algoritmo de aprendizagem supervisionado, em que os dois rótulos de classe foram gerados pelo anômalo versus o sinalizador da linha de base (AB).

Executar a consulta

let min_peak_t=datetime(2016-08-23 15:00);
let max_peak_t=datetime(2016-08-23 15:02);
let min_baseline_t=datetime(2016-08-23 14:50);
let max_baseline_t=datetime(2016-08-23 14:58); // Leave a gap between the baseline and the spike to avoid the transition zone.
let splitime=(max_baseline_t+min_peak_t)/2.0;
demo_clustering1
| where (PreciseTimeStamp between(min_baseline_t..max_baseline_t)) or
        (PreciseTimeStamp between(min_peak_t..max_peak_t))
| extend AB=iff(PreciseTimeStamp > splitime, 'Anomaly', 'Baseline')
| evaluate diffpatterns(AB, 'Anomaly', 'Baseline')

SegmentId	CountA	CountB	PercentA	PercentB	PercentDiffAB	Region	ScaleUnit	DeploymentId	Tracepoint
0	639	21	65.74	1.7	64.04	eau	su7	b5d1d4df547d4a04ac15885617edba57
1	167	544	17.18	44.16	26.97	scus
2	92	356	9.47	28,9	19.43				10007007
3	90	336	9,26	27.27	18.01				10007006
4	82	318	8.44	25.81	17.38	ncus	su1	e24ef436e02b4823ac5d5b1465a9401e
5	55	252	5.66	20.45	14,8	weu	su4	be1d6d7ac9574cbc9a22cb8ee20f16fc
6	57	204	5.86	16.56	10.69

O segmento mais dominante é o mesmo segmento que foi extraído pelo autocluster. Sua cobertura na janela anômala de dois minutos também é de 65,74%. No entanto, sua cobertura na janela da linha de base de oito minutos é de apenas 1,7%. A diferença é de 64,04%. Essa diferença parece estar relacionada ao pico anômalo. Para verificar essa suposição, a consulta a seguir divide o gráfico original nos registros que pertencem a esse segmento problemático e nos registros dos outros segmentos.

Executar a consulta

let min_t = toscalar(demo_clustering1 | summarize min(PreciseTimeStamp));  
let max_t = toscalar(demo_clustering1 | summarize max(PreciseTimeStamp));  
demo_clustering1
| extend seg = iff(Region == "eau" and ScaleUnit == "su7" and DeploymentId == "b5d1d4df547d4a04ac15885617edba57"
and ServiceHost == "e7f60c5d-4944-42b3-922a-92e98a8e7dec", "Problem", "Normal")
| make-series num=count() on PreciseTimeStamp from min_t to max_t step 10m by seg
| render timechart

Validando o gráfico de tempo do segmento diffpattern.

Esse gráfico nos permite ver que o pico na tarde de terça-feira foi devido a exceções desse segmento específico, descobertos usando o plug-in diffpatterns.

Resumo

Os plug-ins de Machine Learning são úteis para muitos cenários. O autocluster e o basket implementam um algoritmo de aprendizagem não supervisionado, e são fáceis de usar. Diffpatterns implementa um algoritmo de aprendizagem supervisionado e, embora mais complexo, ele é mais eficiente para extrair segmentos de diferenciação para RCA.

Esses plug-ins são usados interativamente em cenários ad hoc e em serviços automáticos de monitoramento quase em tempo real. A detecção de anomalias de séries temporais é seguida por um processo de diagnóstico. O processo é altamente otimizado para atender aos padrões de desempenho necessários.

Compartilhar via

Diagnóstico de anomalias para análise de causa raiz

Clustering de um único conjunto de registros

Usar autocluster() para clustering de conjunto de registros único

Usar basket() para clustering de conjunto de registros único

Clustering da diferença entre dois conjuntos de registros

Resumo

Comentários

Comentários

Recursos adicionais