Multivariate anomaly detection in Microsoft Fabric – oversikt
Hva er flervariat avviksgjenkjenning for tidsserier? Univariate anomali detection, som er implementert av KQL-funksjonen series_decompose_anomalies(), gjør det mulig å overvåke og oppdage avvik i fordelingen av en enkelt variabel over tid. Multivariat avviksgjenkjenning er derimot en metode for å oppdage avvik i den felles fordelingen av flere variabler over tid. Denne metoden er nyttig når variablene er korrelert, og derfor kan kombinasjonen av verdiene deres på et bestemt tidspunkt være uregelmessig, mens verdien for hver variabel i seg selv er normal. Multivariate anomali deteksjon kan brukes i ulike programmer, for eksempel overvåke helsen til komplekse IoT-systemer, oppdage svindel i finansielle transaksjoner, og identifisere uvanlige mønstre i nettverkstrafikk.
Vurder for eksempel et system som overvåker ytelsen til en bilpark. Systemet samler inn data om ulike måledata, for eksempel hastighet, drivstofforbruk og motortemperatur. Ved å analysere disse måledataene sammen, kan systemet oppdage avvik som ikke ville vært tydelige ved å analysere hver metrikkverdi individuelt. På egen hånd kan en økning i drivstofforbruket skyldes ulike akseptable årsaker. En plutselig økning i drivstofforbruket kombinert med en reduksjon i motortemperaturen kan imidlertid indikere et problem med motoren, selv om hver metrikkverdi alene er innenfor normalområdet.
Multivariate anomali deteksjon i Fabric drar nytte av de kraftige Spark og Eventhouse motorer på toppen av en delt vedvarende lagringslag. De opprinnelige dataene kan inntas i et Eventhouse og vises i OneLake. Avviksregistreringsmodellen kan deretter læres opp ved hjelp av Spark-motoren, og prognoser for avvik på nye strømmedata kan gjøres i sanntid ved hjelp av Eventhouse-motoren. Sammenkoblingen av disse motorene som kan behandle de samme dataene i den delte lagringsplassen, gir en sømløs flyt av data fra inntak, via modellopplæring, til forutsigelse av avvik. Denne arbeidsflyten er enkel og kraftig for sanntidsovervåking og identifisering av avvik i komplekse systemer.
Denne løsningen er avhengig av følgende komponenter:
- Eventhouse: Dataene inntas i utgangspunktet til et Eventhouse, som er en databehandlingsmotor i sanntid som kan håndtere datastrømmer med høy gjennomstrømming.
- OneLake: Data fra Eventhouse vises i OneLake, som er et delt fast lagringslag som gir en enhetlig visning av dataene.
- Multivariate anomali deteksjon pakke: løsningen bruker tid-serien-anomali-detektor python pakke, implementere en avansert algoritme basert på en graf oppmerksomhet nettverk (GAT) som fanger korrelasjoner mellom ulike tidsserier og oppdager anomalier i sanntid. GAT-modellen er opplært i historiske data for å lære relasjonene mellom ulike tidsserier. Den opplærte modellen kan brukes til å forutsi avvik i nye strømmingsdata. Vær oppmerksom på at denne algoritmen er den som brukes i AI avviksdetektor-tjenesten som blir fjernet. Hvis du vil ha mer informasjon om algoritmen, kan du se bloggen og papiret.
- Spark Notebook: brukes til frakoblet opplæring avviksregistreringsmodellen på historiske data og lagrer den opplærte modellen i Fabrics MLflow-modellregister
- KQL-spørringssett: brukes til sanntidsprognose av avvik på innkommende data.