Multivariat anomalidetektion med isolationsskov

Denne artikel viser, hvordan du kan bruge SynapseML på Apache Spark til detektion af multivariate anomalier. Multivariat anomalidetektion muliggør detektion af anomalier mellem mange variable eller tidsserier, idet alle indbyrdes korrelationer og afhængigheder mellem de forskellige variable tages i betragtning. I dette scenarie bruger vi SynapseML til at træne en Isolation Forest-model til multivariat anomalidetektion, og derefter bruger vi den trænede model til at udlede multivariate anomalier i et datasæt med syntetiske målinger fra tre IoT-sensorer.

For at lære mere om Isolation Forest-modellen, se den oprindelige artikel af Liu et al..

Forudsætninger

Vedhæft din notesbog til et lakehouse. I venstre side skal du vælge Tilføj for at tilføje et eksisterende lakehouse eller oprette et lakehouse.

Biblioteksimport

from IPython import get_ipython
from IPython.terminal.interactiveshell import TerminalInteractiveShell
import uuid
import mlflow

from pyspark.sql import functions as F
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.types import *
from pyspark.ml import Pipeline

from synapse.ml.isolationforest import *

from synapse.ml.explainers import *

%matplotlib inline

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

if running_on_synapse():
    shell = TerminalInteractiveShell.instance()
    shell.define_macro("foo", """a,b=10,20""")

Inputdata

# Table inputs
timestampColumn = "timestamp"  # str: the name of the timestamp column in the table
inputCols = [
    "sensor_1",
    "sensor_2",
    "sensor_3",
]  # list(str): the names of the input variables

# Training Start time, and number of days to use for training:
trainingStartTime = (
    "2022-02-24T06:00:00Z"  # datetime: datetime for when to start the training
)
trainingEndTime = (
    "2022-03-08T23:55:00Z"  # datetime: datetime for when to end the training
)
inferenceStartTime = (
    "2022-03-09T09:30:00Z"  # datetime: datetime for when to start the training
)
inferenceEndTime = (
    "2022-03-20T23:55:00Z"  # datetime: datetime for when to end the training
)

# Isolation Forest parameters
contamination = 0.021
num_estimators = 100
max_samples = 256
max_features = 1.0

Læs data

df = (
    spark.read.format("csv")
    .option("header", "true")
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/generated_sample_mvad_data.csv"
    )
)

Cast columns til passende datatyper

df = (
    df.orderBy(timestampColumn)
    .withColumn("timestamp", F.date_format(timestampColumn, "yyyy-MM-dd'T'HH:mm:ss'Z'"))
    .withColumn("sensor_1", F.col("sensor_1").cast(DoubleType()))
    .withColumn("sensor_2", F.col("sensor_2").cast(DoubleType()))
    .withColumn("sensor_3", F.col("sensor_3").cast(DoubleType()))
    .drop("_c5")
)

display(df)

Forberedelse af træningsdata

# filter to data with timestamps within the training window
df_train = df.filter(
    (F.col(timestampColumn) >= trainingStartTime)
    & (F.col(timestampColumn) <= trainingEndTime)
)
display(df_train)

Testdataforberedelse

# filter to data with timestamps within the inference window
df_test = df.filter(
    (F.col(timestampColumn) >= inferenceStartTime)
    & (F.col(timestampColumn) <= inferenceEndTime)
)
display(df_test)

Train Isolation Forest-modellen

isolationForest = (
    IsolationForest()
    .setNumEstimators(num_estimators)
    .setBootstrap(False)
    .setMaxSamples(max_samples)
    .setMaxFeatures(max_features)
    .setFeaturesCol("features")
    .setPredictionCol("predictedLabel")
    .setScoreCol("outlierScore")
    .setContamination(contamination)
    .setContaminationError(0.01 * contamination)
    .setRandomSeed(1)
)

Dernæst opretter vi en ML-pipeline til at træne Isolation Forest-modellen. Vi demonstrerer også, hvordan man opretter et MLflow-eksperiment og registrerer den trænede model.

MLflow-modelregistrering er strengt kun påkrævet, hvis man senere får adgang til den trænede model. For at træne modellen og udføre inferenser i samme notesbog er modelobjektmodellen tilstrækkelig.

va = VectorAssembler(inputCols=inputCols, outputCol="features")
pipeline = Pipeline(stages=[va, isolationForest])
model = pipeline.fit(df_train)

Udfør inferenser

Indlæs den trænede isolationsskovmodel

Udfør inferenser

df_test_pred = model.transform(df_test)
display(df_test_pred)

Forudlavet anomalidetektor

Azure AI Anomaly Detector

Uregelmæssighedsstatus for seneste punkt: Genererer en model ved hjælp af foregående punkter og bestemmer, om det seneste punkt er unormalt (Scala, Python)
Find uregelmæssigheder: Genererer en model ved hjælp af en hel serie og finder uregelmæssigheder i serien (Scala, Python)

Feedback

Var denne side nyttig?

Last updated on 2026-02-21

Multivariat anomalidetektion med isolationsskov

Forudsætninger

Biblioteksimport

Inputdata

Læs data

Forberedelse af træningsdata

Testdataforberedelse

Train Isolation Forest-modellen

Udfør inferenser

Forudlavet anomalidetektor

Relateret indhold

Feedback

Yderligere ressourcer