Vícevariát detekce anomálií s využitím izolované doménové struktury

2024-01-18

Tento článek ukazuje, jak můžete použít SynapseML v Apache Sparku k detekci anomálií s více proměnnými. Detekce multivariátních anomálií umožňuje detekci anomálií mezi mnoha proměnnými nebo časovými řadami s ohledem na všechny vzájemné korelace a závislosti mezi různými proměnnými. V tomto scénáři použijeme SynapseML k trénování modelu izolované doménové struktury pro detekci vícevariatických anomálií a pak použijeme k trénování modelu odvození vícevariatických anomálií v datové sadě obsahující syntetická měření ze tří senzorů IoT.

Další informace o modelu Izolované doménové struktury najdete v původním dokumentu od Liu et al..

Požadavky

Připojte poznámkový blok k jezeru. Na levé straně vyberte Přidat a přidejte existující jezerní dům nebo vytvořte jezero.

Importy knihoven

from IPython import get_ipython
from IPython.terminal.interactiveshell import TerminalInteractiveShell
import uuid
import mlflow

from pyspark.sql import functions as F
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.types import *
from pyspark.ml import Pipeline

from synapse.ml.isolationforest import *

from synapse.ml.explainers import *

%matplotlib inline

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

if running_on_synapse():
    shell = TerminalInteractiveShell.instance()
    shell.define_macro("foo", """a,b=10,20""")

Vstupní data

# Table inputs
timestampColumn = "timestamp"  # str: the name of the timestamp column in the table
inputCols = [
    "sensor_1",
    "sensor_2",
    "sensor_3",
]  # list(str): the names of the input variables

# Training Start time, and number of days to use for training:
trainingStartTime = (
    "2022-02-24T06:00:00Z"  # datetime: datetime for when to start the training
)
trainingEndTime = (
    "2022-03-08T23:55:00Z"  # datetime: datetime for when to end the training
)
inferenceStartTime = (
    "2022-03-09T09:30:00Z"  # datetime: datetime for when to start the training
)
inferenceEndTime = (
    "2022-03-20T23:55:00Z"  # datetime: datetime for when to end the training
)

# Isolation Forest parameters
contamination = 0.021
num_estimators = 100
max_samples = 256
max_features = 1.0

Čtení dat

df = (
    spark.read.format("csv")
    .option("header", "true")
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/generated_sample_mvad_data.csv"
    )
)

přetypování sloupců na odpovídající datové typy

df = (
    df.orderBy(timestampColumn)
    .withColumn("timestamp", F.date_format(timestampColumn, "yyyy-MM-dd'T'HH:mm:ss'Z'"))
    .withColumn("sensor_1", F.col("sensor_1").cast(DoubleType()))
    .withColumn("sensor_2", F.col("sensor_2").cast(DoubleType()))
    .withColumn("sensor_3", F.col("sensor_3").cast(DoubleType()))
    .drop("_c5")
)

display(df)

Příprava trénovacích dat

# filter to data with timestamps within the training window
df_train = df.filter(
    (F.col(timestampColumn) >= trainingStartTime)
    & (F.col(timestampColumn) <= trainingEndTime)
)
display(df_train)

Příprava testovacích dat

# filter to data with timestamps within the inference window
df_test = df.filter(
    (F.col(timestampColumn) >= inferenceStartTime)
    & (F.col(timestampColumn) <= inferenceEndTime)
)
display(df_test)

Trénování modelu doménové struktury izolace

isolationForest = (
    IsolationForest()
    .setNumEstimators(num_estimators)
    .setBootstrap(False)
    .setMaxSamples(max_samples)
    .setMaxFeatures(max_features)
    .setFeaturesCol("features")
    .setPredictionCol("predictedLabel")
    .setScoreCol("outlierScore")
    .setContamination(contamination)
    .setContaminationError(0.01 * contamination)
    .setRandomSeed(1)
)

Dále vytvoříme kanál ML pro trénování modelu izolované doménové struktury. Ukážeme si také, jak vytvořit experiment MLflow a zaregistrovat natrénovaný model.

Registrace modelu MLflow se vyžaduje pouze v případě, že se k natrénovanýmu modelu přistupuje později. Pro trénování modelu a provádění odvozování ve stejném poznámkovém bloku stačí objektový model modelu.

va = VectorAssembler(inputCols=inputCols, outputCol="features")
pipeline = Pipeline(stages=[va, isolationForest])
model = pipeline.fit(df_train)

Provádění odvozování

Načtení natrénovaného modelu doménové struktury izolace

Provádění odvozování

df_test_pred = model.transform(df_test)
display(df_test_pred)

Předpřipravené Detektor anomálií

Azure AI Detektor anomálií

Stav anomálií nejnovějšího bodu: vygeneruje model pomocí předchozích bodů a určuje, jestli je nejnovější bod neobvyklý (Scala, Python)
Vyhledání anomálií: Vygeneruje model pomocí celé řady a vyhledá anomálie v řadě (Scala, Python).

Sdílet prostřednictvím

Vícevariát detekce anomálií s využitím izolované doménové struktury

Požadavky

Importy knihoven

Vstupní data

Čtení dat

Příprava trénovacích dat

Příprava testovacích dat

Trénování modelu doménové struktury izolace

Provádění odvozování

Předpřipravené Detektor anomálií

Související obsah

Váš názor

Další materiály