Многовариантное обнаружение аномалий с лесом изоляции

2024-01-18

В этой статье показано, как использовать SynapseML в Apache Spark для многовариантного обнаружения аномалий. Многовариантное обнаружение аномалий позволяет обнаруживать аномалии среди многих переменных или таймерий, учитывая все межконференции и зависимости между разными переменными. В этом сценарии мы используем SynapseML для обучения модели изоляции леса изоляции для многовариантного обнаружения аномалий, а затем мы используем обученную модель для вывода многовариантных аномалий в наборе данных, содержащего искусственные измерения из трех датчиков Интернета вещей.

Дополнительные сведения о модели изоляции леса см. в исходном документе Liu et al..

Необходимые компоненты

Подключите записную книжку к lakehouse. В левой части нажмите кнопку "Добавить ", чтобы добавить существующее озеро или создать озеро.

Импорт библиотеки

from IPython import get_ipython
from IPython.terminal.interactiveshell import TerminalInteractiveShell
import uuid
import mlflow

from pyspark.sql import functions as F
from pyspark.ml.feature import VectorAssembler
from pyspark.sql.types import *
from pyspark.ml import Pipeline

from synapse.ml.isolationforest import *

from synapse.ml.explainers import *

%matplotlib inline

from pyspark.sql import SparkSession

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

from synapse.ml.core.platform import *

if running_on_synapse():
    shell = TerminalInteractiveShell.instance()
    shell.define_macro("foo", """a,b=10,20""")

Входные данные

# Table inputs
timestampColumn = "timestamp"  # str: the name of the timestamp column in the table
inputCols = [
    "sensor_1",
    "sensor_2",
    "sensor_3",
]  # list(str): the names of the input variables

# Training Start time, and number of days to use for training:
trainingStartTime = (
    "2022-02-24T06:00:00Z"  # datetime: datetime for when to start the training
)
trainingEndTime = (
    "2022-03-08T23:55:00Z"  # datetime: datetime for when to end the training
)
inferenceStartTime = (
    "2022-03-09T09:30:00Z"  # datetime: datetime for when to start the training
)
inferenceEndTime = (
    "2022-03-20T23:55:00Z"  # datetime: datetime for when to end the training
)

# Isolation Forest parameters
contamination = 0.021
num_estimators = 100
max_samples = 256
max_features = 1.0

Чтение данных

df = (
    spark.read.format("csv")
    .option("header", "true")
    .load(
        "wasbs://publicwasb@mmlspark.blob.core.windows.net/generated_sample_mvad_data.csv"
    )
)

приведение столбцов к соответствующим типам данных

df = (
    df.orderBy(timestampColumn)
    .withColumn("timestamp", F.date_format(timestampColumn, "yyyy-MM-dd'T'HH:mm:ss'Z'"))
    .withColumn("sensor_1", F.col("sensor_1").cast(DoubleType()))
    .withColumn("sensor_2", F.col("sensor_2").cast(DoubleType()))
    .withColumn("sensor_3", F.col("sensor_3").cast(DoubleType()))
    .drop("_c5")
)

display(df)

Подготовка данных для обучения

# filter to data with timestamps within the training window
df_train = df.filter(
    (F.col(timestampColumn) >= trainingStartTime)
    & (F.col(timestampColumn) <= trainingEndTime)
)
display(df_train)

Тестирование подготовки данных

# filter to data with timestamps within the inference window
df_test = df.filter(
    (F.col(timestampColumn) >= inferenceStartTime)
    & (F.col(timestampColumn) <= inferenceEndTime)
)
display(df_test)

Обучение модели леса изоляции

isolationForest = (
    IsolationForest()
    .setNumEstimators(num_estimators)
    .setBootstrap(False)
    .setMaxSamples(max_samples)
    .setMaxFeatures(max_features)
    .setFeaturesCol("features")
    .setPredictionCol("predictedLabel")
    .setScoreCol("outlierScore")
    .setContamination(contamination)
    .setContaminationError(0.01 * contamination)
    .setRandomSeed(1)
)

Затем мы создадим конвейер машинного обучения для обучения модели "Лес изоляции". Мы также покажем, как создать эксперимент MLflow и зарегистрировать обученную модель.

Регистрация модели MLflow строго требуется только при доступе к обученной модели позже. Для обучения модели и выполнения вывода в одной записной книжке достаточно объектной модели модели.

va = VectorAssembler(inputCols=inputCols, outputCol="features")
pipeline = Pipeline(stages=[va, isolationForest])
model = pipeline.fit(df_train)

Выполнение вывода

Загрузка обученной модели леса изоляции

Выполнение вывода

df_test_pred = model.transform(df_test)
display(df_test_pred)

Предварительно подготовленные Детектор аномалий

Azure AI Детектор аномалий

Состояние аномалии последней точки: создает модель с помощью предыдущих точек и определяет, является ли последняя точка аномальной (Scala, Python)
Поиск аномалий: создает модель с помощью всей серии и находит аномалии в серии (Scala, Python)

Поделиться через

Многовариантное обнаружение аномалий с лесом изоляции

Необходимые компоненты

Импорт библиотеки

Входные данные

Чтение данных

Подготовка данных для обучения

Тестирование подготовки данных

Обучение модели леса изоляции

Выполнение вывода

Предварительно подготовленные Детектор аномалий

Связанный контент

Обратная связь

Дополнительные ресурсы