Share via


자습서: Azure AI 서비스를 사용한 변칙 검색

이 자습서에서는 Azure AI 서비스를 사용하여 Azure Synapse Analytics의 데이터를 쉽게 보강하는 방법을 알아봅니다. Azure AI Anomaly Detector를 사용하여 변칙 현상을 찾습니다. Azure Synapse의 사용자는 변칙 검색을 위해 보강할 테이블을 선택하기만 하면 됩니다.

이 자습서에서는 다음 내용을 다룹니다.

  • 시계열 데이터가 포함된 Spark 테이블 데이터 세트를 가져오는 단계입니다.
  • Anomaly Detector를 사용하여 데이터를 보강하기 위해 Azure Synapse의 마법사 환경을 사용합니다.

Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.

필수 조건

Azure Portal에 로그인

Azure Portal에 로그인합니다.

Spark 테이블 만들기

이 자습서에는 Spark 테이블이 필요합니다.

PySpark Notebook을 만들고 다음 코드를 실행합니다.

from pyspark.sql.functions import lit

df = spark.createDataFrame([
    ("1972-01-01T00:00:00Z", 826.0),
    ("1972-02-01T00:00:00Z", 799.0),
    ("1972-03-01T00:00:00Z", 890.0),
    ("1972-04-01T00:00:00Z", 900.0),
    ("1972-05-01T00:00:00Z", 766.0),
    ("1972-06-01T00:00:00Z", 805.0),
    ("1972-07-01T00:00:00Z", 821.0),
    ("1972-08-01T00:00:00Z", 20000.0),
    ("1972-09-01T00:00:00Z", 883.0),
    ("1972-10-01T00:00:00Z", 898.0),
    ("1972-11-01T00:00:00Z", 957.0),
    ("1972-12-01T00:00:00Z", 924.0),
    ("1973-01-01T00:00:00Z", 881.0),
    ("1973-02-01T00:00:00Z", 837.0),
    ("1973-03-01T00:00:00Z", 9000.0)
], ["timestamp", "value"]).withColumn("group", lit("series1"))

df.write.mode("overwrite").saveAsTable("anomaly_detector_testing_data")

이제 anomaly_detector_testing_data라는 Spark 테이블이 기본 Spark 데이터베이스에 표시됩니다.

Azure AI 서비스 마법사 열기

  1. 이전 단계에서 만든 Spark 테이블을 마우스 오른쪽 단추로 클릭합니다. Machine Learning>모델을 사용하여 예측을 선택하여 마법사를 엽니다.

    Screenshot that shows selections for opening the scoring wizard.

  2. 구성 패널이 나타나고 미리 학습된 모델을 선택하라는 메시지가 표시됩니다. Anomaly Detector를 선택합니다.

    Screenshot that shows selection of Anomaly Detector as a model.

Anomaly Detector 구성

Anomaly Detector를 구성하려면 다음 세부 정보를 제공합니다.

  • Azure Cognitive Services 연결된 서비스: 필수 조건 단계의 일부로 Azure AI 서비스에 연결된 서비스를 만들었습니다. 여기서 이를 선택합니다.

  • 세분성: 데이터가 샘플링되는 속도입니다. monthly(매월)를 선택합니다.

  • 타임스탬프 열: 계열의 시간을 나타내는 열입니다. timestamp (string)(타임스탬프(문자열))를 선택합니다.

  • 타임스탬프 값 열: Timestamp column(타임스탬프 열)에 지정된 시간의 계열 값을 나타내는 열입니다. value (double)(값(double))를 선택합니다.

  • 열 그룹화: 계열을 그룹화하는 열입니다. 즉, 이 열에 동일한 값이 있는 모든 행은 하나의 시계열을 형성해야 합니다. group (string)(그룹(문자열))을 선택합니다.

완료되면 Open notebook(Notebook 열기)을 선택합니다. 그러면 Azure AI 서비스를 사용하여 변칙을 검색하는 PySpark 코드가 포함된 Notebook이 생성됩니다.

Screenshot that shows configuration details for Anomaly Detector.

노트북 실행

방금 연 Notebook은 SynapseML 라이브러리를 사용하여 Azure AI 서비스에 연결합니다. 사용자가 제공한 Azure AI 서비스 연결 서비스를 사용하면 비밀을 공개하지 않고도 이 환경에서 Azure AI 서비스를 안전하게 참조할 수 있습니다.

이제 모든 셀을 실행하여 변칙 검색을 수행할 수 있습니다. 모두 실행을 선택합니다. Azure AI 서비스의 Anomaly Detector에 대해 자세히 알아봅니다.

Screenshot that shows anomaly detection.

다음 단계