Microsoft Fabric에서 자동 로깅

Microsoft Fabric의 Synapse 데이터 과학 자동 로깅을 포함하므로 학습 중에 기계 학습 모델의 매개 변수, 메트릭 및 항목을 자동으로 기록하는 데 필요한 코드 양을 크게 줄입니다. 이 기능은 MLflow 자동 로깅 기능을 확장하며 Microsoft Fabric 환경의 Synapse 데이터 과학 깊이 통합됩니다. 개발자와 데이터 과학자는 자동 로깅을 사용하여 수동 추적 없이도 다양한 모델 및 실험의 성능을 쉽게 추적하고 비교할 수 있습니다.

구성

자동 로깅은 학습 중인 기계 학습 모델의 입력 매개 변수, 출력 메트릭 및 출력 항목의 값을 자동으로 캡처하여 작동합니다. 그런 다음, 이 정보는 Microsoft Fabric 작업 영역에 기록됩니다. 여기서 MLflow API 또는 Microsoft Fabric 작업 영역의 해당 실험 및 모델 항목을 사용하여 액세스하고 시각화할 수 있습니다.

Notebook mlflow.autolog() 후크의 기본 구성은 다음과 같습니다.


mlflow.autolog(
    log_input_examples=False,
    log_model_signatures=True,
    log_models=True,
    disable=False,
    exclusive=True,
    disable_for_unsupported_versions=True,
    silent=True)

Synapse 데이터 과학 Notebook을 시작하면 Microsoft Fabric은 mlflow.autolog()를 호출하여 즉시 추적을 사용하도록 설정하고 해당 종속성을 로드합니다. Notebook에서 모델을 학습할 때 이 모델 정보는 MLflow를 사용하여 자동으로 추적됩니다. 이 구성은 실행할 import mlflow때 백그라운드에서 자동으로 수행됩니다.

지원되는 프레임워크

자동 로깅은 TensorFlow, PyTorch, Scikit-learn 및 XGBoost를 비롯한 다양한 기계 학습 프레임워크를 지원합니다. 사용자가 정의한 사용자 지정 메트릭뿐만 아니라 정확도, 손실 및 F1 점수를 비롯한 다양한 메트릭을 캡처할 수 있습니다. 캡처된 프레임워크 관련 속성에 대해 자세히 알아보려면 MLflow 설명서를 참조하세요.

로깅 동작 사용자 지정

로깅 동작을 사용자 지정하려면 mlflow.autolog() 구성을 사용할 수 있습니다. 이 구성은 모델 로깅을 사용하도록 설정하거나, 입력 샘플을 수집하거나, 경고를 구성하거나, 사용자 지정 콘텐츠에 대한 로깅을 사용하도록 설정하는 매개 변수를 제공합니다.

추가 콘텐츠 추적

MLflow를 사용하여 만든 실행으로 추가 메트릭, 매개 변수, 파일 및 메타데이터를 추적하도록 자동 로깅 구성을 업데이트할 수 있습니다.

방법:

  1. mlflow.autolog() 호출을 업데이트하고 설정합니다exclusive=False.

        mlflow.autolog(
        log_input_examples=False,
        log_model_signatures=True,
        log_models=True,
        disable=False,
        exclusive=False, # Update this property to enable custom logging
        disable_for_unsupported_versions=True,
        silent=True
    )
    
  2. MLflow 추적 API를 사용하여 추가 매개 변수메트릭을 기록합니다. 이렇게 하면 사용자 지정 메트릭 및 매개 변수를 캡처하는 동시에 자동 로깅을 사용하여 추가 속성을 캡처할 수 있습니다.

    예를 들면 다음과 같습니다.

    import mlflow
    mlflow.autolog(exclusive=False)
    
    with mlflow.start_run():
      mlflow.log_param("parameter name", "example value")
      # <add model training code here>
      mlflow.log_metric("metric name", 20)
    

Microsoft Fabric 자동 로깅 사용 안 함

작업 영역 설정을 사용하여 특정 전자 필기장 세션 또는 모든 전자 필기장에서 Microsoft Fabric 자동 로깅을 사용하지 않도록 설정할 수 있습니다.

참고 항목

자동 로깅을 사용하지 않도록 설정하면 사용자는 MLflow API를 사용하여 자체 매개 변수메트릭을 수동으로 기록해야 합니다.

Notebook 세션에 대한 자동 로깅 사용 안 함

Notebook 세션에서 Microsoft Fabric 자동 로깅을 사용하지 않도록 설정하려면 mlflow.autolog()를 호출하고 설정합니다disable=True.

예시:

import mlflow
mlflow.autolog(disable=True)

작업 영역에 대한 자동 로깅 사용 안 함

작업 영역 관리자는 작업 영역 전체의 모든 세션에 대해 Microsoft Fabric 자동 로깅을 사용하거나 사용하지 않도록 설정할 수 있습니다.

방법:

  1. Synapse 데이터 과학 작업 영역으로 이동하고 작업 영역 설정 선택합니다.

    Screenshot of the Data science item page.

  2. 데이터 엔지니어/과학 탭에서 Spark 컴퓨팅을 선택합니다. 여기에서 Synapse 데이터 과학 자동 로깅을 사용하거나 사용하지 않도록 설정하는 설정을 찾을 수 있습니다.

    Screenshot of the Data science Workspace setting for autologging.