데이터 전처리 및 기능화 구성

완료됨

AutoML(자동화된 Machine Learning) 실험을 실행하려면 데이터를 준비해야 합니다. 분류 모델을 학습하려면 학습 데이터만 제공하면 됩니다.

데이터를 수집한 후에는 Azure Machine Learning에서 데이터 자산을 만들어야 합니다. AutoML이 데이터를 읽는 방법을 이해하려면 데이터의 스키마를 포함하는 MLTable 데이터 자산을 만들어야 합니다.

데이터가 MLTable 파일과 함께 폴더에 저장되면 MLTable 데이터 자산을 만들 수 있습니다. 데이터 자산을 만든 경우 다음 코드를 사용하여 입력으로 지정할 수 있습니다.

from azure.ai.ml.constants import AssetTypes
from azure.ai.ml import Input

my_training_data_input = Input(type=AssetTypes.MLTABLE, path="azureml:input-data-automl:1")

데이터 자산을 만든 후에는 AutoML 실험을 구성할 수 있습니다. AutoML이 분류 모델을 학습하기 전에 데이터에 전처리 변환을 적용할 수 있습니다.

크기 조정 및 정규화 이해

AutoML은 숫자 데이터에 크기 조정 및 정규화를 자동으로 적용하여 대규모 기능이 학습을 좌지우지하지 않도록 합니다. AutoML 실험을 수행하는 동안 여러 크기 조정 또는 정규화 기술이 적용됩니다.

옵션 기능화 구성

AutoML에서 다음과 같은 전처리 변환을 적용하도록 선택할 수 있습니다.

  • 학습 데이터 세트에서 null 값을 제거하기 위한 값 처리 누락.
  • 범주 기능을 숫자 지표로 변환하기 위한 범주별 인코딩.
  • 카디널리티가 높은 기능(예: 레코드 ID) 삭제.
  • 기능 엔지니어링(예: DateTime 기능에서 개별 날짜 부분 파생)

기본적으로 AutoML은 데이터에 대한 기능화를 수행합니다. 데이터를 변환하지 않으려면 비활성화할 수 있습니다.

통합 기능화 함수를 사용하려면 사용자 지정할 수 있습니다. 예를 들어 특정 기능에 사용해야 하는 대체 방식을 지정할 수 있습니다.

AutoML 실험이 완료되면 적용된 크기 조정 및 정규화 방식을 검토할 수 있습니다. AutoML이 값 누락 또는 클래스 불균형 여부와 같은 데이터 관련 문제를 감지한 경우에도 알림을 받게 됩니다.