스튜디오 UI를 사용하여 코드 없는 AutoML 학습 설정

이 문서에서는 Azure Machine Learning 스튜디오에서 Azure Machine Learning 자동화 ML을 사용하여 코드 줄 없이도 AutoML 학습 작업을 설정하는 방법을 알아봅니다.

AutoML(자동화된 Machine Learning)은 특정 데이터에 사용할 가장 적합한 기계 학습 알고리즘을 선택하는 프로세스입니다. 이 프로세스를 통해 기계 학습 모델을 빠르게 생성할 수 있습니다. Azure Machine Learning이 자동화된 Machine Learning을 구현하는 방법을 자세히 알아보세요.

종단 간 예제를 보려면 자습서: AutoML-코드 없이 분류 모델 학습을 사용해보세요.

Python 코드 기반 환경의 경우 Azure Machine Learning SDK를 사용하여 자동화된 Machine Learning 실험을 구성하세요.

사전 요구 사항

시작

  1. Azure Machine Learning Studio에 로그인합니다.

  2. 구독 및 작업 영역을 선택합니다.

  3. 왼쪽 창으로 이동합니다. 작성 섹션 아래에서 자동화된 ML을 선택합니다.

Azure Machine Learning Studio 탐색 창

실험을 처음 수행하는 경우 자동화된 빈 목록과 설명서에 대한 링크가 표시됩니다.

그렇지 않으면 SDK로 생성된 실험을 포함하여 최근에 자동화된 ML 실험 목록이 표시됩니다.

실험 만들기 및 실행

  1. + 새 자동화된 ML 작업을 선택하고 양식을 채웁니다.

  2. 스토리지 컨테이너에서 데이터 자산을 선택하거나 새 데이터 자산을 만듭니다. 데이터 자산은 로컬 파일, 웹 URL, 데이터 저장소 또는 Azure 개방형 데이터 세트에서 만들 수 있습니다. 데이터 자산 만들기에 대해 자세히 알아봅니다.

    중요

    학습 데이터 요구 사항:

    • 데이터는 테이블 형식이어야 합니다.
    • 예측하려는 값(대상 열)이 데이터에 있어야 합니다.
    1. 로컬 컴퓨터의 파일에서 새 데이터 세트를 만들려면 +데이터 세트 생성을 선택한 다음 로컬 파일에서를 선택합니다.

    2. 기본 정보 양식에서 데이터 세트에 고유한 이름을 지정하고 선택적 설명을 입력합니다.

    3. 다음을 선택하여 데이터 저장소 및 파일 선택 양식을 엽니다. 이 양식에서 데이터 세트를 업로드할 위치 또는 작업 영역에서 자동으로 만들어지는 기본 스토리지 컨테이너를 선택하거나 실험에 사용하려는 스토리지 컨테이너를 선택합니다.

      1. 데이터가 가상 네트워크 뒤에 있는 경우 유효성 검사 건너뛰기 기능을 사용하도록 설정하여 작업 영역이 데이터에 액세스할 수 있도록 해야 합니다. 자세한 내용은 Azure 가상 네트워크에서 Azure Machine Learning 스튜디오 사용을 참조하세요.
    4. 데이터 세트에 대한 데이터 파일을 업로드하려면 찾아보기를 선택합니다.

    5. 설정 및 미리 보기 양식을 검토하여 정확히 지정했는지 확인합니다. 양식은 파일 형식에 따라 지능적으로 채워집니다.

      필드 Description
      파일 형식 파일에 저장된 데이터의 레이아웃 및 유형을 정의합니다.
      구분 기호 일반 텍스트 또는 다른 데이터 스트림에서 별도의 독립적인 지역 간의 경계를 지정하기 위한 하나 이상의 문자입니다.
      Encoding 데이터 세트를 읽는 데 사용할 문자 스키마 테이블을 식별합니다.
      열 머리글 데이터 세트의 헤더(있는 경우)가 처리되는 방법을 나타냅니다.
      행 건너뛰기 데이터 세트에서 건너뛴 행(있는 경우)의 수를 나타냅니다.

      다음을 선택합니다.

    6. 스키마 양식은 설정 및 미리 보기 양식의 선택 사항에 따라 지능적으로 채워집니다. 여기서는 각 열의 데이터 형식을 구성하고, 열 이름을 검토하고, 실험에 포함하지 않을 열을 선택합니다.

      다음을 선택합니다.

    7. 세부 정보 확인 양식은 이전에 기본 정보설정 및 미리 보기 양식에 채운 정보를 요약한 것입니다. 프로파일링을 사용하도록 설정된 컴퓨팅을 사용하여 데이터 세트에 대한 데이터 프로필을 만드는 옵션도 있습니다. 데이터 프로파일링에 대한 자세한 정보

      다음을 선택합니다.

  3. 새로 만든 데이터 세트가 표시되면 선택합니다. 또한 데이터 세트 및 샘플 통계 미리 보기도 볼 수 있습니다.

  4. 작업 구성 양식에서 새로 만들기를 선택하고 실험 이름에 Tutorial-automl-deploy를 입력합니다.

  5. 대상 열을 선택합니다. 이 열은 예측을 수행하려는 열입니다.

  6. 데이터 프로파일링 및 학습 작업에 대해 컴퓨팅 유형을 선택합니다. 컴퓨팅 클러스터 또는 컴퓨팅 인스턴스를 선택할 수 있습니다.

  7. 기존 컴퓨팅의 드롭다운 목록에서 컴퓨팅을 선택합니다. 새 컴퓨팅을 만들려면 8단계의 지침을 따릅니다.

  8. 새 컴퓨팅 만들기를 선택하여 이 실험에 대한 컴퓨팅 컨텍스트를 구성합니다.

    필드 Description
    컴퓨팅 이름 컴퓨팅 컨텍스트를 식별하는 고유한 이름을 입력합니다.
    가상 머신 우선 순위 우선 순위가 낮은 가상 머신은 더 저렴하지만 컴퓨팅 노드를 보장하지는 않습니다.
    가상 머신 유형 가상 머신 형식에 대해 CPU 또는 GPU를 선택합니다.
    가상 머신 크기 컴퓨팅에 사용할 가상 머신 크기를 선택합니다.
    최소 / 최대 노드 데이터를 프로파일링하려면 하나 이상의 노드를 지정해야 합니다. 컴퓨팅에 사용할 최대 노드 수를 입력합니다. 기본값은 AzureML Compute의 경우 6개 노드입니다.
    고급 설정 해당 설정을 사용하면 실험에 사용할 사용자 계정과 기존 가상 네트워크를 구성할 수 있습니다.

    만들기를 선택합니다. 새 컴퓨팅을 만드는 데 몇 분 정도 걸릴 수 있습니다.

    참고

    컴퓨팅 이름에는 선택하고 만드는 컴퓨팅에서 프로파일링을 사용하도록 설정했는지 여부가 표시됩니다. (자세한 내용은 데이터 프로파일링 섹션을 참조하세요.)

    다음을 선택합니다.

  9. 작업 유형 및 설정 양식에서 작업 유형(분류, 회귀 또는 예측)을 선택합니다. 자세한 내용은 지원되는 작업 형식을 참조하세요.

    1. 분류의 경우 딥 러닝을 사용할 수도 있습니다.

      딥 러닝을 사용하면 유효성 검사가 train_validation split으로 제한됩니다. 유효성 검사 옵션에 대해 자세히 알아보세요.

    2. 예측의 경우 다음을 수행할 수 있습니다.

      1. 딥 러닝 사용.

      2. ‘시간 열’ 선택: 이 열에는 사용될 시간 데이터가 포함됩니다.

      3. ‘예측 구간’ 선택: 모델이 얼마나 많은 미래의 시간 단위(분/시간/일/주/월/년)를 예측할 수 있는지 표시합니다. 나중에 예측하는 데 더 많은 모델이 필요할수록 정확도가 떨어집니다. 예측 및 예측 구간에 대해 자세히 알아보세요.

  10. (선택 사항) 추가 구성 설정 보기: 학습 작업을 더 효율적으로 제어하는 데 사용할 수 있는 추가 설정입니다. 그렇지 않으면 실험 선택 및 데이터를 기반으로 기본값이 적용됩니다.

    추가 구성 Description
    기본 메트릭 모델의 점수를 매기는 데 사용되는 기본 메트릭입니다. 모델 메트릭에 대해 자세히 알아보세요.
    최상의 모델에 대한 설명 권장되는 최상의 모델에 대한 설명을 표시하려면 사용 또는 사용하지 않음을 선택합니다.
    이 기능은 현재 특정 예측 알고리즘에서 사용할 수 없습니다.
    차단된 알고리즘 학습 작업에서 제외하려는 알고리즘을 선택합니다.

    알고리즘 허용은 SDK 실험을 위해서만 가능합니다.
    각 작업 형식에 지원되는 알고리즘을 참조하세요.
    종료 조건 다음 조건 중 하나가 충족되면 학습 작업이 중지됩니다.
    학습 작업 시간(시간) : 학습 작업을 실행할 수 있는 기간입니다.
    메트릭 점수 임계값: 모든 파이프라인에 대한 최소 메트릭 점수입니다. 이렇게 하면 도달하려는 목표 메트릭이 정의되어 있는 경우 학습 작업에 필요한 시간보다 더 많은 시간을 소비하지 않습니다.
    동시성 최대 동시 반복 횟수: 학습 작업에서 테스트할 최대 파이프라인(반복) 수입니다. 작업이 지정된 반복 횟수를 초과하여 실행되지 않습니다. 자동화된 ML이 클러스터에서 여러 자식 작업을 수행하는 방법을 자세히 알아보세요.
  11. (선택사항) 기능화 설정 보기: 추가 구성 설정 양식에서 자동 기능화를 사용하도록 선택하면 기본 기능화 기술이 적용됩니다. 기능화 설정 보기에서 기본값을 변경하고 적절하게 사용자 지정할 수 있습니다. 기능화를 사용자 지정하는 방법을 알아보세요.

    기능화 설정이 호출되어 있는 작업 형식 대화 상자 선택을 보여 주는 스크린샷.

  12. [선택 사항] 유효성 검사 및 테스트 양식을 사용하여 다음을 수행할 수 있습니다.

    1. 학습 작업에 사용할 유효성 검사 유형을 지정합니다. 교차 유효성 검사에 대해 자세히 알아보세요.

      1. 예측 작업은 k겹 교차 유효성 검사만 지원합니다.
    2. 테스트 데이터 세트(미리 보기)를 제공하여 실험이 끝날 때 자동화된 ML이 생성하는 권장 모델을 평가합니다. 테스트 데이터를 제공하면 실험이 끝날 때 테스트 작업이 자동으로 트리거됩니다. 이 테스트 작업은 자동화된 ML에서 권장하는 최상의 모델에 대한 작업일 뿐입니다. 원격 테스트 작업의 결과를 가져오는 방법을 알아봅니다.

      중요

      테스트 데이터 세트를 제공하여 생성된 모델을 평가하는 기능은 미리 보기로 제공됩니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.

      • 테스트 데이터는 권장 모델의 테스트 작업 결과에 대해 편견을 갖지 않도록 학습 및 유효성 검사와는 별도로 간주됩니다. 모델 유효성 검사 중 바이어스에 대해 자세히 알아봅니다.
      • 고유한 테스트 데이터 세트를 제공하거나 학습 데이터 세트의 백분율을 사용하도록 선택할 수 있습니다. 테스트 데이터는 Azure Machine Learning TabularDataset 형식이어야 합니다.
      • 테스트 데이터 세트의 스키마는 학습 데이터 세트와 일치해야 합니다. 대상 열은 선택 사항이지만 대상 열이 표시되지 않으면 테스트 메트릭이 계산되지 않습니다.
      • 테스트 데이터 세트는 학습 데이터 세트 또는 유효성 검사 데이터 세트와 같으면 안 됩니다.
      • 예측 작업은 학습/테스트 분할을 지원하지 않습니다.

      유효성 검사 데이터 및 테스트 데이터를 선택하는 양식을 보여 주는 스크린샷

기능화 사용자 지정

기능화 양식에서 자동 기능화를 사용/사용하지 않을 수 있으며, 실험에 대한 자동 기능화 설정을 사용자 지정할 수 있습니다. 이 양식을 열려면 실험 만들기 및 실행 섹션에 나와 있는 10단계를 참조하세요.

다음 테이블은 현재 스튜디오를 통해 사용할 수 있는 사용자 지정을 요약해 보여 줍니다.

사용자 지정
Included 학습에 포함할 열을 지정합니다.
기능 유형 선택된 열에 대한 값 형식을 변경합니다.
다음으로 대체 데이터에서 누락된 값을 어떤 값으로 대체할지 선택합니다.

Azure Machine Learning 스튜디오 사용자 지정 기능화

실험 실행 및 결과 보기

마침을 선택하여 실험을 실행합니다. 실험 준비 프로세스는 최대 10분 정도 걸릴 수 있습니다. 각 파이프라인에서 실행을 완료하는 데 학습 작업에 2-3분 더 걸릴 수 있습니다.

참고

자동화된 ML이 채택하는 알고리즘에는 내재된 무작위성이 있어서 권장된 모델의 최종 메트릭 점수(예: 정확도)에 약간의 변동을 일으킬 수 있습니다. 또한 자동화된 ML은 필요한 경우 학습-테스트 분할, 학습-유효성 검사 분할 또는 교차 유효성 검사와 같은 데이터에 대한 작업을 수행합니다. 따라서 동일한 구성 설정과 기본 메트릭을 사용하여 여러 번 실험을 실행한 경우, 해당 요인으로 인해 각 실험의 최종 메트릭 점수에 변동이 있을 가능성이 높습니다.

실험 세부 정보 보기

작업 세부 정보 화면에서 세부 정보 탭이 열립니다. 이 화면은 작업 번호 옆 상단의 상태 표시줄을 포함하여 실험 작업의 요약을 보여 줍니다.

모델 탭에는 메트릭 점수를 기준으로 정렬하여 만든 모델 목록이 있습니다. 기본적으로 선택한 메트릭에 따라 가장 높은 점수를 획득한 모델이 목록 맨 위에 표시됩니다. 학습 작업에서 더 많은 모델을 시도하면 모델이 목록에 추가됩니다. 이 방법을 사용하여 지금까지 생성된 모델에 대한 메트릭을 신속하게 비교할 수 있습니다.

작업 세부 정보

학습 작업 세부 정보 보기

완료된 모델을 드릴다운하여 학습 작업 세부 정보를 확인합니다. 모델 탭에서 모델 요약 및 선택한 모델에 사용된 하이퍼 매개 변수 등의 세부 정보를 봅니다.

하이퍼 매개 변수 세부 정보

메트릭 탭에서 모델 특정 성능 메트릭 차트도 볼 수 있습니다. 차트에 대해 자세히 알아보세요.

반복 세부 정보

데이터 변환 탭에서 이 모델을 생성하기 위해 적용된 데이터 전처리, 기능 엔지니어링, 크기 조정 기술 및 기계 학습 알고리즘에 대한 다이어그램을 볼 수 있습니다.

중요

데이터 변환 탭은 미리 보기로 제공됩니다. 이 기능은 실험적으로 간주되어야 하며 언제든지 변경할 수 있습니다.

데이터 변환

원격 테스트 작업 결과 보기(미리 보기)

유효성 검사 및 테스트 양식에서 테스트 데이터 세트를 지정하거나 실험 설정 중에 학습/테스트 분할을 선택한 경우 자동화된 ML은 기본적으로 권장 모델을 자동으로 테스트합니다. 결과적으로 자동화된 ML은 테스트 메트릭을 계산하여 권장 모델 및 해당 예측의 품질을 결정합니다.

중요

테스트 데이터 세트를 사용한 모델 테스트를 통해 생성된 모델을 평가하는 기능은 미리 보기입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.

권장 모델의 테스트 작업 메트릭을 보려면,

  1. 모델 페이지로 이동하여 최상의 모델을 선택합니다.
  2. 테스트 결과(미리 보기) 탭을 선택합니다.
  3. 원하는 작업을 선택하고 메트릭 탭을 확인합니다. 자동으로 테스트되는 권장 모델의 테스트 결과 탭

테스트 메트릭을 계산하는 데 사용되는 테스트 예측을 보려면

  1. 페이지 아래쪽으로 이동하고 출력 데이터 세트 아래의 링크를 선택하여 데이터 세트를 엽니다.
  2. 데이터 세트 페이지에서 탐색 탭을 선택하여 테스트 작업의 예측을 봅니다.
    1. 또는 출력+로그 탭에서 예측 파일을 보고 다운로드할 수 있으며, 예측 폴더를 확장하여 predicted.csv 파일을 찾을 수도 있습니다.

또는 출력+로그 탭에서 예측 파일을 보고 다운로드할 수 있으며, 예측 폴더를 확장하여 predictions.csv 파일을 찾을 수도 있습니다.

모델 테스트 작업은 predictions.csv 파일을 생성하여 작업 영역을 사용하여 만든 기본 데이터 저장소에 저장합니다. 이 데이터 저장소는 동일한 구독의 모든 사용자에게 표시됩니다. 테스트 작업에 사용되거나 테스트 작업에 의해 만들어진 정보가 비공개로 유지되어야 하는 경우 테스트 작업은 시나리오에 권장되지 않습니다.

기존의 자동화된 ML 모델 테스트(미리 보기)

중요

테스트 데이터 세트를 사용한 모델 테스트를 통해 생성된 모델을 평가하는 기능은 미리 보기입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.

실험을 완료한 후 자동화된 ML에서 생성하는 모델을 테스트할 수 있습니다. 권장되는 모델이 아닌 다른 자동화된 ML 생성 모델을 테스트하려는 경우 다음 단계에 따라 이 작업을 수행할 수 있습니다.

  1. 기존의 자동화된 ML 실험 작업을 선택합니다.

  2. 작업의 모델 탭으로 이동하고 테스트하려는 완료된 모델을 선택합니다.

  3. 모델 세부 정보 페이지에서 테스트 모델(미리 보기) 단추를 선택하여 테스트 모델 창을 엽니다.

  4. 테스트 모델 창에서 테스트 작업에 사용할 컴퓨팅 클러스터 및 테스트 데이터 세트를 선택합니다.

  5. 테스트 단추를 선택합니다. 테스트 데이터 세트의 스키마는 학습 데이터 세트와 일치해야 하지만 대상 열은 선택 사항입니다.

  6. 모델 테스트 작업을 성공적으로 만들면 세부 정보 페이지에 성공 메시지가 표시됩니다. 테스트 결과 탭을 선택하여 작업 진행률을 확인합니다.

  7. 테스트 작업의 결과를 보려면 세부 정보 페이지를 열고 원격 테스트 작업의 결과 보기 섹션의 단계를 따릅니다.

    테스트 모델 양식

모델 설명(미리 보기)

모델을 더 잘 이해하려면 모델 설명 대시보드를 사용하여 모델의 예측에 영향을 주는 데이터 기능(원시 또는 엔지니어링)을 확인할 수 있습니다.

모델 설명 대시보드는 예측 및 설명과 함께 학습된 모델의 전체적인 분석을 제공합니다. 또한 개별 데이터 포인트와 개별 기능 중요도를 자세히 살펴볼 수 있습니다. 설명 대시보드 시각화에 대해 자세히 알아보세요.

특정 모델에 대한 설명을 보려면 다음을 수행합니다.

  1. 모델 탭에서 살펴볼 모델을 선택합니다.

  2. 모델 설명 단추를 선택하고 설명을 생성하는 데 사용할 수 있는 컴퓨팅을 제공합니다.

  3. 상태는 자식 작업 탭을 확인합니다.

  4. 완료되면 설명 대시보드가 포함된 설명(미리 보기) 탭으로 이동합니다.

    모델 설명 대시보드

작업 편집 및 제출(미리 보기)

중요

기존 실험을 기반으로 하는 새 실험을 복사, 편집, 제출하는 기능은 미리 보기 기능입니다. 이 기능은 실험적인 미리 보기 기능으로, 언제든지 변경할 수 있습니다.

기존 실험의 설정에 따라 새 실험을 만들려는 시나리오에서 자동화된 ML은 스튜디오 UI의 편집 및 제출 단추를 사용하여 해당 작업을 수행할 수 있는 옵션을 제공합니다.

이 기능은 스튜디오 UI에서 시작된 실험으로 제한되며, 새 실험의 데이터 스키마가 원래 실험과 일치해야 합니다.

편집 및 제출 단추는 데이터, 컴퓨팅, 실험 설정이 미리 채워진 새 자동화된 ML 작업 만들기 마법사를 엽니다. 각 양식을 살펴보고 새 실험에 필요한 대로 선택 항목을 편집할 수 있습니다.

모델 배포

최상의 모델이 있으면 이제 새 데이터를 예측하기 위해 이 모델을 웹 서비스로 배포합니다.

Python SDK를 사용한 automl 패키지를 통해 생성된 모델을 배포하려면 작업 영역에 모델을 등록해야 합니다.

모델을 등록한 후에는 왼쪽 창에서 모델을 선택하여 스튜디오에서 찾을 수 있습니다. 모델을 열면 화면 맨 위에 있는 배포 단추를 선택하고 모델 배포 섹션의 2 단계에 설명된 지침을 따를 수 있습니다.

자동화된 ML을 사용하면 코드를 작성하지 않고도 모델을 배포할 수 있습니다.

  1. 두 가지 배포 옵션은 다음과 같습니다.

    • 옵션 1: 정의한 메트릭 조건에 따라 최상의 모델을 배포합니다.

      1. 실험이 완료되면 화면 상단에서 작업 1을 선택하여 부모 작업 페이지로 이동합니다.
      2. 최상의 모델 요약 섹션에 나열된 모델을 선택합니다.
      3. 창의 왼쪽 위에서 배포를 선택합니다.
    • 옵션 2: 이 실험에서 특정 모델을 반복해 배포하려면 다음을 수행합니다.

      1. 모델 탭에서 원하는 모델을 선택합니다.
      2. 창의 왼쪽 위에서 배포를 선택합니다.
  2. 모델 배포 창을 채웁니다.

    필드
    속성 배포에 대한 고유한 이름을 입력합니다.
    Description 이 배포의 용도를 더 잘 식별할 수 있는 설명을 입력합니다.
    컴퓨팅 형식 배포하려는 엔드포인트 유형으로 AKS(Azure Kubernetes Service) 또는 ACI(Azure Container Instance)를 선택합니다.
    컴퓨팅 이름 AKS에만 적용: 배포하려는 AKS 클러스터의 이름을 선택합니다.
    인증 사용 토큰 기반 또는 키 기반 인증을 허용할지를 선택합니다.
    사용자 지정 배포 자산 사용 사용자 고유의 채점 스크립트 및 환경 파일을 업로드하려면 이 기능을 사용하도록 설정합니다. 그렇지 않으면 기본적으로 자동화된 ML에서 이러한 자산을 제공합니다. 점수 매기기 스크립트에 대해 자세히 알아보세요.

    중요

    파일 이름은 32자 미만이어야 하며 영숫자로 시작하고 끝나야 합니다. 대시, 밑줄, 점 및 영숫자를 포함할 수 있습니다. 공백은 허용되지 않습니다.

    고급 메뉴에서는 데이터 수집 및 리소스 사용률 설정과 같은 기본 배포 기능을 제공합니다. 이러한 기본값을 재정의하려면 이 메뉴에서 해당 작업을 수행합니다.

  3. 배포를 선택합니다. 배포가 완료되는 데 약 20분 정도 걸릴 수 있습니다. 배포가 시작되면 모델 요약 탭이 나타납니다. 배포 상태 섹션에서 배포 진행률을 확인하세요.

이제 예측을 생성하는 운영 웹 서비스가 있습니다! Power BI의 기본 제공 Azure Machine Learning 지원에서 서비스를 쿼리하여 예측을 테스트할 수 있습니다.

다음 단계