다음을 통해 공유


자습서: Azure Machine Learning 스튜디오에서 코드가 없는 AutoML을 사용하여 분류 모델 학습

이 자습서에서는 Azure Machine Learning 스튜디오 Azure Machine Learning을 사용하여 코드 없는 AutoML(기계 학습)을 사용하여 분류 모델을 학습시키는 방법을 알아봅니다. 이 분류 모델은 고객이 금융 기관과 고정 기간 예금을 구독하는지 여부를 예측합니다.

자동화된 ML을 사용하면 시간이 많이 걸리는 작업을 자동화할 수 있습니다. 자동화된 기계 학습은 사용자가 선택한 성공 메트릭을 기반으로 최상의 모델을 발견할 수 있도록 알고리즘과 하이퍼 매개 변수의 여러 조합을 빠르게 반복합니다.

이 자습서에서는 코드를 작성하지 않습니다. 스튜디오 인터페이스를 사용하여 학습을 수행합니다. 다음 작업을 수행하는 방법을 알아봅니다.

  • Azure Machine Learning 작업 영역 만들기
  • 자동화된 Machine Learning 실험 실행
  • 모델 세부 정보 탐색
  • 권장 모델 배포

필수 구성 요소

작업 영역 만들기

Azure Machine Learning 작업 영역은 기계 학습 모델을 실험하고, 학습시키고, 배포하는 데 사용하는 클라우드의 기본 리소스입니다. Azure 구독 및 리소스 그룹을 서비스에서 사용하기 쉬운 개체에 연결합니다.

다음 단계를 완료하여 작업 영역을 만들고 자습서를 계속 진행합니다.

  1. Azure Machine Learning Studio에 로그인합니다.

  2. 작업 영역 만들기를 선택합니다.

  3. 새 작업 영역을 구성하려면 다음 정보를 제공하세요.

    필드 설명
    작업 영역 이름 작업 영역을 식별하는 고유한 이름을 입력합니다. 이름은 리소스 그룹 전체에서 고유해야 합니다. 다른 사용자가 만든 작업 영역과 구별되고 기억하기 쉬운 이름을 사용하세요. 작업 영역 이름은 대/소문자를 구분하지 않습니다.
    구독 사용할 Azure 구독을 선택합니다.
    Resource group 구독의 기존 리소스 그룹을 사용하거나 이름을 입력하여 새 리소스 그룹을 만듭니다. 리소스 그룹은 Azure 솔루션에 관련된 리소스를 보유합니다. 기존 리소스 그룹을 사용하려면 기여자 또는 소유자 역할이 필요합니다. 자세한 내용은 Azure Machine Learning 작업 영역 액세스 관리를 참조하세요.
    지역 사용자 및 데이터 리소스와 가장 가까운 Azure 위치를 선택하여 작업 영역을 만듭니다.
  4. 만들기를 선택하여 작업 영역을 만듭니다.

Azure 리소스에 대한 자세한 내용은 작업 영역 만들기를 참조 하세요.

Azure에서 작업 영역을 만드는 다른 방법을 알아보려면 포털에서 또는 Python SDK(v2)를 사용하여 Azure Machine Learning 작업 영역을 관리합니다.

자동화된 Machine Learning 작업 만들기

다음 실험 설정을 완료하고 Azure Machine Learning 스튜디오 https://ml.azure.com사용하여 단계를 실행합니다. Machine Learning Studio는 모든 기술 수준의 데이터 과학 실무자를 위한 데이터 과학 시나리오를 수행하는 기계 학습 도구를 포함하는 통합 웹 인터페이스입니다. 이 Studio는 Internet Explorer 브라우저에서 지원되지 않습니다.

  1. 해당 구독과 직접 만든 작업 영역을 선택합니다.

  2. 탐색 창에서 자동화된 ML 작성을>선택합니다.

    이 자습서는 첫 번째 자동화된 ML 실험이므로 빈 목록과 설명서에 대한 링크가 표시됩니다.

    스크린샷은 새 자동화된 ML 작업을 만들 수 있는 자동화된 ML 페이지를 보여줍니다.

  3. 새 자동화된 ML 작업을 선택합니다.

  4. 학습 방법에서 자동으로 학습을 선택한 다음, 작업 구성 시작을 선택합니다.

  5. 기본 설정에서 새로 만들기를 선택한 다음 실험 이름으로 my-1st-automl-experiment을 입력합니다.

  6. 다음을 선택하여 데이터 세트를 로드합니다.

데이터 세트를 데이터 자산으로 만들기 및 로드

실험을 구성하기 전에 Azure Machine Learning 데이터 자산의 형태로 작업 영역에 데이터 파일을 업로드합니다. 이 자습서에서는 데이터 자산을 자동화된 ML 작업의 데이터 세트로 생각할 수 있습니다. 이렇게 하면 데이터에 실험에 적합한 형식이 지정되도록 할 수 있습니다.

  1. 작업 유형 및 데이터에서 작업 유형 선택에서 분류를 선택합니다.

  2. 데이터 선택에서 만들기를 선택합니다.

    1. 데이터 형식 양식에서 데이터 자산에 이름을 지정하고 선택적 설명을 제공합니다.

    2. 형식의 경우 테이블 형식을 선택합니다. 자동화된 ML 인터페이스는 현재 TabularDatasets만 지원합니다.

    3. 다음을 선택합니다.

    4. 데이터 원본 양식에서 로컬 파일에서 선택합니다. 다음을 선택합니다.

    5. 대상 스토리지 유형에서 작업 영역을 만드는 동안 자동으로 설정된 기본 데이터 저장소인 workspaceblobstore를 선택합니다. 데이터 파일을 이 위치에 업로드하여 작업 영역에서 사용할 수 있도록 합니다.

    6. 다음을 선택합니다.

    7. 파일 또는 폴더 선택에서 파일 업로드 또는 폴더>업로드 파일을 선택합니다.

    8. 로컬 컴퓨터에 있는 bankmarketing_train.csv 파일을 선택합니다. 이 파일을 필수 구성 요소로 다운로드했습니다.

    9. 다음을 선택합니다.

      업로드가 완료되면 파일 형식에 따라 데이터 미리 보기 영역이 채워집니다.

    10. 설정 양식에서 데이터의 값을 검토합니다. 그런 후 다음을 선택합니다.

      필드 설명 자습서에서 사용하는 값
      파일 형식 파일에 저장된 데이터의 레이아웃 및 유형을 정의합니다. 구분 기호로 분리됨
      구분 기호 일반 텍스트 또는 다른 데이터 스트림에서 별도의 독립적인 지역 간의 경계를 지정하기 위한 하나 이상의 문자입니다. Comma
      인코딩 데이터 세트를 읽는 데 사용할 문자 스키마 테이블을 식별합니다. UTF-8
      열 머리글 데이터 세트의 헤더가 처리되는 방식을 나타냅니다. 모든 파일의 머리글이 동일함
      행 건너뛰기 데이터 세트에서 건너뛴 행(있는 경우)의 수를 나타냅니다. 없음
    11. 스키마 폼을 사용하여 이 실험을 위해 데이터를 추가로 구성할 수 있습니다. 이 예제에서는 day_of_week의 토글 스위치를 포함하지 않도록 선택합니다. 다음을 선택합니다.

      스크린샷은 데이터에서 열을 내보낼 수 있는 스키마 양식을 보여줍니다.

    12. 검토 양식에서 정보를 확인한 다음 만들기를 선택합니다.

  3. 목록에서 데이터 세트를 선택합니다.

  4. 데이터 자산을 선택하고 미리 보기 탭을 확인하여 데이터를 검토합니다. day_of_week 포함하지 않는지 확인하고 닫기를 선택합니다.

  5. 다음을 선택하여 작업 설정을 진행합니다.

작업 구성

데이터를 로드하고 구성한 후 실험을 설정할 수 있습니다. 이 설정에는 컴퓨팅 환경의 크기를 선택하고 예측할 열을 지정하는 등의 실험 디자인 작업이 포함되어 있습니다.

  1. 다음과 같이 작업 설정 양식을 채웁니다.

    1. 예측하려는 대상 열로 y(문자열)를 선택합니다. 이 열은 클라이언트가 정기 예금에 가입했는지 여부를 나타냅니다.

    2. 추가 구성 설정 보기를 선택하고 다음과 같이 필드를 채웁니다. 이러한 설정은 학습 작업을 더 효율적으로 제어하기 위한 것입니다. 그렇지 않으면 실험 선택 및 데이터를 기반으로 기본값이 적용됩니다.

      추가 구성 설명 자습서에서 사용하는 값
      기본 메트릭 기계 학습 알고리즘을 측정하는 데 사용되는 평가 메트릭입니다. AUCWeighted
      최적 모델 설명 자동화된 ML에서 만든 최상의 모델에 대한 설명 가능성을 자동으로 표시합니다. Enable
      차단된 모델 학습 작업에서 제외할 알고리즘 None
    3. 저장을 선택합니다.

  2. 유효성 검사 및 테스트에서 다음을 수행합니다.

    1. 유효성 검사 형식의 경우 k-fold 교차 유효성 검사를 선택합니다.
    2. 교차 유효성 검사 횟수에 대해 2 선택합니다.
  3. 다음을 선택합니다.

  4. 컴퓨팅 유형으로 컴퓨팅 클러스터를 선택합니다.

    컴퓨팅 대상은 학습 스크립트를 실행하거나 서비스 배포를 호스트하는 데 사용되는 로컬 또는 클라우드 기반 리소스 환경입니다. 이 실험에서는 클라우드 기반 서버리스 컴퓨팅(미리 보기)을 시도하거나 자체 클라우드 기반 컴퓨팅을 만들 수 있습니다.

    참고 항목

    서버리스 컴퓨팅을 사용하려면 미리 보기 기능을 사용하도록 설정하고 서버리스를 선택한 다음 이 절차를 건너뜁니다.

  5. 고유한 컴퓨팅 대상을 만들려면 컴퓨팅 유형 선택에서 컴퓨팅 클러스터를 선택하여 컴퓨팅 대상을 구성합니다.

  6. Virtual Machine 양식을 채워 컴퓨팅을 설정합니다. 새로 만들기를 선택합니다.

    필드 설명 자습서에서 사용하는 값
    위치 컴퓨터를 실행하려는 지역 미국 서부 2
    가상 머신 계층 실험의 우선 순위를 선택합니다. 전용
    가상 머신 유형 컴퓨팅에 사용할 가상 머신 유형을 선택합니다. CPU(중앙 처리 장치)
    가상 머신 크기 컴퓨팅에 사용할 가상 머신 크기를 선택합니다. 데이터 및 실험 유형에 따라 권장 크기 목록이 제공됩니다. Standard_DS12_V2
  7. 다음을 선택하여 고급 설정 양식으로 이동합니다.

    스크린샷은 컴퓨팅 클러스터에 대한 값을 입력하는 고급 설정 페이지를 보여줍니다.

    필드 설명 자습서에서 사용하는 값
    컴퓨팅 이름 컴퓨팅 컨텍스트를 식별하는 고유한 이름입니다. automl-compute
    최소 / 최대 노드 데이터를 프로파일링하려면 하나 이상의 노드를 지정해야 합니다. 최소 노드: 1
    최대 노드: 6
    규모 축소 전 유휴 시간(초) 클러스터가 최소 노드 수까지 자동으로 축소되기 전의 유휴 시간입니다. 120(기본값)
    고급 설정 실험에 사용할 가상 네트워크를 구성하고 권한을 부여하는 설정입니다. None
  8. 만들기를 실행합니다.

    컴퓨팅을 만드는 작업은 완료하는 데 몇 분 정도 걸릴 수 있습니다.

  9. 만든 후 목록에서 새 컴퓨팅 대상을 선택합니다. 다음을 선택합니다.

  10. 학습 작업 제출을 선택하여 실험을 실행합니다. 실험 준비가 시작될 때 상태와 함께 개요 화면이 열립니다. 이 상태는 실험이 진행되면서 업데이트됩니다. 실험 상태를 알리는 알림도 스튜디오에 표시됩니다.

Important

실험 실행을 준비하기 위한 준비는 10-15분이 걸립니다. 실행이 시작되면 각 반복에 대해 2-3분 더 소요됩니다.

프로덕션 환경에서는 시간이 더 걸릴 수 있습니다. 그러나 이 자습서에서는 다른 알고리즘이 계속 실행되는 동안 모델 탭에서 테스트된 알고리즘을 탐색할 수 있습니다.

모델 살펴보기

모델 + 자식 작업 탭으로 이동하여 테스트된 알고리즘(모델)을 확인합니다. 기본적으로 작업은 완료할 때 메트릭 점수를 기준으로 모델을 정렬합니다. 이 자습서에서는 선택한 AUCWeighted 메트릭에 따라 가장 높은 점수를 받은 모델이 목록 맨 위에 있습니다.

모든 실험 모델이 완료될 때까지 기다리는 동안 완료된 모델의 알고리즘 이름을 선택하여 성능 세부 정보를 살펴봅니다. 작업에 대한 자세한 내용은 개요메트릭 탭을 선택합니다.

다음 애니메이션은 선택한 모델의 속성, 메트릭 및 성능 차트를 확인합니다.

자식 작업에 사용할 수 있는 다양한 보기를 보여 주는 애니메이션입니다.

모델 설명 보기

모델이 완료되기를 기다리는 동안 모델 설명을 살펴보고 특정 모델의 예측에 영향을 주는 데이터 기능(원시 또는 엔지니어링)을 확인할 수도 있습니다.

이러한 모델 설명은 요청 시 생성할 수 있습니다. 설명(미리 보기) 탭의 일부인 모델 설명 대시보드에는 이러한 설명이 요약됩니다.

모델 설명을 생성하려면 다음을 수행합니다.

  1. 페이지 위쪽의 탐색 링크에서 작업 이름을 선택하여 모델 화면으로 돌아갑니다.

  2. 모델 + 자식 작업 탭을 선택합니다.

  3. 이 자습서에서는 첫 번째 MaxAbsScaler, LightGBM 모델을 선택합니다.

  4. 모델 설명을 선택합니다. 오른쪽에 모델 설명 창이 표시됩니다.

  5. 컴퓨팅 유형을 선택한 다음, 이전에 만든 automl-compute 인스턴스 또는 클러스터를 선택합니다. 이 컴퓨팅은 모델 설명을 생성하는 자식 작업을 시작합니다.

  6. 만들기를 실행합니다. 녹색 성공 메시지가 나타납니다.

    참고 항목

    설명 가능성 작업을 완료하는 데 약 2~5분이 소요됩니다.

  7. 설명(미리 보기)을 선택합니다. 설명 실행이 완료된 후 이 탭이 채워집니다.

  8. 왼쪽에서 창을 확장합니다. 기능 아래에서 원시로 표시되는 행을 선택합니다.

  9. 집계 기능 중요도 탭을 선택합니다. 이 차트는 선택한 모델의 예측에 영향을 준 데이터 기능을 보여 줍니다.

    스크린샷은 집계 기능 중요도 차트를 표시하는 모델 설명 대시보드를 보여줍니다.

    이 예시에서 기간이 이 모델의 예측에 가장 큰 영향을 미치는 듯합니다.

최적의 모델 배포

자동화된 기계 학습 인터페이스를 사용하면 최상의 모델을 웹 서비스로 배포할 수 있습니다. 배포 는 모델의 통합이므로 새 데이터를 예측하고 잠재적인 기회 영역을 식별할 수 있습니다. 이 실험에서 웹 서비스에 배포한다는 것은 이제 금융 기관이 잠재적 정기 예금 고객을 식별할 수 있는 반복적이고 확장 가능한 솔루션을 확보했다는 것을 의미합니다.

실험 실행이 완료되었는지 확인합니다. 이렇게 하려면 화면 맨 위에 있는 작업 이름을 선택하여 부모 작업 페이지로 다시 이동합니다. 완료 상태가 화면 왼쪽 위에 표시됩니다.

실험 실행이 완료되면 세부 정보 페이지가 최상의 모델 요약 섹션으로 채워집니다. 이 실험 컨텍스트에서 VotingEnsemble은 AUCWeighted 메트릭을 기반으로 최상의 모델로 간주됩니다.

이 모델을 배포합니다. 배포를 완료하는 데 약 20분이 걸립니다. 배포 프로세스에는 모델 등록, 리소스 생성, 웹 서비스에 대한 구성을 포함한 몇 가지 단계가 수반됩니다.

  1. VotingEnsemble을 선택하여 모델별 페이지를 엽니다.

  2. 웹 서비스 배포>를 선택합니다.

  3. 다음과 같이 모델 배포 창을 채웁니다.

    필드
    속성 my-automl-deploy
    설명 첫 번째 자동화된 기계 학습 실험 배포
    컴퓨팅 형식 Azure Container Instance 선택
    인증 사용 사용 안 함.
    사용자 지정 배포 자산 사용 사용 안 함. 기본 드라이버 파일(점수 매기기 스크립트) 및 환경 파일을 자동으로 생성할 수 있습니다.

    이 예제에서는 고급 메뉴에 제공된 기본값을 사용합니다.

  4. 배포를 선택합니다.

    작업 화면 맨 위에 녹색 성공 메시지가 나타납니다. 모델 요약 창의 배포 상태 아래에 상태 메시지가 표시됩니다. 주기적으로 새로 고침을 선택하여 배포 상태를 확인합니다.

예측을 생성하는 운영 웹 서비스가 있습니다.

관련 콘텐츠를 진행하여 새 웹 서비스를 사용하는 방법에 대해 자세히 알아보고 Azure Machine Learning 지원에서 빌드된 Power BI를 사용하여 예측을 테스트합니다.

리소스 정리

배포 파일은 데이터 및 실험 파일보다 크기 때문에 더 많은 저장 비용이 발생합니다. 작업 영역 및 실험 파일을 유지하려면 배포 파일만 삭제하여 계정에 대한 비용을 최소화합니다. 파일을 사용하지 않으려면 전체 리소스 그룹을 삭제합니다.

배포 인스턴스 삭제

에서 Azure Machine Learning에서 배포 인스턴스만 삭제합니다. https://ml.azure.com/.

  1. Azure Machine Learning으로 이동합니다. 작업 영역으로 이동하고 자산 창에서 엔드포인트를 선택합니다.

  2. 삭제하려는 배포를 선택하고 삭제를 선택합니다.

  3. 계속을 선택합니다.

리소스 그룹 삭제

Important

사용자가 만든 리소스는 다른 Azure Machine Learning 자습서 및 방법 문서의 필수 구성 요소로 사용할 수 있습니다.

사용자가 만든 리소스를 사용하지 않으려면 요금이 발생하지 않도록 해당 리소스를 삭제합니다.

  1. Azure Portal의 검색 상자에 리소스 그룹을 입력하고 결과에서 선택합니다.

  2. 목록에서 만든 리소스 그룹을 선택합니다.

  3. 개요 페이지에서 리소스 그룹 삭제를 선택합니다.

    Azure Portal에서 리소스 그룹을 삭제하기 위해 선택한 항목의 스크린샷

  4. 리소스 그룹 이름을 입력합니다. 그런 다음 삭제를 선택합니다.

이 자동화된 기계 학습 자습서에서는 Azure Machine Learning의 자동화된 ML 인터페이스를 사용하여 분류 모델을 만들고 배포했습니다. 자세한 내용 및 다음 단계는 다음 리소스를 참조하세요.

또한 다음과 같은 다른 모델 유형에 대해 자동화된 기계 학습을 시도해 보세요.