Azure Machine Learning CLI와 구성 요소를 사용하여 기계 학습 파이프라인 만들기 및 실행

적용 대상:Azure CLI ml 확장 v2(현재)

이 문서에서는 Azure CLI 및 구성 요소를 사용하여 기계 학습 파이프라인을 만들고 실행하는 방법을 알아봅니다. 구성 요소를 사용하지 않고 파이프라인을 만들 수 있지만 구성 요소는 최대의 유연성과 재사용을 제공합니다. Azure Machine Learning 파이프라인은 YAML에서 정의하고 CLI에서 실행하거나, Python에서 작성하거나, 끌어서 놓기 UI를 사용하여 Azure Machine Learning 스튜디오 Designer에서 작성할 수 있습니다. 이 문서에서는 CLI에 대해 집중적으로 설명 합니다.

필수 조건

제안된 사전 읽기

구성 요소를 사용하여 첫 번째 파이프라인 만들기

예제를 사용하여 구성 요소를 사용하여 첫 번째 파이프라인을 만들어 보겠습니다. 이 섹션에서는 구체적인 예제를 사용하여 Azure Machine Learning에서 파이프라인 및 구성 요소의 모양에 대한 초기 인상을 제공하는 것을 목표로 합니다.

azureml-examples 리포지토리cli/jobs/pipelines-with-components/basics 디렉터리에서 3b_pipeline_with_data 하위 디렉터리로 이동합니다. 이 디렉터리에는 세 가지 유형의 파일이 있습니다. 이러한 파일은 사용자 고유의 파이프라인을 빌드할 때 만들어야 하는 파일입니다.

  • pipeline.yml: 이 YAML 파일은 기계 학습 파이프라인을 정의합니다. 이 YAML 파일은 전체 기계 학습 작업을 다단계 워크플로로 분할하는 방법을 설명합니다. 예를 들어 기록 데이터를 사용하여 판매 예측 모델을 학습시키는 간단한 기계 학습 작업을 고려할 때 데이터 처리, 모델 학습 및 모델 평가 단계를 사용하여 순차 워크플로를 빌드할 수 있습니다. 각 단계는 잘 정의된 인터페이스를 가지고 있으며 독립적으로 개발, 테스트 및 최적화할 수 있는 구성 요소입니다. 또한 파이프라인 YAML은 자식 단계가 파이프라인의 다른 단계에 연결하는 방법을 정의합니다. 예를 들어 모델 학습 단계에서 모델 파일을 생성하고 모델 파일이 모델 평가 단계로 전달됩니다.

  • component.yml: 이 YAML 파일은 구성 요소를 정의합니다. 다음 정보를 패키지합니다.

    • 메타데이터: 이름, 표시 이름, 버전, 설명, 형식 등. 메타데이터는 구성 요소를 설명하고 관리하는 데 도움이 됩니다.
    • 인터페이스: 입력 및 출력. 예를 들어, 모델 학습 구성 요소는 학습 데이터와 epoch 수를 입력으로 사용하고 학습된 모델 파일을 출력으로 생성합니다. 인터페이스가 정의되면 다른 팀이 독립적으로 구성 요소를 개발하고 테스트할 수 있습니다.
    • 명령, 코드 및 환경: 구성 요소를 실행하는 명령, 코드 및 환경입니다. 명령은 구성 요소를 실행하는 셸 명령입니다. 코드는 일반적으로 소스 코드 디렉터리를 참조합니다. 환경은 Azure Machine Learning 환경(큐레이팅 또는 고객이 만든), Docker 이미지 또는 conda 환경일 수 있습니다.
  • component_src: 특정 구성 요소의 소스 코드 디렉터리입니다. 여기에는 구성 요소에서 실행되는 소스 코드가 포함되어 있습니다. 원하는 언어(Python, R 등)를 사용할 수 있습니다. 코드는 셸 명령을 통해 실행해야 합니다. 소스 코드는 셸 명령줄에서 몇 가지 입력을 사용하여 이 단계를 실행하는 방법을 제어할 수 있습니다. 예를 들어 학습 단계에서는 학습 데이터, 학습 속도, Epoch 수를 사용하여 학습 프로세스를 제어할 수 있습니다. 셸 명령의 인수는 입력 및 출력을 코드에 전달하는 데 사용됩니다.

이제 3b_pipeline_with_data 예제를 사용하여 파이프라인을 만들어 보겠습니다. 각 파일의 자세한 의미는 다음 섹션에서 설명하겠습니다.

먼저 다음 명령을 사용하여 사용 가능한 컴퓨팅 리소스를 나열합니다.

az ml compute list

없는 경우 다음을 실행하여 cpu-cluster라는 클러스터를 만듭니다.

참고 항목

서버리스 컴퓨팅을 사용 하려면 이 단계를 건너뜁니다.

az ml compute create -n cpu-cluster --type amlcompute --min-instances 0 --max-instances 10

이제 다음 명령을 사용하여 pipeline.yml 파일에 정의된 파이프라인 작업을 만듭니다. 컴퓨팅 대상은 Pipeline.yml 파일에서 azureml:cpu-cluster로 참조됩니다. 컴퓨팅 대상이 다른 이름을 사용하는 경우 pipeline.yml 파일에서 업데이트해야 합니다.

az ml job create --file pipeline.yml

다음을 포함하여 파이프라인 작업에 대한 정보가 포함된 JSON 사전을 받아야 합니다.

설명
name 작업의 GUID 기반 이름입니다.
experiment_name 스튜디오에서 작업을 구성할 이름입니다.
services.Studio.endpoint 파이프라인 작업을 모니터링하고 검토하기 위한 URL입니다.
status 작업의 상태. 지금은 Preparing 상태일 가능성이 높습니다.

URL을 services.Studio.endpoint 열어 파이프라인의 그래프 시각화를 확인합니다.

Screenshot of a graph visualization of the pipeline.

파이프라인 정의 YAML의 이해

3b_pipeline_with_data/pipeline.yml 파일의 파이프라인 정의를 살펴보겠습니다.

참고 항목

서버리스 컴퓨팅을 사용하려면 이 파일로 default_compute: azureml:serverless 대체 default_compute: azureml:cpu-cluster 합니다.

$schema: https://azuremlschemas.azureedge.net/latest/pipelineJob.schema.json
type: pipeline

display_name: 3b_pipeline_with_data
description: Pipeline with 3 component jobs with data dependencies

settings:
  default_compute: azureml:cpu-cluster

outputs:
  final_pipeline_output:
    mode: rw_mount

jobs:
  component_a:
    type: command
    component: ./componentA.yml
    inputs:
      component_a_input: 
        type: uri_folder
        path: ./data

    outputs:
      component_a_output: 
        mode: rw_mount
  component_b:
    type: command
    component: ./componentB.yml
    inputs:
      component_b_input: ${{parent.jobs.component_a.outputs.component_a_output}}
    outputs:
      component_b_output: 
        mode: rw_mount
  component_c:
    type: command
    component: ./componentC.yml
    inputs:
      component_c_input: ${{parent.jobs.component_b.outputs.component_b_output}}
    outputs:
      component_c_output: ${{parent.outputs.final_pipeline_output}}
      #  mode: upload

이 표에서는 파이프라인 YAML 스키마의 가장 일반적인 사용 필드를 설명합니다. 자세한 내용은 전체 파이프라인 YAML 스키마참조하세요.

key description
type 필수입니다. 작업 유형은 파이프라인 작업에 대한 것이어야 pipeline 합니다.
display_name 스튜디오 UI에서 파이프라인 작업의 표시 이름입니다. 스튜디오 UI에서 편집할 수 있습니다. 작업 영역의 모든 작업에서 고유할 필요는 없습니다.
jobs 필수입니다. 파이프라인 내에서 단계로 실행할 개별 작업 집합의 사전입니다. 이러한 작업은 부모 파이프라인 작업의 자식 작업으로 간주됩니다. 이 릴리스의 경우 파이프라인에서 지원되는 작업 유형은 commandsweep입니다.
inputs 파이프라인 작업에 대한 입력의 사전입니다. 키는 작업의 컨텍스트 내에서 입력에 대한 이름이고 값은 입력 값입니다. 이러한 파이프라인 입력은 ${{ parent.inputs.<input_name> }} 식을 사용하여 파이프라인에서 개별 단계 작업의 입력으로 참조할 수 있습니다.
outputs 파이프라인 작업의 출력 구성 사전입니다. 키는 작업의 컨텍스트 내에서 출력에 대한 이름이고 값은 출력 구성입니다. 이러한 파이프라인 출력은 ${{ parents.outputs.<output_name> }} 식을 사용하여 파이프라인에서 개별 단계 작업의 출력으로 참조할 수 있습니다.

3b_pipeline_with_data 예제에서는 세 단계 파이프라인을 만들었습니다.

  • 세 단계는 jobs에 정의되어 있습니다. 세 단계 유형은 모두 명령 작업입니다. 각 단계의 정의는 해당하는 component.yml 파일에 있습니다. 3b_pipeline_with_data 디렉터리에서 구성 요소 YAML 파일을 볼 수 있습니다. componentA.yml은 다음 섹션에서 설명하겠습니다.
  • 이 파이프라인에는 대부분의 실제 파이프라인에서 흔히 볼 수 있는 데이터 종속성이 있습니다. Component_a는 ./data(줄 17-20) 아래의 로컬 폴더에서 데이터 입력을 가져와서 해당 출력을 componentB(줄 29)에 전달합니다. Component_a의 출력은 ${{parent.jobs.component_a.outputs.component_a_output}}으로 참조할 수 있습니다.
  • compute는 이 파이프라인의 기본 컴퓨팅을 정의합니다. jobs 아래의 구성 요소가 이 구성 요소에 대해 다른 컴퓨팅을 정의하는 경우 시스템은 구성 요소별 설정을 따릅니다.

Screenshot of the pipeline with data example.

파이프라인에서 데이터 읽기 및 쓰기

일반적인 시나리오 중 하나는 파이프라인에서 데이터를 읽고 쓰는 것입니다. Azure Machine Learning에서는 동일한 스키마를 사용하여 모든 유형의 작업(파이프라인 작업, 명령 작업 및 스윕 작업)에 대한 데이터를 읽고 씁니다. 다음은 일반적인 시나리오에 데이터를 사용하는 파이프라인 작업 예제입니다.

구성 요소 정의 YAML의 이해

이번에는 구성 요소 정의 YAML을 이해하기 위해 componentA.yml 예제를 살펴보겠습니다.

$schema: https://azuremlschemas.azureedge.net/latest/commandComponent.schema.json
type: command

name: component_a
display_name: componentA
version: 1

inputs:
  component_a_input:
    type: uri_folder

outputs:
  component_a_output:
    type: uri_folder

code: ./componentA_src

environment: 
  image: python

command: >-
  python hello.py --componentA_input ${{inputs.component_a_input}} --componentA_output ${{outputs.component_a_output}}

YAML 구성 요소의 가장 일반적인 사용 스키마는 표에 설명되어 있습니다. 자세한 내용은 전체 구성 요소 YAML 스키마참조하세요.

key description
name 필수입니다. 구성 요소의 이름입니다. Azure Machine Learning 작업 영역에서 고유해야 합니다. 소문자로 시작해야 합니다. 소문자, 숫자 및 밑줄(_)을 허용합니다. 최대 길이는 255자입니다.
display_name 스튜디오 UI의 구성 요소 표시 이름입니다. 작업 영역 내에서 고유하지 않을 수 있습니다.
command 필수 실행할 명령입니다.
코드 업로드하여 구성 요소에 사용할 소스 코드 디렉터리의 로컬 경로입니다.
환경 필수입니다. 구성 요소를 실행하는 데 사용되는 환경입니다.
inputs 구성 요소 입력의 사전입니다. 키는 구성 요소의 컨텍스트 내에 있는 입력의 이름이며 값은 구성 요소 입력 정의입니다. ${{ inputs.<input_name> }} 식을 사용하여 입력을 명령에서 참조할 수 있습니다.
outputs 구성 요소 출력의 사전입니다. 키는 구성 요소의 컨텍스트 내에 있는 출력의 이름이며 값은 구성 요소 출력 정의입니다. ${{ outputs.<output_name> }} 식을 사용하여 출력을 명령에서 참조할 수 있습니다.
is_deterministic 구성 요소 입력이 변경되지 않은 경우 이전 작업의 결과를 재사용할지 여부를 나타냅니다. 기본값은 true이며 기본적으로 다시 사용이라고도 합니다. false로 설정된 경우 일반적인 시나리오는 클라우드 스토리지 또는 URL에서 데이터를 강제로 다시 로드하는 것입니다.

3b_pipeline_with_data/componentA.yml 예제에서 componentA에는 부모 파이프라인의 다른 단계에 연결할 수 있는 데이터 입력 하나와 데이터 출력 하나가 있습니다. 구성 요소 YAML의 섹션에 있는 code 모든 파일은 파이프라인 작업을 제출할 때 Azure Machine Learning에 업로드됩니다. 이 예제에서는 ./componentA_src의 파일이 업로드됩니다(componentA.yml의 줄 16). Studio UI에서 업로드된 소스 코드를 볼 수 있습니다. 다음 스크린샷과 같이 ComponentA 단계를 두 번 선택하고 스냅샷 탭으로 이동합니다. 간단한 인쇄를 수행하고 현재 날짜/시간을 componentA_output 경로에 쓰는 hello-world 스크립트를 볼 수 있습니다. 구성 요소는 명령줄 인수를 통해 입력 및 출력을 가져오고, 이러한 입력 및 출력은 hello.py에서 argparse를 사용하여 처리됩니다.

Screenshot of pipeline with data example showing componentA.

입력 및 출력

입력 및 출력은 구성 요소의 인터페이스를 정의합니다. 입력 및 출력은 리터럴 값(string, number, integer 또는 boolean 형식) 또는 입력 스키마를 포함하는 개체입니다.

개체 입력(uri_file, uri_folder, mltable, mlflow_model, custom_model)은 부모 파이프라인 작업의 다른 단계에 연결하여 데이터/모델을 다른 단계로 전달할 수 있습니다. 파이프라인 그래프에서 개체 형식 입력은 연결점으로 렌더링됩니다.

리터럴 값 입력(string, number, integer, boolean)은 런타임에 구성 요소로 전달할 수 있는 매개 변수입니다. default 필드 아래에 리터럴 입력의 기본값을 추가할 수 있습니다. numberinteger 형식의 경우 minmax 필드를 사용하여 허용되는 최솟값 및 최댓값을 추가할 수도 있습니다. 입력 값이 최솟값과 최댓값을 초과하면 파이프라인의 유효성이 검사에 실패합니다. 시간을 절약하기 위해 유효성 검사는 파이프라인 작업을 제출하기 전에 수행됩니다. 유효성 검사는 CLI, Python SDK 및 디자이너 UI에 대해 작동합니다. 다음 스크린샷은 디자이너 UI의 유효성 검사 예제를 보여 줍니다. 마찬가지로 enum 필드에서 허용되는 값을 정의할 수 있습니다.

Screenshot of the input and output of the train linear regression model component.

구성 요소에 입력을 추가하려면 다음 세 위치를 편집해야 합니다.

  • inputs 구성 요소 YAML의 필드
  • command 구성 요소 YAML의 필드입니다.
  • 명령줄 입력을 처리하는 구성 요소 소스 코드입니다. 이전 스크린샷의 녹색 상자에 표시됩니다.

입출력에 대해 자세히 알아보려면 구성 요소 및 파이프라인의 입출력 관리를 참조하세요.

Environment

환경은 구성 요소를 실행할 환경을 정의합니다. Azure Machine Learning 환경(큐레이팅 또는 사용자 지정 등록), Docker 이미지 또는 conda 환경일 수 있습니다. 다음 예를 참조하세요.

재사용 및 공유할 구성 요소 등록

일부 구성 요소는 특정 파이프라인에만 관련되지만 구성 요소의 실제 이점은 재사용 및 공유에서 비롯됩니다. Machine Learning 작업 영역에 구성 요소를 등록하여 재사용할 수 있도록 합니다. 등록된 구성 요소는 자동 버전 관리를 지원하므로 구성 요소를 업데이트하되 이전 버전이 필요한 파이프라인이 계속 작동하도록 보장할 수 있습니다.

azureml-examples 리포지토리에서 cli/jobs/pipelines-with-components/basics/1b_e2e_registered_components 디렉터리로 이동합니다.

구성 요소를 등록하려면 az ml component create 명령을 사용합니다.

az ml component create --file train.yml
az ml component create --file score.yml
az ml component create --file eval.yml

이러한 명령 실행이 완료된 후에는 Studio의 자산 -> 구성 요소에서 구성 요소를 볼 수 있습니다.

Screenshot of Studio showing the components that were just registered.

구성 요소를 선택합니다. 각 버전의 구성 요소에 대한 자세한 정보가 표시됩니다.

세부 정보 탭에는 이름, 만든 사람, 버전 등 구성 요소의 기본 정보가 표시됩니다. 태그 및 설명에 대한 편집 가능한 필드가 표시됩니다. 태그를 사용하여 빠른 검색 키워드를 추가할 수 있습니다. 설명 필드는 Markdown 형식을 지원하며, 구성 요소의 기능 및 기본 사용을 설명하는 데 사용해야 합니다.

작업 탭에는 이 구성 요소를 사용하는 모든 작업의 기록이 표시됩니다.

파이프라인 작업 YAML 파일에서 등록된 구성 요소 사용

1b_e2e_registered_components를 사용하여 파이프라인 YAML에서 등록된 구성 요소를 사용하는 방법을 시연하겠습니다. 1b_e2e_registered_components 디렉터리로 이동하여 pipeline.yml 파일을 엽니다. inputsoutputs 필드의 키 및 값은 앞에서 설명한 키 및 값과 비슷합니다. 유일하게 중요한 차이점은 jobs.<JOB_NAME>.component 항목에 있는 component 필드의 값입니다. component 값의 형식은 azureml:<COMPONENT_NAME>:<COMPONENT_VERSION>입니다. 예를 들어 train-job 정의는 등록된 구성 요소 my_train의 최신 버전을 사용하도록 지정합니다.

type: command
component: azureml:my_train@latest
inputs:
  training_data: 
    type: uri_folder 
    path: ./data      
  max_epocs: ${{parent.inputs.pipeline_job_training_max_epocs}}
  learning_rate: ${{parent.inputs.pipeline_job_training_learning_rate}}
  learning_rate_schedule: ${{parent.inputs.pipeline_job_learning_rate_schedule}}
outputs:
  model_output: ${{parent.outputs.pipeline_job_trained_model}}
services:
  my_vscode:

구성 요소 관리

CLI(v2)를 사용하여 구성 요소 세부 정보를 확인하고 구성 요소를 관리할 수 있습니다. az ml component -h를 사용하여 구성 요소 명령에 대한 자세한 지침을 얻습니다. 다음 표에서는 사용 가능한 모든 명령을 나열합니다. Azure CLI 참조에서 더 많은 예제를 참조하세요.

명령 description
az ml component create 구성 요소 만들기
az ml component list 작업 영역의 구성 요소 나열
az ml component show 구성 요소에 대한 세부 정보 표시
az ml component update 구성 요소 업데이트 일부 필드(description, display_name)만 업데이트 지원
az ml component archive 구성 요소 컨테이너 보관
az ml component restore 보관된 구성 요소 복원

다음 단계