Azure Machine Learning 용어집

Azure Machine Learning 용어집은 Machine Learning 플랫폼에 대한 간단한 용어 사전입니다. 일반적인 Azure 용어는 다음도 참조하세요.

구성 요소

Machine Learning 구성 요소는 기계 학습 파이프라인에서 한 단계를 수행하는 자체 포함된 코드 조각입니다. 구성 요소는 고급 기계 학습 파이프라인의 구성 요소입니다. 구성 요소는 데이터 처리, 모델 학습 및 모델 채점과 같은 작업을 수행할 수 있습니다. 구성 요소는 함수와 유사합니다. 이름 및 매개 변수가 있고 입력을 예상하고 출력을 반환합니다.

컴퓨팅

컴퓨팅은 작업을 실행하거나 엔드포인트를 호스팅하는 지정된 컴퓨팅 리소스입니다. Machine Learning은 다음 형식의 컴퓨팅을 지원합니다.

  • 컴퓨팅 클러스터: 클라우드에서 CPU 또는 GPU 컴퓨팅 노드 클러스터를 쉽게 만들 수 있는 관리 컴퓨팅 인프라입니다.

    참고 항목

    컴퓨팅 클러스터를 만드는 대신 서버리스 컴퓨팅을 사용하여 컴퓨팅 수명 주기 관리를 Azure Machine Learning으로 오프로드합니다.

  • 컴퓨팅 인스턴스: 클라우드에서 완전히 구성되고 관리되는 개발 환경입니다. 인스턴스를 개발 및 테스트를 위한 학습 또는 유추 컴퓨팅으로 사용할 수 있습니다. 클라우드의 가상 머신과 비슷합니다.

  • Kubernetes 클러스터: 학습된 기계 학습 모델을 AKS(Azure Kubernetes Service)에 배포하는 데 사용됩니다. Machine Learning 작업 영역에서 AKS 클러스터를 만들거나 기존 AKS 클러스터를 연결할 수 있습니다.

  • 연결된 컴퓨팅: 자체 컴퓨팅 리소스를 작업 영역에 연결하고 학습 및 유추에 사용할 수 있습니다.

데이터

Machine Learning을 사용하면 다양한 형식의 데이터로 작업할 수 있습니다.

  • URI(로컬 또는 클라우드 스토리지의 위치):
    • uri_folder
    • uri_file
  • 테이블(테이블 형식 데이터 추상화)
    • mltable
  • 기본 형식:
    • string
    • boolean
    • number

대부분의 시나리오에서 URI(uri_folderuri_file)를 사용하여 스토리지를 노드에 탑재하거나 다운로드하여 작업에서 컴퓨팅 노드의 파일 시스템에 쉽게 매핑할 수 있는 스토리지의 위치를 식별합니다.

mltable 매개 변수는 AutoML(자동화된 기계 학습) 작업, 병렬 작업 및 일부 고급 시나리오에 사용되는 테이블 형식 데이터에 대한 추상화입니다. Machine Learning을 사용하기 시작하면서 AutoML을 사용하지 않는 경우 URI로 시작하는 것이 좋습니다.

데이터 저장소

Machine Learning 데이터 스토리지는 Azure의 데이터 스토리지에 대한 연결 정보를 안전하게 유지하므로 스크립트에서 코딩할 필요가 없습니다. 스토리지 계정에 쉽게 연결하고 기본 스토리지 서비스의 데이터에 액세스하기 위해 데이터 저장소를 등록하고 만들 수 있습니다. Azure Machine Learning CLI v2 및 SDK v2는 다음 형식의 클라우드 기반 스토리지 서비스를 지원합니다.

  • Azure Blob Storage 컨테이너
  • Azure Files 공유
  • Azure Data Lake Storage
  • Azure Data Lake Storage Gen2

환경

Machine Learning 환경은 Machine Learning 작업이 발생하는 환경을 캡슐화한 것입니다. 학습 및 채점 스크립트와 관련된 소프트웨어 패키지, 환경 변수 및 소프트웨어 설정을 지정합니다. 환경은 Machine Learning 작업 영역 내에서 관리되고 버전이 지정된 엔터티입니다. 환경은 다양한 컴퓨팅에서 재현 가능하고 감사 가능하며 이식 가능한 기계 학습 워크플로를 지원합니다.

환경의 종류

Machine Learning은 큐레이팅된 환경과 사용자 지정 환경이라는 두 가지 유형의 환경을 지원합니다.

큐레이팅된 환경은 Machine Learning에서 제공하며 기본적으로 작업 영역에서 사용할 수 있습니다. 있는 그대로 사용할 수 있습니다. 큐레이팅된 환경은 다양한 기계 학습 프레임워크를 시작하는 데 도움이 되는 Python 패키지 및 설정 컬렉션을 포함하고 있으며 이와 같이 미리 만들어진 환경에서는 배포 시간을 단축할 수 있습니다. 사용 가능한 환경의 전체 목록을 검색하려면 CLI 및 SDK(v2)를 사용하는 Azure Machine Learning 환경을 참조하세요.

사용자 지정 환경에서는 환경 설정을 담당합니다. 학습 또는 채점 스크립트가 필요한 패키지와 기타 종속성을 컴퓨팅에 설치해야 합니다. Machine Learning을 사용하면 다음을 사용하여 고유한 환경을 만들 수 있습니다.

  • Docker 이미지.
  • 추가로 사용자 지정할 수 있는 conda YAML이 있는 기본 Docker 이미지
  • Docker 빌드 컨텍스트

모델

Machine Learning 모델은 기계 학습 모델과 해당 메타데이터를 나타내는 이진 파일로 구성됩니다. 로컬 또는 원격 파일이나 디렉터리에서 모델을 만들 수 있습니다. 원격 위치 https의 경우 wasbsazureml 위치가 지원됩니다. 만들어진 모델은 지정된 이름 및 버전으로 작업 영역에서 추적됩니다. Machine Learning은 모델에 대해 다음 세 가지 스토리지 형식을 지원합니다.

  • custom_model
  • mlflow_model
  • triton_model

작업 영역

작업 영역은 Machine Learning의 최상위 리소스입니다. 작업 영역은 Machine Learning를 사용하는 경우 만드는 모든 아티팩트를 사용할 수 있는 중앙 집중식 위치를 제공합니다. 작업 영역은 스크립트의 로그, 메트릭, 출력 및 스냅샷을 포함한 모든 작업의 기록을 유지합니다. 작업 영역은 데이터 저장소 및 컴퓨팅과 같은 리소스에 대한 참조를 저장합니다. 또한 모델, 환경, 구성 요소 및 데이터 자산과 같은 모든 자산을 보유합니다.

다음 단계

Azure Machine Learning이란 무엇인가요?