Share via


MLOps(Machine Learning Operations) v2

이 문서에서는 기계 학습 작업을 위한 세 가지 Azure 아키텍처에 대해 설명합니다. 세 아키텍처는 모두 엔드투엔드 CI(연속 통합), CD(지속적인 업데이트) 및 재학습 파이프라인을 사용합니다. 아키텍처는 다음과 같은 AI 애플리케이션을 위한 것입니다.

  • 고전적 기계 학습
  • Computer Vision(CV)
  • NLP(자연어 처리)

아키텍처는 MLOps v2 프로젝트의 제품입니다. 이러한 아키텍처는 여러 기계 학습 솔루션을 만드는 과정에서 솔루션 설계자가 발견한 모범 사례를 통합합니다. 결과는 여기에 설명된 대로 배포 가능하고 반복 가능하며 유지 관리 가능한 패턴입니다.

모든 아키텍처는 Azure Machine Learning 서비스를 사용합니다.

MLOps v2용 샘플 배포 템플릿을 사용하는 구현은 GitHub의 Azure MLOps(v2) 솔루션 가속기를 참조하세요.

잠재적인 사용 사례

  • 고전적 기계 학습: 테이블 형식의 구조화된 데이터에 대한 시계열 예측, 회귀 및 분류는 이 범주에서 가장 흔한 사용 사례입니다. 예제는 다음과 같습니다.
    • 이진 및 다중 레이블 분류
    • 선형, 다항식, 릿지, lasso, 분위수 및 베이지언 회귀
    • ARIMA, AR(자동 회귀), SARIMA, VAR, SES, LSTM
  • CV: 여기에 제시된 MLOps 프레임워크는 주로 구분 및 이미지 분류의 CV 사용 사례에 중점을 둡니다.
  • NLP: 이 MLOps 프레임워크는 이러한 사용 사례 및 나열되지 않은 다른 사용 사례를 구현할 수 있습니다.
    • 명명된 엔터티 인식
    • 텍스트 분류
    • 텍스트 생성
    • 정서 분석
    • Translation
    • 질문 답변
    • 요약
    • 문장 검색
    • 언어 감지
    • 음성 부분 태그 지정

시뮬레이션, 심층 강화 학습 및 기타 형태의 AI는 이 문서에서 다루지 않습니다.

아키텍처

MLOps v2 아키텍처 패턴은 MLOps 수명 주기의 이러한 단계를 나타내는 네 가지 주요 모듈식 요소로 구성됩니다.

  • 데이터 자산
  • 관리 및 설치
  • 모델 개발(내부 루프)
  • 모델 배포(외부 루프)

이러한 요소, 요소 간의 관계, 그리고 일반적으로 이와 연관된 가상 사용자는 모든 MLOps v2 시나리오 아키텍처에 공통적입니다. 시나리오에 따라 각 세부 정보에 변형이 있을 수 있습니다.

Machine Learning용 MLOps v2의 기본 아키텍처는 테이블 형식 데이터에 대한 클래식 기계 학습 시나리오입니다. CV 및 NLP 아키텍처는 이 기본 아키텍처를 기반으로 빌드하고 수정합니다.

현재 아키텍처

현재 MLOps v2에서 다루며 이 문서에서 설명하는 아키텍처는 다음과 같습니다.

클래식 기계 학습 아키텍처

클래식 기계 학습 아키텍처에 대한 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

클래식 기계 학습 아키텍처에 대한 워크플로

  1. 데이터 자산

    이 요소는 조직의 데이터 자산과 데이터 과학 프로젝트에 대한 잠재적인 데이터 원본 및 대상을 보여 줍니다. 데이터 엔지니어는 MLOps v2 수명 주기에서 이 요소의 기본 소유자입니다. 이 다이어그램의 Azure 데이터 플랫폼은 완전하거나 규범적이지 않습니다. 고객 사용 사례에 기반한 권장된 사용 사례를 나타내는 데이터 원본 및 대상은 녹색 확인 표시로 표시됩니다.

  2. 관리 및 설치

    이 요소는 MLOps v2 가속기 배포의 첫 번째 단계입니다. 이것은 프로젝트와 연결된 리소스 및 역할의 생성 및 관리와 관련된 모든 작업으로 구성됩니다. 여기에는 다음 작업과 기타 작업이 포함될 수 있습니다.

    1. 프로젝트 소스 코드 리포지토리 만들기
    2. Bicep 또는 Terraform을 사용하여 Machine Learning 작업 영역 만들기
    3. 모델 개발 및 배포에 사용되는 데이터 세트 및 컴퓨팅 리소스 만들기 또는 수정
    4. 프로젝트 팀 사용자, 해당 역할 및 다른 리소스에 대한 액세스 제어 정의
    5. CI/CD 파이프라인 만들기
    6. 모델 및 인프라 메트릭의 수집 및 알림에 대한 모니터 만들기

    이 단계와 관련된 기본 가상 사용자는 인프라 팀이지만 데이터 엔지니어, 기계 학습 엔지니어 및 데이터 과학자도 있을 수 있습니다.

  3. 모델 개발(내부 루프)

    내부 루프 요소는 전용 보안 Machine Learning 작업 영역 내에서 작동하는 반복 데이터 과학 워크플로로 구성됩니다. 일반적인 워크플로는 다이어그램에 설명되어 있습니다. 이것은 데이터 수집, 예비 데이터 분석, 실험, 모델 개발 및 평가에서 프로덕션용 후보 모델 등록까지 진행됩니다. MLOps v2 가속기에서 구현된 이 모듈식 요소는 데이터 과학 팀이 모델을 개발하는 데 사용하는 프로세스에 구애받지 않으며 적응할 수 있습니다.

    이 단계와 관련된 가상 사용자에는 데이터 과학자 및 기계 학습 엔지니어가 포함됩니다.

  4. Machine Learning 레지스트리

    데이터 과학 팀이 프로덕션에 배포할 후보 모델을 개발하면 Machine Learning 작업 영역 레지스트리에 모델을 등록할 수 있습니다. 모델 등록 또는 제어된 휴먼 인더 루프 승인에 의해 자동으로 트리거되는 CI 파이프라인은 모델 및 기타 모델 종속성을 모델 배포 단계로 승격합니다.

    이 단계와 연결된 가상 사용자는 일반적으로 기계 학습 엔지니어입니다.

  5. 모델 배포(외부 루프)

    모델 배포 또는 외부 루프 단계는 사전 프로덕션 준비 및 테스트, 프로덕션 배포, 모델, 데이터 및 인프라 모니터링으로 구성됩니다. CD 파이프라인은 조직 및 사용 사례에 적합한 기준이 충족될 때, 프로덕션, 모니터링 및 잠재적 재학습을 통해 모델 및 관련 자산의 승격을 관리합니다.

    이 단계와 연결된 가상 사용자는 주로 기계 학습 엔지니어입니다.

  6. 준비 및 테스트

    준비 및 테스트 단계는 고객 사례에 따라 다를 수 있지만 일반적으로 프로덕션 데이터에 대한 모델 후보 재학습 및 테스트, 엔드포인트 성능을 위한 테스트 배포, 데이터 품질 검사, 단위 테스트, 모델 및 데이터 바이어스에 대한 책임 있는 AI 검사와 같은 작업을 포함합니다. 이 단계는 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  7. 프로덕션 배포

    모델이 준비 및 테스트 단계를 통과한 후 휴먼 인 더 루프 제어 승인을 사용하여 프로덕션으로 승격할 수 있습니다. 모델 배포 옵션에는 일괄 처리 시나리오를 위한 관리형 일괄 처리 엔드포인트 또는 근 실시간 온라인 시나리오의 경우 Azure Arc를 사용한 관리형 온라인 엔드포인트 또는 Kubernetes 배포가 포함됩니다. 프로덕션은 일반적으로 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  8. 모니터링

    준비, 테스트 및 프로덕션에서 모니터링하면 모델, 데이터 및 인프라의 성능 변경에 대한 메트릭을 수집하고 조치를 수행할 수 있습니다. 모델 및 데이터 모니터링에는 모델 및 데이터 드리프트 확인, 새 데이터에 대한 모델 성능 및 책임 있는 AI 문제가 포함될 수 있습니다. 인프라 모니터링은 느린 엔드포인트 응답, 부적절한 컴퓨팅 용량 또는 네트워크 문제를 감시할 수 있습니다.

  9. 데이터 및 모델 모니터링: 이벤트 및 작업

    메트릭 임계값 또는 일정과 같은 모델 및 데이터 문제에 대한 기준에 따라, 자동화된 트리거 및 알림은 수행에 적절한 작업을 구현할 수 있습니다. 이는 정기적으로 예약된 최신 프로덕션 데이터에 대한 모델의 자동 재학습이고 사전 프로덕션 평가를 위한 준비 및 테스트로의 루프백일 수 있습니다. 또는 데이터 과학자가 새 모델을 조사하고 잠재적으로 개발할 수 있는 모델 개발 단계로 루프백이 필요한 모델 또는 데이터 문제에 대한 트리거 때문일 수 있습니다.

  10. 인프라 모니터링: 이벤트 및 작업

    배포를 위한 엔드포인트 응답 지연 또는 컴퓨팅 부족과 같은 인프라 문제에 대한 기준에 따라 자동화된 트리거 및 알림은 수행에 적절한 작업을 구현할 수 있습니다. 이러한 기능은 인프라 팀이 컴퓨팅 및 네트워크 리소스를 조사하고 잠재적으로 재구성할 수 있는 설정 및 관리 단계로의 루프백을 트리거합니다.

Machine Learning CV 아키텍처

Computer Vision 아키텍처에 대한 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

CV 아키텍처에 대한 워크플로

Machine Learning CV 아키텍처는 클래식 기계 학습 아키텍처를 기반으로 하지만 감독된 CV 시나리오에 특정한 수정 사항이 있습니다.

  1. 데이터 자산

    이 요소는 조직의 데이터 자산과 데이터 과학 프로젝트의 잠재적인 데이터 원본 및 대상을 보여 줍니다. 데이터 엔지니어는 MLOps v2 수명 주기에서 이 요소의 기본 소유자입니다. 이 다이어그램의 Azure 데이터 플랫폼은 완전하거나 규범적이지 않습니다. CV 시나리오에 대한 이미지는 다양한 데이터 원본에서 제공될 수 있습니다. Machine Learning을 사용하여 CV 모델을 개발하고 배포할 때 효율성을 위해 이미지에 권장되는 Azure 데이터 원본은 Azure Blob Storage 및 Azure Data Lake Storage입니다.

  2. 관리 및 설치

    이 요소는 MLOps v2 가속기 배포의 첫 번째 단계입니다. 이것은 프로젝트와 연결된 리소스 및 역할의 생성 및 관리와 관련된 모든 작업으로 구성됩니다. CV 시나리오의 경우 MLOps v2 환경의 관리 및 설정은 클래식 기계 학습과 거의 동일하지만 추가 단계에서 Machine Learning 또는 다른 도구의 레이블 지정 기능을 사용하여 이미지 레이블 지정 및 주석 프로젝트를 만듭니다.

  3. 모델 개발(내부 루프)

    내부 루프 요소는 전용 보안 Machine Learning 작업 영역 내에서 수행된 반복 데이터 과학 워크플로로 구성됩니다. 이 워크플로와 클래식 기계 학습 시나리오의 주요 차이점은 이미지 레이블 지정과 주석이 이 개발 루프의 핵심 요소라는 것입니다.

  4. Machine Learning 레지스트리

    데이터 과학 팀이 프로덕션에 배포할 후보 모델을 개발하면 Machine Learning 작업 영역 레지스트리에 모델을 등록할 수 있습니다. 모델 등록 또는 제어된 휴먼 인더 루프 승인에 의해 자동으로 트리거되는 CI 파이프라인은 모델 및 기타 모델 종속성을 모델 배포 단계로 승격합니다.

  5. 모델 배포(외부 루프)

    모델 배포 또는 외부 루프 단계는 사전 프로덕션 준비 및 테스트, 프로덕션 배포, 모델, 데이터 및 인프라 모니터링으로 구성됩니다. CD 파이프라인은 조직 및 사용 사례에 적합한 기준이 충족될 때, 프로덕션, 모니터링 및 잠재적 재학습을 통해 모델 및 관련 자산의 승격을 관리합니다.

  6. 준비 및 테스트

    준비 및 테스트 단계는 고객 사례에 따라 다를 수 있지만 일반적으로 엔드포인트 성능을 위한 테스트 배포, 데이터 품질 검사, 단위 테스트, 모델 및 데이터 바이어스에 대한 책임 있는 AI 검사와 같은 작업을 포함합니다. CV 시나리오의 경우 리소스 및 시간 제약 조건으로 인해 프로덕션 데이터에 대한 모델 후보 재학습이 생략될 수 있습니다. 대신 데이터 과학 팀은 모델 개발에 프로덕션 데이터를 사용할 수 있으며, 개발 루프에서 등록된 후보 모델은 프로덕션용으로 평가되는 모델입니다. 이 단계는 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  7. 프로덕션 배포

    모델이 준비 및 테스트 단계를 통과한 후 휴먼 인 더 루프 제어 승인을 통해 프로덕션으로 승격할 수 있습니다. 모델 배포 옵션에는 일괄 처리 시나리오를 위한 관리형 일괄 처리 엔드포인트 또는 근 실시간 온라인 시나리오의 경우 Azure Arc를 사용한 관리형 온라인 엔드포인트 또는 Kubernetes 배포가 포함됩니다. 프로덕션은 일반적으로 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  8. 모니터링

    준비, 테스트 및 프로덕션에서 모니터링하면 모델, 데이터 및 인프라의 성능 변경에 대한 메트릭을 수집하고 조치를 수행할 수 있습니다. 모델 및 데이터 모니터링에는 새 이미지에 대한 모델 성능 검사가 포함될 수 있습니다. 인프라 모니터링은 느린 엔드포인트 응답, 부적절한 컴퓨팅 용량 또는 네트워크 문제를 감시할 수 있습니다.

  9. 데이터 및 모델 모니터링: 이벤트 및 작업

    NLP용 MLOps의 데이터 및 모델 모니터링 및 이벤트 및 작업 단계는 클래식 기계 학습의 주요 차이점입니다. 자동화된 재학습은 일반적으로 새 이미지에 대한 모델 성능 저하가 감지될 때 CV 시나리오에서 수행되지 않습니다. 이 경우 모델이 제대로 수행되지 않는 새 이미지는 휴먼 인더 루프 프로세스에서 검토하고 주석을 달아야 하며, 종종 다음 작업은 새 이미지로 모델을 업데이트하기 위한 모델 개발 루프로 돌아갑니다.

  10. 인프라 모니터링: 이벤트 및 작업

    배포를 위한 엔드포인트 응답 지연 또는 컴퓨팅 부족과 같은 인프라 문제에 대한 기준에 따라 자동화된 트리거 및 알림은 수행에 적절한 작업을 구현할 수 있습니다. 이것은 인프라 팀이 환경, 컴퓨팅 및 네트워크 리소스를 조사하고 잠재적으로 재구성할 수 있는 설정 및 관리 단계로의 루프백을 트리거합니다.

Machine Learning NLP 아키텍처

N L P 아키텍처에 대한 다이어그램.

이 아키텍처의 Visio 파일을 다운로드합니다.

NLP 아키텍처에 대한 워크플로

Machine Learning NLP 아키텍처는 클래식 기계 학습 아키텍처를 기반으로 하지만 NLP 시나리오에 특정한 몇 가지 수정 사항이 있습니다.

  1. 데이터 자산

    이 요소는 데이터 과학 프로젝트의 조직 데이터 자산 및 잠재적인 데이터 원본 및 대상을 보여 줍니다. 데이터 엔지니어는 MLOps v2 수명 주기에서 이 요소의 기본 소유자입니다. 이 다이어그램의 Azure 데이터 플랫폼은 완전하거나 규범적이지 않습니다. 고객 사용 사례에 따라 권장되는 모범 사례를 나타내는 데이터 원본 및 대상은 녹색 확인 표시로 표시됩니다.

  2. 관리 및 설치

    이 요소는 MLOps v2 가속기 배포의 첫 번째 단계입니다. 이것은 프로젝트와 연결된 리소스 및 역할의 생성 및 관리와 관련된 모든 작업으로 구성됩니다. NLP 시나리오의 경우 MLOps v2 환경의 관리 및 설정은 클래식 기계 학습과 거의 동일하지만 추가 단계인 Machine Learning 또는 다른 도구의 레이블 지정 기능을 사용하여 이미지 레이블 지정 및 주석 프로젝트를 만듭니다.

  3. 모델 개발(내부 루프)

    내부 루프 요소는 전용 보안 Machine Learning 작업 영역 내에서 수행된 반복 데이터 과학 워크플로로 구성됩니다. 일반적인 NLP 모델 개발 루프는 텍스트 데이터에 대한 문장 및 토큰화, 정규화 및 포함에 대한 주석이 이 시나리오의 일반적인 개발 단계라는 점에서 전통적인 기계 학습 시나리오와 크게 다를 수 있습니다.

  4. Machine Learning 레지스트리

    데이터 과학 팀이 프로덕션에 배포할 후보 모델을 개발하면 Machine Learning 작업 영역 레지스트리에 모델을 등록할 수 있습니다. 모델 등록 또는 제어된 휴먼 인더 루프 승인에 의해 자동으로 트리거되는 CI 파이프라인은 모델 및 기타 모델 종속성을 모델 배포 단계로 승격합니다.

  5. 모델 배포(외부 루프)

    모델 배포 또는 외부 루프 단계는 사전 프로덕션 준비 및 테스트, 프로덕션 배포, 모델, 데이터 및 인프라 모니터링으로 구성됩니다. CD 파이프라인은 조직 및 사용 사례에 대한 기준이 충족될 때, 프로덕션, 모니터링 및 잠재적 재학습을 통해 모델 및 관련 자산의 승격을 관리합니다.

  6. 준비 및 테스트

    준비 및 테스트 단계는 고객 사례에 따라 다를 수 있지만 일반적으로 프로덕션 데이터에 대한 모델 후보 재학습 및 테스트, 엔드포인트 성능을 위한 테스트 배포, 데이터 품질 검사, 단위 테스트, 모델 및 데이터 바이어스에 대한 책임 있는 AI 검사와 같은 작업을 포함합니다. 이 단계는 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  7. 프로덕션 배포

    모델이 준비 및 테스트 단계를 통과한 후 휴먼 인 더 루프 제어 승인으로 프로덕션으로 승격할 수 있습니다. 모델 배포 옵션에는 일괄 처리 시나리오를 위한 관리형 일괄 처리 엔드포인트 또는 근 실시간 온라인 시나리오의 경우 Azure Arc를 사용한 관리형 온라인 엔드포인트 또는 Kubernetes 배포가 포함됩니다. 프로덕션은 일반적으로 하나 이상의 전용 보안 Machine Learning 작업 영역에서 수행됩니다.

  8. 모니터링

    준비, 테스트 및 프로덕션에서 모니터링하면 모델, 데이터 및 인프라의 성능에 대한 변경 사항을 수집하고 조치를 수행할 수 있습니다. 모델 및 데이터 모니터링에는 모델 및 데이터 드리프트 확인, 새 텍스트 데이터에 대한 모델 성능 및 책임 있는 AI 문제가 포함될 수 있습니다. 인프라 모니터링은 느린 엔드포인트 응답, 부적절한 컴퓨팅 용량 또는 네트워크 문제와 같은 문제를 감시할 수 있습니다.

  9. 데이터 및 모델 모니터링: 이벤트 및 작업

    CV 아키텍처의 경우처럼, NLP용 MLOps의 데이터 및 모델 모니터링 및 이벤트 및 작업 단계는 클래식 기계 학습의 주요 차이점입니다. 일반적으로 새 텍스트에 대한 모델 성능 저하가 감지될 때 NLP 시나리오에서는 자동화된 재학습이 수행되지 않습니다. 이 경우 휴먼 인더 루프 프로세스를 통해 모델이 제대로 수행되지 않는 새 텍스트 데이터를 검토하고 주석을 달아야 합니다. 종종 다음 작업은 모델 개발 루프로 돌아가서 모델을 새 텍스트 데이터로 업데이트하는 것입니다.

  10. 인프라 모니터링: 이벤트 및 작업

    배포를 위한 엔드포인트 응답 지연 또는 컴퓨팅 부족과 같은 인프라 문제에 대한 기준에 따라 자동화된 트리거 및 알림은 수행에 적절한 작업을 구현할 수 있습니다. 이러한 기능은 인프라 팀이 컴퓨팅 및 네트워크 리소스를 조사하고 잠재적으로 재구성할 수 있는 설정 및 관리 단계로의 루프백을 트리거합니다.

구성 요소

  • Machine Learning: 기계 학습 모델을 규모에 맞게 학습, 점수 매기기, 배포 및 관리하기 위한 클라우드 서비스입니다.
  • Azure Pipelines: 이 빌드 및 테스트 시스템은 Azure DevOps를 기반으로 하며 빌드 및 릴리스 파이프라인에 사용됩니다. Azure Pipelines는 이러한 파이프라인을 작업이라는 논리적 단계로 나눕니다.
  • GitHub: 버전 제어, 협업 및 CI/CD 워크플로를 위한 코드 호스팅 플랫폼입니다.
  • Azure Arc: Azure Resource Manager를 사용하여 Azure 및 온-프레미스 리소스를 관리하기 위한 플랫폼입니다. 리소스에는 가상 머신, Kubernetes 클러스터 및 데이터베이스가 포함될 수 있습니다.
  • Kubernetes: 컨테이너화된 애플리케이션의 배포, 스케일링 및 관리를 자동화하기 위한 오픈 소스 시스템입니다.
  • Azure Data Lake: Hadoop 호환 파일 시스템입니다. 통합된 계층 구조 네임스페이스와 Blob Storage의 대규모 스케일링 성능과 경제성이 있습니다.
  • Azure Synapse Analytics: 데이터 통합, 엔터프라이즈 데이터 웨어하우징 및 빅데이터 분석을 결합하는 무제한 분석 서비스입니다.
  • Azure Event Hubs - 클라이언트 애플리케이션에서 생성된 데이터 스트림을 수집하는 서비스입니다. 그런 다음 수신된 이벤트의 순서를 보존하면서, 스트리밍 데이터를 수집하고 저장합니다. 소비자는 허브 엔드포인트에 연결하여 처리할 메시지를 검색할 수 있습니다. 여기서는 Data Lake Storage와 통합을 활용하고 있습니다.

참가자

Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.

주요 작성자:

비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.

다음 단계