Share via


모델 카탈로그 및 컬렉션

Azure Machine Learning 스튜디오의 모델 카탈로그는 생성형 AI 애플리케이션을 빌드할 수 있는 다양한 모델을 발견하고 사용할 수 있는 허브입니다. 모델 카탈로그에는 Microsoft에서 학습한 모델을 포함하여 Azure OpenAI 서비스, Mistral, Meta, Cohere, Nvidia, Hugging Face와 같은 모델 공급자 전반에 걸쳐 수백 개의 모델이 포함되어 있습니다. Microsoft가 아닌 공급자의 모델은 Microsoft 제품 약관에 정의된 대로 Microsoft가 아닌 타사 제품이며 해당 모델과 함께 제공된 약관이 적용됩니다.

모델 컬렉션

모델은 모델 카탈로그의 컬렉션별로 구성됩니다. 모델 카탈로그에는 세 가지 형식의 컬렉션이 있습니다.

  • Azure AI가 큐레이팅한 모델: Azure AI 플랫폼에서 원활하게 작동하도록 패키지화되고 최적화된 가장 자주 사용되는 타사의 개방형 적정 모델입니다. 이러한 모델의 사용에는 해당 모델과 함께 제공되는 모델 공급자의 사용 조건이 적용됩니다. Azure Machine Learning에 배포된 경우 모델의 가용성은 해당 Azure SLA에 따라 결정되며 Microsoft는 배포 문제에 대한 지원을 제공합니다. Meta, NVIDIA, Mistral AI와 같은 파트너의 모델은 카탈로그의 "Azure AI에 의해 큐레이팅된" 컬렉션에서 사용할 수 있는 모델의 예입니다. 이러한 모델은 카탈로그의 모델 타일에 있는 녹색 확인 표시로 식별하거나 "Azure AI에서 큐레이팅된" 컬렉션을 기준으로 필터링할 수 있습니다.
  • Azure에서만 사용할 수 있는 Azure OpenAI 모델: Azure OpenAI Service를 통합하여 'Azure OpenAI' 컬렉션을 통해 높은 평가를 받는 Azure OpenAI 모델을 제공합니다. 이러한 모델은 Microsoft에서 지원하며 해당 모델의 사용에는 제품 약관 및 Azure OpenAI Service SLA가 적용됩니다.
  • Hugging Face 허브의 공개 모델: HuggingFace 허브의 수백 가지 모델은 온라인 엔드포인트와의 실시간 유추를 위해 'Hugging Face' 컬렉션을 통해 액세스할 수 있습니다. Hugging Face는 HuggingFace 컬렉션에 나열된 모델을 만들고 유지 관리합니다. 도움이 필요하면 HuggingFace 포럼 또는 HuggingFace 지원을 사용합니다. Hugging Face에서 모델을 배포하는 방법에 대해 자세히 알아봅니다.

모델 카탈로그에 추가 제안:이 양식을 사용하여 모델 카탈로그에 모델을 추가하라는 요청을 제출할 수 있습니다.

모델 카탈로그 기능 개요

Azure OpenAI 모델에 대한 자세한 내용은 Azure OpenAI Service를 참조하세요.

Azure AI에서 큐레이팅한 모델Hugging Face 허브의 개방형 모델의 경우 이 중 일부는 실시간 엔드포인트로 배포할 수 있고 일부는 종량제 청구(서비스형 모델)를 사용하여 배포할 수 있습니다. 이러한 모델은 검색, 비교, 평가, 미세 조정(지원되는 경우) 및 대규모 배포가 가능하며 엔터프라이즈급 보안 및 데이터 거버넌스를 통해 생성형 AI 애플리케이션에 통합될 수 있습니다.

  • 검색: 모델 카드를 검토하고, 샘플 유추를 시도하고, 코드 샘플을 탐색하여 모델을 평가, 세부 조정 또는 배포합니다.
  • 비교: 업계에서 사용 가능한 모델 및 데이터 세트 전반의 벤치마크를 비교하여 사용자의 비즈니스 시나리오에 맞는 것이 무엇인지 평가합니다.
  • 평가: 자체 테스트 데이터를 제공하여 모델이 특정 워크로드에 적합한지 평가합니다. 평가 메트릭을 사용하면 선택한 모델이 시나리오에서 얼마나 잘 수행되었는지 쉽게 시각화할 수 있습니다.
  • 미세 조정: 자체 학습 데이터를 사용하여 미세 조정 가능한 모델을 사용자 지정하고 모든 미세 조정 작업에 대한 메트릭을 비교하여 최상의 모델을 선택합니다. 기본 제공된 최적화 기능은 미세 조정 속도를 높이고 미세 조정에 필요한 메모리와 컴퓨팅을 줄입니다.
  • 배포: 유추를 위해 미리 학습된 모델이나 미세 조정된 모델을 원활하게 배포합니다. 실시간 엔드포인트에 배포할 수 있는 모델도 다운로드할 수 있습니다.

모델 배포: 실시간 엔드포인트 및 서비스형 모델(종량제)

모델 카탈로그는 사용을 위해 카탈로그에서 모델을 배포하는 두 가지 방법, 즉 실시간 엔드포인트와 종량제 유추를 제공합니다. 각 모델에 사용 가능한 배포 옵션은 다양합니다. 아래 표에서 배포 옵션의 기능과 특정 모델에 사용할 수 있는 옵션에 대해 자세히 알아봅니다. 배포 옵션을 사용한 데이터 처리에 대해 자세히 알아봅니다.

기능 관리형 온라인 엔드포인트를 통한 실시간 유추 Models as a Service를 사용한 종량제
배포 환경 및 청구 모델 가중치는 관리형 온라인 엔드포인트가 있는 전용 Virtual Machines에 배포됩니다. 하나 이상의 배포가 가능한 관리형 온라인 엔드포인트는 유추를 위한 REST API를 제공합니다. 배포에 사용된 Virtual Machine 코어 시간에 대한 요금이 청구됩니다. 모델에 대한 액세스는 모델에 액세스하기 위한 API를 프로비전하는 배포를 통해 이루어집니다. API는 유추를 위해 Microsoft에서 관리하는 중앙 GPU 풀에서 호스트되는 모델에 대한 액세스를 제공합니다. 이러한 액세스 모드를 "서비스로서의 모델"이라고 합니다. API에 대한 입출력에 대한 비용은 일반적으로 토큰으로 청구됩니다. 배포하기 전에 가격 책정 정보가 제공됩니다.
API 인증 키 및 Microsoft Entra ID 인증. 자세히 알아보기. 키 전용.
콘텐츠 안전 Azure 콘텐츠 보안 서비스 API를 사용합니다. Azure AI 콘텐츠 보안 필터는 유추 API와 통합되어 제공됩니다. Azure AI 콘텐츠 보안 필터는 별도로 청구될 수 있습니다.
네트워크 격리 온라인 엔드포인트가 있는 관리되는 Virtual Network. 자세히 알아보기.

배포 옵션

모델 실시간 엔드포인트 종량제
Llama 제품군 모델 Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Llama-3-8B-Instruct
Llama-3-70B-Instruct
Llama-3-8B
Llama-3-70B
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Llama-2-7b
Llama-2-7b-chat
Llama-2-13b
Llama-2-13b-chat
Llama-2-70b
Llama-2-70b-chat
Mistral 제품군 모델 mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Mistral-large
Mistral-small
Cohere 제품군 모델 사용할 수 없음 Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
다른 모델 사용 가능 사용할 수 없음

서비스로서의 모델과 실시간 엔드포인트 서비스 주기를 보여 주는 다이어그램.

실시간 엔드포인트

실시간 엔드포인트에 모델을 배포하는 기능은 Azure Machine Learning의 플랫폼 기능을 기반으로 빌드되어 전체 LLMOps 수명 주기에 걸쳐 모델 카탈로그의 광범위한 모델 컬렉션을 원활하게 통합할 수 있습니다.

LLMops 수명 주기를 보여 주는 다이어그램.

실시간 엔드포인트에 모델을 어떻게 사용할 수 있나요?

모델은 모델 가중치, 모델 실행을 위한 컨테이너 런타임, 모델 평가 및 미세 조정을 위한 파이프라인, 벤치마크 및 샘플을 위한 데이터 세트 등의 Machine Learning 자산 호스팅 및 배포에 대한 ML의 첫 번째 방식을 가능하게 하는 Azure Machine Learning 레지스트리를 통해 사용할 수 있습니다. 이러한 ML 레지스트리는 다음과 같은 확장성이 뛰어나고 엔터프라이즈급 인프라를 기반으로 빌드됩니다.

실시간 엔드포인트로 배포된 모델 평가 및 미세 조정

Azure Machine Learning 파이프라인을 사용하여 Azure Machine Learning의 "Azure AI에 의해 큐레이팅된" 컬렉션을 평가하고 세부 조정할 수 있습니다. 자체 평가 및 미세 조정 코드를 가져오고 모델 가중치에 액세스하거나 기본 제품 평가 및 미세 조정 기능을 제공하는 Azure Machine Learning 구성 요소를 사용하도록 선택할 수 있습니다. 자세히 알아보려면 이 링크를 따릅니다.

유추용 모델을 실시간 엔드포인트로 배포

실시간 엔드포인트에 배포할 수 있는 모델은 실시간 유추를 위해 Azure Machine Learning 온라인 엔드포인트에 배포하거나 Azure Machine Learning Batch 유추에 사용하여 데이터를 일괄 처리할 수 있습니다. 온라인 엔드포인트에 배포하려면 모델을 최적으로 실행하는 데 필요한 특정 SKU에 대해 Azure 구독에 가상 머신 할당량이 있어야 합니다. 일부 모델에서는 모델 테스트를 위한 임시 공유 할당량에 배포할 수 있습니다. 모델 배포 방법에 대한 자세한 정보:

실시간 엔드포인트로 생성형 AI 앱 빌드

프롬프트 흐름은 AI 애플리케이션의 프로토타입 제작, 실험, 반복 및 배포를 위한 기능을 제공합니다. Open Model LLM 도구를 사용하면 프롬프트 흐름에서 실시간 엔드포인트로 배포된 모델을 사용할 수 있습니다. Azure Machine Learning 확장을 통해 LangChain과 같은 널리 사용되는 LLM 도구의 실시간 엔드포인트에서 노출되는 REST API를 사용할 수도 있습니다.

실시간 엔드포인트로 배포된 모델의 콘텐츠 보안

AACS(Azure AI 콘텐츠 보안) 서비스를 실시간 엔드포인트와 함께 사용하여 성적 콘텐츠, 폭력, 증오, 자해 등 다양한 범주의 유해 콘텐츠와 탈옥 위험 검색 및 보호 재질 텍스트 검색과 같은 지능형 위협을 검사할 수 있습니다. Llama 2용 AACS와의 참조 통합에 대해 이 Notebook을 참조하거나 프롬프트 흐름의 콘텐츠 보안(텍스트) 도구를 사용하여 심사를 위해 모델의 응답을 AACS로 전달할 수 있습니다. 이러한 사용에 대해서는 AACS 가격 책정에 따라 별도로 요금이 청구됩니다.

모델 카탈로그에 없는 모델 작업

모델 카탈로그에서 사용할 수 없는 모델의 경우 Azure Machine Learning은 선택한 모델로 작업할 수 있는 확장 가능한 개방형 플랫폼을 제공합니다. 프레임워크와 런타임을 패키지할 수 있는 컨테이너용 Azure Machine Learning 환경 및 모델을 평가하거나 미세 조정하기 위한 코드용 Azure Machine Learning 파이프라인과 같은 Azure Machine Learning의 확장 가능한 개방형 플랫폼 기능을 사용하여 모든 프레임워크 또는 런타임으로 모델을 가져올 수 있습니다. 모델 가져오기 및 기본 제공 런타임 및 파이프라인 사용에 대한 샘플 참조는 이 Notebook을 참조하세요.

Models-as-a-Service(종량제)

모델 카탈로그의 특정 모델은 종량제 청구를 사용하여 배포할 수 있습니다. 이 배포 방법을 MaaS(Models-as-a Service)라고 합니다. MaaS를 통해 사용 가능한 모델은 Microsoft가 관리하는 인프라에서 호스트되므로 모델 공급자의 모델에 대한 API 기반 액세스가 가능합니다. API 기반 액세스는 모델 액세스 비용을 대폭 줄이고 프로비전 환경을 크게 간소화할 수 있습니다. 대부분의 MaaS 모델에는 토큰 기반 가격 책정이 제공됩니다.

MaaS에서 타사 모델을 어떻게 사용할 수 있나요?

모델 게시자 서비스 주기를 보여 주는 다이어그램.

종량제 배포에 사용할 수 있는 모델은 모델 공급자가 제공하지만 Microsoft 관리 Azure 인프라에서 호스트되고 API를 통해 액세스됩니다. 모델 공급자는 사용 조건을 정의하고 모델 사용 가격을 설정하는 반면, Azure Machine Learning Service는 호스팅 인프라를 관리하고 유추 API를 사용할 수 있도록 하며 MaaS를 통해 배포된 모델에 의해 제출된 프롬프트 및 콘텐츠 출력에 대한 데이터 프로세서 역할을 합니다. 데이터 개인 정보 보호 문서에서 MaaS의 데이터 처리에 대해 자세히 알아봅니다.

MaaS의 모델 사용량에 대한 비용 지불

MaaS를 통해 배포된 모델에 대한 검색, 구독 및 사용량 환경은 Azure AI 스튜디오 및 Azure Machine Learning 스튜디오에 있습니다. 사용자는 모델 사용량에 대한 사용 조건에 동의하며 배포 중에 사용량에 대한 가격 책정 정보가 제공됩니다. 타사 공급자의 모델은 상업용 Marketplace 사용 약관에 따라 Azure Marketplace를 통해 요금이 청구되고, Microsoft의 모델은 자사 사용량 서비스로 Azure 미터를 사용하여 요금이 청구됩니다. 제품 약관에 설명된 대로 자사 사용량 서비스는 Azure 미터를 사용하여 구매하지만 Azure 서비스 약관이 적용되지 않습니다. 이러한 모델의 사용량에는 제공된 사용 조건이 적용됩니다.

MaaS를 통한 유추용 모델 배포

MaaS를 통해 모델을 배포하면 사용자는 인프라를 구성하거나 GPU를 프로비전할 필요 없이 바로 사용할 수 있는 유추 API에 액세스할 수 있어 엔지니어링 시간과 리소스가 절약됩니다. 이러한 API는 여러 LLM 도구와 통합될 수 있으며 이전 섹션에 설명된 대로 사용량이 청구됩니다.

종량제 방식의 MaaS를 통해 모델을 미세 조정

MaaS를 통해 사용 가능하고 미세 조정을 지원하는 모델의 경우 사용자는 종량제 청구를 통해 호스트된 미세 조정을 활용하여 자신이 제공하는 데이터를 사용하여 모델을 맞춤화할 수 있습니다. 자세한 내용은 Azure AI 스튜디오에서 Llama 2 모델 미세 조정을 참조하세요.

MaaS를 통해 배포된 모델이 포함된 RAG

Azure AI 스튜디오를 통해 사용자는 벡터 인덱스 및 검색 증강 생성을 활용할 수 있습니다. MaaS를 통해 배포할 수 있는 모델을 사용하면 사용자 지정 데이터를 기반으로 포함 및 유추를 생성하여 사용 사례에 맞는 답변을 생성할 수 있습니다. 자세한 내용은 증강 생성 및 인덱스 검색을 참조하세요.

제품 및 모델의 지역적 가용성

종량제 배포는 모델 공급자가 제품을 제공한 국가의 청구 계정에 Azure 구독이 속한 사용자에게만 제공됩니다(다음 섹션의 표에서 "제품 가용성 지역" 참조). 관련 지역에서 제품을 사용할 수 있는 경우 사용자는 해당하는 경우 모델을 배포하거나 미세 조정하는 데 사용할 수 있는 Azure 지역에 작업 영역이 있어야 합니다(아래 표의 "작업 영역" 열 참조).

모델 혜택 제품 지역 배포를 위한 작업 영역 미세 조정을 위한 작업 영역
Llama-3-70B-Instruct
Llama-3-8B-Instruct
Microsoft 관리 대상 국가 미국 동부 2, 스웨덴 중부 사용할 수 없음
Llama-2-7b
Llama-2-13b
Llama-2-70b
Microsoft 관리 대상 국가 미국 동부 2, 미국 서부 3 미국 서부 3
Llama-2-7b-chat
Llama-2-13b-chat
Llama-2-70b-chat
Microsoft 관리 대상 국가 미국 동부 2, 미국 서부 3 사용할 수 없음
Mistral-Large
Mistral Small
Microsoft 관리 대상 국가 미국 동부 2, 스웨덴 중부 사용할 수 없음
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-multilingual
Microsoft 관리 대상 국가
일본
미국 동부 2, 스웨덴 중부 사용할 수 없음

MaaS를 통해 배포된 모델의 콘텐츠 보안

Azure Machine Learning은 MaaS와 함께 배포된 언어 모델에 대해 유해한 콘텐츠(증오, 자해, 성적, 폭력)에 대한 Azure AI 콘텐츠 보안 텍스트 조정 필터의 기본 구성을 구현합니다. 콘텐츠 필터링에 대해 자세히 알아보려면 Azure AI 콘텐츠 보안의 피해 범주를 참조하세요. 콘텐츠 필터링은 서비스 프로세스에서 콘텐츠를 생성하라는 메시지를 표시할 때 동시에 발생하며 해당 사용에 대해서는 AACS 가격 책정에 따라 별도로 요금이 청구될 수 있습니다. 언어 모델을 처음 배포할 때 또는 배포 세부 정보 페이지에서 콘텐츠 필터링 토글을 클릭하여 개별 서버리스 엔드포인트에 대한 콘텐츠 필터링을 사용하지 않도록 설정할 수 있습니다. 콘텐츠 필터를 끄면 사용자가 유해한 콘텐츠에 노출될 위험이 더 커질 수 있습니다.

자세한 정보