다음을 통해 공유


Azure Machine Learning 스튜디오 함께 Meta Llama 모델 제품군을 사용하는 방법

이 문서에서는 LLM(Meta Llama 모델 제품군)에 대해 알아봅니다. Meta Llama 모델과 도구는 미리 학습되고 미세 조정된 생성형 AI 텍스트 및 이미지 추론 모델 컬렉션이며, 디바이스 및 에지 유추를 위한 SLM(1B, 3B Base 및 Instruct 모델)부터 중간 규모 LLM(7B, 8B 및 70B Base 및 Instruct 모델) 및 가상 데이터 생성 및 증류 사용 사례를 위한 Meta Llama 3.1 405B Instruct와 같은 고성능 모델까지 다양합니다.

Meta 블로그Microsoft 기술 커뮤니티 블로그를 통해 Azure AI 모델 카탈로그에서 현재 사용 가능한 Meta의 Llama 3.2 제품군 모델에 대한 공지 사항을 확인합니다.

LangChain, LiteLLM, OpenAIAzure API와의 통합을 살펴보려면 다음 GitHub 샘플을 참조하세요.

Important

이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기 버전은 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다.

자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Meta Llama 모델 제품군

Meta Llama 모델 제품군에는 다음 모델이 포함됩니다.

SLM과 이미지 추론 모델의 Llama 3.2 컬렉션이 출시되었습니다. 출시 예정될 Llama 3.2 11B Vision Instruct와 Llama 3.2 90B Vision Instruct는 Models-as-a-Service를 통해 서버리스 API 엔드포인트로 제공될 예정입니다. 이제 다음 모델을 관리 컴퓨팅을 통해 배포할 수 있습니다.

  • Llama 3.2 1B
  • Llama 3.2 3B
  • Llama 3.2 1B Instruct
  • Llama 3.2 3B Instruct
  • Llama Guard 3 1B
  • Llama Guard 11B Vision
  • Llama 3.2 11B Vision Instruct
  • Llama 3.2 90B Vision Instruct는 관리 컴퓨팅 배포에 사용할 수 있습니다.

필수 조건

  • 유효한 결제 방법을 사용하는 Azure 구독입니다. 무료 또는 평가판 Azure 구독은 작동하지 않습니다. Azure 구독이 없으면 유료 Azure 계정을 만들어 시작합니다.

  • Azure Machine Learning 작업 영역 및 컴퓨팅 인스턴스. 이러한 리소스가 없으면 빠른 시작: 작업 영역 리소스 만들기 문서의 단계에서 리소스를 만듭니다. Meta Llama 3.1 및 Llama 3에 대한 서버리스 API 모델 배포 제품은 다음 지역에서 만든 작업 영역에서만 사용할 수 있습니다.

    • 미국 동부
    • 미국 동부 2
    • 미국 중북부
    • 미국 중남부
    • 미국 서부
    • 미국 서부 3
    • 스웨덴 중부

    서버리스 API 엔드포인트 배포를 지원하는 각 모델에 사용할 수 있는 지역 목록은 서버리스 API 엔드포인트의 모델에 대한 지역 가용성을 참조하세요.

  • Azure RBAC(Azure 역할 기반 액세스 제어)는 Azure Machine Learning의 작업에 대한 액세스 권한을 부여하는 데 사용됩니다. 이 문서의 단계를 수행하려면 사용자 계정에 Azure 구독에 대한 소유자 또는 기여자 역할이 할당되어야 합니다. 또는 계정에 다음 권한이 있는 사용자 지정 역할을 할당할 수 있습니다.

    • Azure 구독에서 작업 영역을 Azure Marketplace 제품에 등록하려면(각 작업 영역에 대해 제품별로 한 번씩) 다음을 수행합니다.

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • 리소스 그룹에서 SaaS 리소스를 만들고 사용하려면 다음을 수행합니다.

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • 작업 영역에서 엔드포인트를 배포하려면 다음을 수행합니다(Azure Machine Learning 데이터 과학자 역할에는 이미 이러한 권한이 포함되어 있음).

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    권한에 대한 자세한 내용은 Azure Machine Learning 작업 영역에 대한 액세스 관리를 참조하세요.

새 배포 만들기

배포를 만들려면 다음을 수행합니다.

  1. Azure Machine Learning 스튜디오로 이동합니다.

  2. 모델을 배포할 작업 영역을 선택합니다. 종량제 모델 배포 제품을 사용하려면 작업 영역이 이 문서의 필수 구성 요소에 나열된 사용 가능한 지역 중 하나에 속해 있어야 합니다.

  3. 모델 카탈로그에서 배포할 Meta-Llama-3.1-405B-Instruct를 선택합니다.

    또는 작업 영역으로 이동하고 엔드포인트>서버리스 엔드포인트>만들기를 선택하여 배포를 시작할 수 있습니다.

  4. Meta-Llama-3.1-405B-Instruct세부 정보 페이지에서 배포를 선택한 다음 Azure AI 콘텐츠 보안을 사용하는 서버리스 API를 선택합니다.

  5. 배포 마법사에서 Azure Marketplace 사용 약관에 대한 링크를 선택하여 사용 약관에 대해 자세히 알아봅니다. Marketplace 제품 세부 정보 탭을 선택하여 선택한 모델의 가격 책정에 대해 알아볼 수도 있습니다.

  6. 작업 영역에 모델을 처음 배포하는 경우 Azure Marketplace에서 특정 제품(예: Meta-Llama-3.1-405B-Instruct)에 대한 작업 영역을 구독해야 합니다. 이 단계를 수행하려면 계정에 필수 구성 요소에 나열된 Azure 구독 권한 및 리소스 그룹 권한이 있어야 합니다. 각 작업 영역에는 지출을 제어하고 모니터링할 수 있는 특정 Azure Marketplace 제품에 대한 자체 구독이 있습니다. 구독 및 배포를 선택합니다.

    참고 항목

    특정 Azure Marketplace 제품(이 경우 Meta-Llama-3-70B)에 작업 공간을 등록하려면 프로젝트를 만든 구독 수준에서 계정에 기여자 또는 소유자 액세스 권한이 있어야 합니다. 또는 사용자 계정에 필수 조건에 나열된 Azure 구독 권한 및 리소스 그룹 권한이 있는 사용자 지정 역할을 할당할 수 있습니다.

  7. 특정 Azure Marketplace 제품에 대한 작업 영역을 등록한 후에는 ‘동일한’ 작업 영역에서 ‘동일한’ 제품의 후속 배포 를 다시 구독할 필요가 없습니다. 따라서 후속 배포에 대한 구독 수준 권한이 필요하지 않습니다. 이 시나리오가 적용되는 경우 계속 배포를 선택합니다.

  8. 배포에 이름을 지정합니다. 이 이름은 배포 API URL의 일부가 됩니다. 이 URL은 각 Azure 지역에서 고유해야 합니다.

  9. 배포를 선택합니다. 배포가 완료되고 서버리스 엔드포인트 페이지로 리디렉션될 때까지 기다립니다.

  10. 엔드포인트를 선택하여 세부 정보 페이지를 엽니다.

  11. 테스트 탭을 선택하여 모델과의 상호 작용을 시작합니다.

  12. 배포를 호출하고 완료를 생성하기 위해 대상 URL 및 비밀 키를 적어둘 수도 있습니다.

  13. 작업 영역>엔드포인트>서버리스 엔드포인트로 이동하여 항상 엔드포인트의 세부 정보, URL 및 액세스 키를 찾을 수 있습니다.

서버리스 API로 배포된 Meta Llama 모델에 대한 청구에 대한 자세한 내용은 서버리스 API로 배포된 Meta Llama 모델에 대한 비용 및 할당량 고려 사항을 참조하세요.

Meta Llama 모델을 서비스로 사용

서비스로 배포된 모델은 배포한 모델 유형에 따라 채팅 또는 완료 API를 사용하여 사용할 수 있습니다.

  1. 작업 영역에서 엔드포인트>서버리스 엔드포인트를 선택합니다.

  2. 만든 Meta-Llama-3.1-405B-Instruct 배포를 찾아 선택합니다.

  3. 대상 URL 및 토큰 값을 복사합니다.

  4. 배포한 모델 유형에 따라 API 요청을 만듭니다.

    API 사용에 대한 자세한 내용은 참조 섹션을 참조하세요.

서버리스 API로 배포된 Meta Llama 3.1 모델 참조

Llama 모델은 /chat/completions 경로의 Azure AI 모델 유추 API 또는 /v1/chat/completionsLlama 채팅 API를 모두 허용합니다. 같은 방식으로, /completions 경로의 Azure AI 모델 유추 API 또는 /v1/completionsLlama 완료 API를 사용하여 텍스트 완료를 생성할 수 있음

Azure AI 모델 유추 API 스키마는 채팅 완료 참조 문서에서 찾을 수 있으며 OpenAPI 사양은 엔드포인트 자체에서 가져올 수 있습니다.

완료 API

메서드 POST를 사용하여 요청을 /v1/completions 경로로 보냅니다.

요청

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

요청 스키마

페이로드는 다음 매개 변수를 포함하는 JSON 형식 문자열입니다.

Type 기본값 설명
prompt string 기본값은 없습니다. 이 값을 지정해야 합니다. 모델에 보낼 프롬프트입니다.
stream boolean False 스트리밍을 사용하면 사용할 수 있을 때마다 생성된 토큰을 데이터 전용 서버 전송 이벤트로 보낼 수 있습니다.
max_tokens integer 16 완료 시 생성할 최대 토큰 수입니다. 프롬프트의 토큰 수에 max_tokens를 더한 값은 모델의 컨텍스트 길이를 초과할 수 없습니다.
top_p float 1 핵 샘플링이라고 하는 온도 샘플링의 대안으로, 모델은 확률 질량이 top_p인 토큰의 결과를 고려합니다. 따라서 0.1은 상위 10% 확률 질량을 구성하는 토큰만 고려됨을 의미합니다. 일반적으로 이를 변경하거나 top_p 또는 temperature 중 하나만 변경하는 것이 좋습니다.
temperature float 1 사용할 샘플링 온도입니다(0에서 2 사이). 값이 높을수록 모델이 토큰의 분산을 보다 넓게 샘플링함을 의미합니다. 0은 탐욕적 샘플링을 의미합니다. 이를 변경하거나 top_p를 변경하는 것이 좋지만 둘 다 변경하는 것은 바람직하지 않습니다.
n integer 1 각 프롬프트에 대해 생성할 완료 수입니다.
참고: 이 매개 변수는 많은 완료를 생성하므로 토큰 할당량을 빠르게 소모할 수 있습니다.
stop array null API가 추가 토큰 생성을 중지하는 단어를 포함하는 문자열 또는 문자열 목록입니다. 반환된 텍스트에는 중지 시퀀스가 포함되지 않습니다.
best_of integer 1 서버 쪽에서 best_of 완료를 생성하고 "최상"(토큰당 로그 확률이 가장 낮은 것)을 반환합니다. 결과를 스트리밍할 수 없습니다. n과 함께 사용하면 best_of는 후보 완료 횟수를 제어하고 n은 반환할 횟수를 지정합니다. 여기서 best_of는 n보다 커야 합니다.
참고: 이 매개 변수는 많은 완료를 생성하므로 토큰 할당량을 빠르게 소모할 수 있습니다.
logprobs integer null logprobs에 가장 가능성이 높은 토큰과 선택한 토큰에 대한 로그 확률을 포함함을 가리키는 숫자입니다. 예를 들어 logprobs가 10이면 API는 가장 가능성이 높은 10개의 토큰을 반환합니다. API는 항상 샘플링된 토큰의 logprob를 반환하므로 응답에 최대 logprobs+1개 요소가 있을 수 있습니다.
presence_penalty float null -2.0~2.0 사이의 숫자 양수 값은 지금까지 텍스트에 나타나는지 여부에 따라 새 토큰에 페널티를 부여하여 모델이 새 항목에 대해 이야기할 가능성을 높입니다.
ignore_eos boolean True EOS 토큰을 무시하고 EOS 토큰 생성 후 토큰을 계속 생성할지 여부입니다.
use_beam_search boolean False 샘플링 대신 빔 검색을 사용할지 여부입니다. 이 경우 best_of1보다 커야 하며 temperature0이어야 합니다.
stop_token_ids array null 토큰이 생성될 때 추가 토큰 생성을 중지하는 토큰에 대한 ID 목록입니다. 중지 토큰이 특수 토큰이 아닌 한 반환된 출력에는 중지 토큰이 포함됩니다.
skip_special_tokens boolean null 출력에서 특수 토큰을 건너뛸지 여부입니다.

예시

본문

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

응답 스키마

응답 페이로드는 다음 필드가 있는 사전입니다.

형식 설명
id string 완료의 고유 식별자입니다.
choices array 입력 프롬프트에 대해 생성된 모델의 완료 선택 목록입니다.
created integer 완료가 만들어진 시점의 Unix 타임스탬프(초)입니다.
model string 완료에 사용되는 model_id입니다.
object string 항상 text_completion인 개체 형식입니다.
usage object 완료 요청의 사용 통계입니다.

스트리밍 모드에서 각 응답 청크마다 finish_reason은 페이로드 [DONE]에 의해 종료되는 마지막 청크를 제외하고 항상 null입니다.

choices 개체는 다음 필드가 있는 사전입니다.

형식 설명
index integer 선택 인덱스입니다. best_of> 1이면 이 배열의 인덱스가 순서가 맞지 않을 수 있으며 0~n-1이 아닐 수 있습니다.
text string 완료 결과입니다.
finish_reason string 모델이 토큰 생성을 중지한 이유는 다음과 같습니다.
- stop: 모델이 자연 중지 지점 또는 제공된 중지 시퀀스에 도달했습니다.
- length: 최대 토큰 수에 도달한 경우입니다.
- content_filter: RAI가 조정되고 CMP가 강제로 조정하는 경우입니다.
- content_filter_error: 조정 중에 오류가 발생했으며 응답을 결정할 수 없습니다.
- null: API 응답이 아직 진행 중이거나 완료되지 않았습니다.
logprobs object 출력 텍스트에서 생성된 토큰의 로그 확률입니다.

usage 개체는 다음 필드가 있는 사전입니다.

Type
prompt_tokens integer 프롬프트에 있는 토큰 수입니다.
completion_tokens integer 완료에서 생성된 토큰 수입니다.
total_tokens integer 총 토큰입니다.

logprobs 개체는 다음 필드가 있는 사전입니다.

Type
text_offsets integersarray 완료 출력에서 각 토큰의 위치 또는 인덱스입니다.
token_logprobs floatarray top_logprobs 배열의 사전에서 선택한 logprobs입니다.
tokens stringarray 선택한 토큰입니다.
top_logprobs dictionaryarray 사전의 배열입니다. 각 사전에서 키는 토큰이고 값은 prob입니다.

예시

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

채팅 API

메서드 POST를 사용하여 요청을 /v1/chat/completions 경로로 보냅니다.

요청

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

요청 스키마

페이로드는 다음 매개 변수를 포함하는 JSON 형식 문자열입니다.

Type 기본값 설명
messages string 기본값은 없습니다. 이 값을 지정해야 합니다. 모델을 프롬프트하는 데 사용할 메시지 또는 메시지의 기록입니다.
stream boolean False 스트리밍을 사용하면 사용할 수 있을 때마다 생성된 토큰을 데이터 전용 서버 전송 이벤트로 보낼 수 있습니다.
max_tokens integer 16 완료 시 생성할 최대 토큰 수입니다. 프롬프트의 토큰 수에 max_tokens를 더한 값은 모델의 컨텍스트 길이를 초과할 수 없습니다.
top_p float 1 핵 샘플링이라고 하는 온도 샘플링의 대안으로, 모델은 확률 질량이 top_p인 토큰의 결과를 고려합니다. 따라서 0.1은 상위 10% 확률 질량을 구성하는 토큰만 고려됨을 의미합니다. 일반적으로 이를 변경하거나 top_p 또는 temperature 중 하나만 변경하는 것이 좋습니다.
temperature float 1 사용할 샘플링 온도입니다(0에서 2 사이). 값이 높을수록 모델이 토큰의 분산을 보다 넓게 샘플링함을 의미합니다. 0은 탐욕적 샘플링을 의미합니다. 이를 변경하거나 top_p를 변경하는 것이 좋지만 둘 다 변경하는 것은 바람직하지 않습니다.
n integer 1 각 프롬프트에 대해 생성할 완료 수입니다.
참고: 이 매개 변수는 많은 완료를 생성하므로 토큰 할당량을 빠르게 소모할 수 있습니다.
stop array null API가 추가 토큰 생성을 중지하는 단어를 포함하는 문자열 또는 문자열 목록입니다. 반환된 텍스트에는 중지 시퀀스가 포함되지 않습니다.
best_of integer 1 서버 쪽에서 best_of 완료를 생성하고 "최상"(토큰당 로그 확률이 가장 낮은 것)을 반환합니다. 결과를 스트리밍할 수 없습니다. n과 함께 사용하면 best_of는 후보 완료 횟수를 제어하고 n은 반환할 횟수를 지정합니다. best_ofn보다 커야 합니다.
참고: 이 매개 변수는 많은 완료를 생성하므로 토큰 할당량을 빠르게 소모할 수 있습니다.
logprobs integer null logprobs에 가장 가능성이 높은 토큰과 선택한 토큰에 대한 로그 확률을 포함함을 가리키는 숫자입니다. 예를 들어 logprobs가 10이면 API는 가장 가능성이 높은 10개의 토큰을 반환합니다. API는 항상 샘플링된 토큰의 logprob를 반환하므로 응답에 최대 logprobs+1개의 요소가 있을 수 있습니다.
presence_penalty float null -2.0~2.0 사이의 숫자 양수 값은 지금까지 텍스트에 나타나는지 여부에 따라 새 토큰에 페널티를 부여하여 모델이 새 항목에 대해 이야기할 가능성을 높입니다.
ignore_eos boolean True EOS 토큰을 무시하고 EOS 토큰 생성 후 토큰을 계속 생성할지 여부입니다.
use_beam_search boolean False 샘플링 대신 빔 검색을 사용할지 여부입니다. 이 경우 best_of1보다 커야 하며 temperature0이어야 합니다.
stop_token_ids array null 토큰이 생성될 때 추가 토큰 생성을 중지하는 토큰에 대한 ID 목록입니다. 중지 토큰이 특수 토큰이 아닌 한 반환된 출력에는 중지 토큰이 포함됩니다.
skip_special_tokens boolean null 출력에서 특수 토큰을 건너뛸지 여부입니다.

messages 개체에는 다음 필드가 있습니다.

Type
content string 메시지의 내용입니다. 모든 메시지에 콘텐츠가 필요합니다.
role string 메시지 작성자의 역할입니다. system, user 또는 assistant 중 하나입니다.

예시

본문

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

응답 스키마

응답 페이로드는 다음 필드가 있는 사전입니다.

형식 설명
id string 완료의 고유 식별자입니다.
choices array 입력 메시지를 위해 모델이 생성한 완료 선택 목록입니다.
created integer 완료가 만들어진 시점의 Unix 타임스탬프(초)입니다.
model string 완료에 사용되는 model_id입니다.
object string 항상 chat.completion인 개체 형식입니다.
usage object 완료 요청의 사용 통계입니다.

스트리밍 모드에서 각 응답 청크마다 finish_reason은 페이로드 [DONE]에 의해 종료되는 마지막 청크를 제외하고 항상 null입니다. 각 choices 개체에서 messages 키는 delta에 의해 변경됩니다.

choices 개체는 다음 필드가 있는 사전입니다.

형식 설명
index integer 선택 인덱스입니다. best_of> 1이면 이 배열의 인덱스가 순서가 맞지 않을 수 있으며 0~n-1이 아닐 수 있습니다.
messages 또는 delta string messages 개체의 채팅 완료 결과입니다. 스트리밍 모드를 사용하는 경우 delta 키가 사용됩니다.
finish_reason string 모델이 토큰 생성을 중지한 이유는 다음과 같습니다.
- stop: 모델이 자연 중지 지점 또는 제공된 중지 시퀀스에 도달했습니다.
- length: 최대 토큰 수에 도달한 경우입니다.
- content_filter: RAI가 조정되고 CMP가 강제로 조정하는 경우입니다.
- content_filter_error: 조정 중에 오류가 발생했으며 응답을 결정할 수 없습니다.
- null: API 응답이 아직 진행 중이거나 완료되지 않았습니다.
logprobs object 출력 텍스트에서 생성된 토큰의 로그 확률입니다.

usage 개체는 다음 필드가 있는 사전입니다.

Type
prompt_tokens integer 프롬프트에 있는 토큰 수입니다.
completion_tokens integer 완료에서 생성된 토큰 수입니다.
total_tokens integer 총 토큰입니다.

logprobs 개체는 다음 필드가 있는 사전입니다.

Type
text_offsets integersarray 완료 출력에서 각 토큰의 위치 또는 인덱스입니다.
token_logprobs floatarray top_logprobs 배열의 사전에서 선택한 logprobs입니다.
tokens stringarray 선택한 토큰입니다.
top_logprobs dictionaryarray 사전의 배열입니다. 각 사전에서 키는 토큰이고 값은 prob입니다.

예시

다음은 응답의 예입니다.

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

관리형 컴퓨팅에 Meta Llama 모델 배포

종량제 관리되는 서비스를 사용하여 배포하는 경우 외에도 Azure Machine Learning 스튜디오의 관리형 컴퓨팅에 Meta Llama 3.1 모델을 배포할 수도 있습니다. 관리형 컴퓨팅에 배포하는 경우 모델을 실행하는 데 사용되는 가상 머신과 예상 부하를 처리하는 인스턴스 수를 포함하여 모델을 실행하는 인프라에 대한 모든 세부 정보를 선택할 수 있습니다. 관리형 컴퓨팅에 배포된 모델은 구독에서 할당량을 사용합니다. 3.1 릴리스 웨이브의 다음 모델을 관리형 컴퓨팅에서 사용할 수 있습니다.

  • Meta-Llama-3.1-8B-Instruct(FT 지원)
  • Meta-Llama-3.1-70B-Instruct(FT 지원)
  • Meta-Llama-3.1-8B(FT 지원)
  • Meta-Llama-3.1-70B(FT 지원)
  • Llama Guard 3 8B
  • Prompt Guard

새 배포 만들기

Azure Machine Learning 스튜디오의 관리형 컴퓨팅에 Meta-Llama-3.1-70B-Instruct와 같은 모델을 배포하려면 다음 단계를 따릅니다.

  1. 모델을 배포할 작업 영역을 선택합니다.

  2. 스튜디오의 모델 카탈로그에서 배포할 모델을 선택합니다.

    또는 작업 영역으로 이동하고 엔드포인트>관리형 컴퓨팅>만들기를 선택하여 배포를 시작할 수 있습니다.

  3. 모델의 개요 페이지에서 배포를 선택한 다음, Azure AI 콘텐츠 보안을 사용하지 않는 관리형 컴퓨팅을 선택합니다.

  4. Azure AI 콘텐츠 보안을 사용하여 배포(미리 보기) 페이지에서 UI를 사용하여 모델을 계속 배포할 수 있도록 Azure AI 콘텐츠 보안 건너뛰기를 선택합니다.

    일반적으로 Meta Llama 모델 배포에 Azure AI 콘텐츠 보안 사용(권장)을 선택하는 것이 좋습니다. 이 배포 옵션은 현재 Python SDK를 사용해야만 지원되며 Notebook에서 발생합니다.

  5. 계속을 선택합니다.

    선택한 프로젝트에 사용할 수 있는 할당량이 충분하지 않은 경우 공유 할당량을 사용하려 하며 이 엔드포인트가 168시간 후에 삭제됨을 확인합니다 옵션을 사용할 수 있습니다.

  6. 가상 머신과 배포에 할당하려는 인스턴스 수를 선택합니다.

  7. 이 배포를 새 엔드포인트의 일부로 만들 것인지, 기존 엔드포인트의 일부로 만들 것인지 선택합니다. 엔드포인트는 각 배포의 리소스 구성을 배타적인 상태로 유지하면서 여러 배포를 호스트할 수 있습니다. 동일한 엔드포인트 아래의 배포는 엔드포인트 URI 및 해당 액세스 키를 공유합니다.

  8. 유추 데이터 수집(미리 보기)를 사용할지 여부를 나타냅니다.

  9. 패키지 모델(미리 보기)을 사용하도록 설정할지 여부를 나타냅니다.

  10. 배포를 선택합니다. 잠시 후에 엔드포인트의 세부 정보 페이지가 열립니다.

  11. 엔드포인트 만들기 및 배포가 완료될 때까지 기다립니다. 이 단계는 몇 분 정도 걸릴 수 있습니다.

  12. 엔드포인트의 사용 페이지를 선택하여 애플리케이션에서 배포된 모델을 사용하는 데 사용할 수 있는 코드 샘플을 가져옵니다.

스튜디오를 사용하여 관리형 컴퓨팅에 모델을 배포하는 방법에 대한 자세한 내용은 유추를 위해 엔드포인트에 기초 모델 배포를 참조하세요.

관리형 컴퓨팅에 배포된 Meta Llama 모델 사용

관리형 컴퓨팅에 배포된 Meta Llama 3 모델을 호출하는 방법에 대한 참조는 Azure Machine Learning 스튜디오 모델 카탈로그의 모델 카드를 참조하세요. 각 모델의 카드에는 모델에 대한 설명, 코드 기반 유추 샘플, 미세 조정 및 모델 평가가 포함된 개요 페이지가 있습니다.

추가 유추 예

Package(패키지) 샘플 Notebook
CURL 및 Python 웹 요청을 사용하는 CLI webrequests.ipynb
OpenAI SDK(실험용) openaisdk.ipynb
LangChain langchain.ipynb
LiteLLM SDK litellm.ipynb

비용 및 할당량

서버리스 API로 배포된 Meta Llama 3.1 모델의 비용 및 할당량 고려 사항

서버리스 API로 배포된 Meta Llama 3.1 모델은 Azure Marketplace를 통해 Meta에서 제공하며, Azure Machine Learning 스튜디오와 통합하여 사용할 수 있습니다. 모델을 배포하거나 미세 조정하는 경우 Azure Marketplace 가격 책정을 찾을 수 있습니다.

작업 영역이 Azure Marketplace에서 지정된 모델 제품을 구독할 때마다 사용에 연결된 비용을 추적하기 위해 새 리소스가 만들어집니다. 유추 및 미세 조정과 관련된 비용을 추적하는 데는 동일한 리소스가 사용되지만 여러 미터를 사용하여 각 시나리오를 독립적으로 추적할 수 있습니다.

비용을 추적하는 방법에 대한 자세한 내용은 Azure Marketplace를 통해 제공되는 모델에 대한 비용 모니터링을 참조하세요.

다양한 모델 제품 및 관련 미터에 해당하는 다양한 리소스를 보여 주는 스크린샷.

할당량은 배포당 관리됩니다. 각 배포에는 분당 400,000개의 토큰과 분당 1,000개의 API 요청의 속도 제한이 있습니다. 그러나 현재는 프로젝트별 모델당 하나의 배포로 제한됩니다. 현재 속도 제한이 시나리오에 충분하지 않은 경우 Microsoft Azure 지원에 문의하세요.

관리형 컴퓨팅으로 배포되는 Meta Llama 3.1 모델의 비용 및 할당량 고려 사항

관리형 컴퓨팅을 사용하는 Meta Llama 3.1 모델의 배포 및 유추의 경우 지역별로 구독에 할당된 VM(가상 머신) 코어 할당량을 사용합니다. Azure AI 스튜디오에 등록하면 해당 지역에서 사용할 수 있는 여러 VM 제품군에 대한 기본 VM 할당량이 제공됩니다. 할당량 한도에 도달할 때까지 계속해서 배포를 만들 수 있습니다. 이 제한에 도달하면 할당량 증가를 요청할 수 있습니다.

콘텐츠 필터링

서버리스 API로 배포된 모델은 Azure AI 콘텐츠 보안으로 보호됩니다. 관리형 컴퓨팅에 배포하는 경우 이 기능을 옵트아웃할 수 있습니다. Azure AI 콘텐츠 보안을 사용하도록 설정한 경우 유해한 콘텐츠의 출력을 탐지하고 방지하기 위한 분류 모델의 앙상블을 통해 프롬프트와 완료가 모두 실행됩니다. 콘텐츠 필터링(미리 보기) 시스템은 입력 프롬프트와 출력 완성 모두에서 잠재적으로 유해한 콘텐츠의 특정 범주를 검색하고 조치를 취합니다. Azure AI 콘텐츠 보안에 대해 자세히 알아보기.