엔드포인트에 모델 배포
카탈로그에서 모델을 선택한 후에는 애플리케이션에서 사용할 수 있는 엔드포인트를 통해 액세스할 수 있도록 모델을 배포합니다. Microsoft Foundry 포털은 배포 프로세스를 안내하고, 배포된 모델을 즉시 테스트하는 도구를 제공합니다.
배포 유형 이해
Microsoft Foundry는 여러 배포 유형을 지원하며, 각 배포 유형은 데이터 상주, 크기 조정 및 청구에 대해 서로 다른 특성을 제공합니다.
- 글로벌 표준 모델 배포는 토큰당 종량제 기준으로 모든 Azure 지역을 사용할 수 있습니다. 일반 워크로드에 가장 적합하며 가장 높은 할당량을 제공합니다.
- 전역 프로비전된 배포는 모든 Azure 지역을 사용할 수 있으며, 예측 가능한 높은 처리량을 제공하기 위해 PTU(예약 프로비전 처리량 단위) 기준으로 사용합니다.
- 글로벌 Batch 배포는 24시간 이내에 대규모 비동기 작업에 대해 50% 할인된 가격으로 모든 Azure 지역을 사용할 수 있습니다.
- 데이터 영역 표준 배포를 통해 데이터는 토큰당 종량제 기준으로 특정 데이터 영역 내에 유지됩니다. EU/미국 데이터 영역 규정 준수가 필요한 시나리오에 가장 적합합니다.
- 데이터 영역 프로비전된 배포는 데이터 영역 내의 예약된 CPU를 기반으로 예측 가능한 처리량을 제공합니다.
- 데이터 영역 일괄 처리 배포는 데이터 영역 내의 대규모 비동기 일괄 처리 작업을 위해 설계되었습니다.
- 표준 배포는 토큰당 종량제 기준으로 단일 지역 내에 배포됩니다. 지역 데이터 상주 규정 준수가 필요하거나 볼륨이 적은 시나리오에 적합합니다.
- 지역 프로비저닝된 배포는 단일 지역 내에서 예약된 CPU를 제공합니다.
- 개발자 개발자 배포는 토큰당 종량제 기준으로 모든 Azure 지역을 사용하며 미세 조정된 모델 평가에만 사용됩니다.
카탈로그의 각 모델은 지원하는 배포 유형을 나타냅니다. 포털은 환경 및 모델 요구 사항에 따라 최상의 배포 옵션을 자동으로 선택합니다. Foundry 리소스의 글로벌 표준 배포는 가능한 한 최대 기능을 위해 사용해야 합니다.
모델 배포
Microsoft Foundry 포털에서 모델을 배포하려면 다음을 수행합니다.
먼저 모델 카탈로그에서 선택한 모델로 이동합니다. Foundry 포털 홈페이지에서 탐색에서 검색 을 선택한 다음 왼쪽 창의 모델을 선택합니다. 모델 카드를 열어 사양 및 지원되는 배포 유형을 검토합니다.
배포를 선택하여 배포 프로세스를 시작합니다. 다음을 선택할 수 있습니다.
- 권장 구성을 사용하여 신속하게 배포하는 기본 설정
- 배포 옵션을 사용자 지정하는 사용자 지정 설정
모델에 Azure Marketplace 구독(파트너 및 커뮤니티의 모델에 공통)이 필요한 경우 사용 약관이 표시됩니다. 이러한 약관을 검토하고 동의를 선택하고 계속 하여 동의합니다. GPT-4o-mini와 같은 Azure OpenAI 모델과 같이 Azure 직접 판매되는 모델은 마켓플레이스 구독이 필요하지 않습니다.
배포 설정을 구성합니다.
-
배포 이름: 기본적으로 시스템은 모델 이름을 사용합니다. 이를 수정하여 동일한 모델의 여러 배포에 대한 의미 있는 이름을 만들 수 있습니다. 유추하는 동안 코드는 매개 변수에서
model이 배포 이름을 사용하여 요청을 라우팅합니다. - 배포 유형: 포털은 모델 및 환경에 따라 적절한 배포 유형을 자동으로 선택합니다. 각 모델은 서로 다른 데이터 상주 또는 처리량 보장을 제공하는 다양한 배포 유형을 지원합니다.
관리되는 컴퓨팅 배포의 경우 다음을 구성합니다.
- 가상 머신 SKU: 지원되는 VM 유형 중에서 선택합니다. 구독에서 선택한 SKU에 대한 Azure Machine Learning 컴퓨팅 할당량이 필요합니다.
- 인스턴스 수: 부하 분산 및 중복성을 위해 배포할 인스턴스 수를 지정합니다.
모든 설정을 구성한 후 배포를 선택합니다. 배포가 완료되면 모델을 대화형으로 테스트할 수 있는 Foundry Playground에 배치됩니다. 배포 목록에 배포 상태가 성공으로 표시되는지 확인합니다.
배포된 모델 관리
배포 후에는 Microsoft Foundry 포털의 빌드 섹션에서 모델을 관리합니다. 탐색에서 빌드 를 선택한 다음 왼쪽 창의 모델을 선택하여 리소스의 배포 목록을 확인합니다.
배포 목록에서 특정 모델을 선택하여 세부 정보를 봅니다.
- 배포 구성 및 상태
- API 액세스를 위한 엔드포인트 URL
- 인증 키 또는 토큰
- 모니터링 및 사용 메트릭
- 배포 설정을 조정하거나 배포를 삭제하는 옵션
배포 세부 정보 페이지에서는 애플리케이션이 모델을 연결하고 사용하는 데 필요한 정보를 제공합니다.
놀이터에서 테스트
Microsoft Foundry 포털에는 코드를 작성하지 않고 배포된 모델을 즉시 테스트하는 대화형 플레이그라운드가 포함되어 있습니다. 배포가 완료되면 자동으로 플레이그라운드에 착륙하거나 모델 목록에서 배포를 선택하여 플레이그라운드를 열 수 있습니다.
플레이그라운드는 배포를 미리 선택하므로 즉시 테스트를 시작할 수 있습니다. 채팅 인터페이스에서 다음을 수행합니다.
메시지 상자에 프롬프트를 입력하고 응답을 관찰합니다. 플레이그라운드는 입력과 모델의 생성된 출력을 모두 표시하여 동작과 품질을 이해하는 데 도움이 됩니다.
다양한 유형의 프롬프트를 실험하여 다양한 기능을 테스트합니다.
- 기본적인 이해를 확인하는 간단한 질문
- 복잡한 다단계 추론 문제
- 특정 형식 또는 스타일에 대한 요청
- 제한을 드러낼 수 있는 경계 사례
모델 동작을 안내하도록 시스템 메시지를 조정합니다. 시스템 메시지는 모든 사용자 입력에 적용되는 컨텍스트, 톤 및 지침을 설정합니다. 예를 들어 모델에 "customer service 담당자로 응답" 또는 "간결하고 기술적인 설명 제공"을 지시할 수 있습니다.
온도(창의성 및 일관성), 최대 토큰(응답 길이 제한) 및 top-p(핵 샘플링)와 같은 매개 변수를 수정하여 생성 동작을 미세 조정합니다.
코드 탭을 선택하여 배포된 모델을 프로그래밍 방식으로 호출하는 방법의 예를 확인합니다. 코드 샘플은 인증, 엔드포인트 구성 및 요청 형식을 Python, C#, JavaScript와 같은 언어로 보여 줍니다. 이러한 샘플을 애플리케이션에 직접 복사할 수 있습니다.
플레이그라운드는 모델을 애플리케이션에 통합하기 전에 프롬프트 엔지니어링 및 테스트를 위한 개발 환경 역할을 합니다.
프로그래밍 방식으로 모델에 접근하기
모델을 애플리케이션에 통합할 준비가 되면 배포 세부 정보의 세 가지 주요 정보가 필요합니다.
엔드포인트 URL: 애플리케이션이 요청을 보내는 API 엔드포인트입니다. Microsoft Foundry는 Foundry 관련 기능에 대한 프로젝트 엔드포인트와 OpenAI 모델 API와의 광범위한 호환성을 위해 OpenAI v1 엔드포인트를 지원합니다.
인증 키: 애플리케이션이 요청을 인증하기 위해 제공하는 비밀 키 또는 토큰입니다. 또는 Microsoft Entra ID 인증을 사용하고 애플리케이션에서 ID를 기반으로 인증 토큰을 표시하도록 할 수 있습니다. 엔트라 ID 인증은 프로덕션 시나리오에 권장됩니다.
배포 이름: 특정 배포로 라우팅하기 위해 API 요청의 매개 변수에 model 사용되는 배포 중에 지정한 이름입니다.
애플리케이션은 이러한 세부 정보를 사용하여 API 요청을 생성합니다. Microsoft Foundry 포털은 요청 형식 지정, 인증 및 응답 처리를 보여 주는 코드 샘플과 함께 다양한 프로그래밍 언어에 대한 SDK 및 REST API 설명서를 제공합니다.
모델을 배포하고 테스트하면 애플리케이션에 통합하거나 자동화된 메트릭 및 테스트 데이터 세트를 사용하여 보다 포괄적인 평가를 진행할 준비가 된 것입니다.