엔드포인트에 모델 배포

8분

카탈로그에서 모델을 선택한 후에는 애플리케이션에서 사용할 수 있는 엔드포인트를 통해 액세스할 수 있도록 모델을 배포합니다. Microsoft Foundry 포털은 배포 프로세스를 안내하고, 배포된 모델을 즉시 테스트하는 도구를 제공합니다.

Foundry 포털의 모델 배포 인터페이스 스크린샷.

배포 유형 이해

Microsoft Foundry는 여러 배포 유형을 지원하며, 각 배포 유형은 데이터 상주, 크기 조정 및 청구에 대해 서로 다른 특성을 제공합니다.

글로벌 표준 모델 배포는 토큰당 종량제 기준으로 모든 Azure 지역을 사용할 수 있습니다. 일반 워크로드에 가장 적합하며 가장 높은 할당량을 제공합니다.
전역 프로비전된 배포는 모든 Azure 지역을 사용할 수 있으며, 예측 가능한 높은 처리량을 제공하기 위해 PTU(예약 프로비전 처리량 단위) 기준으로 사용합니다.
글로벌 Batch 배포는 24시간 이내에 대규모 비동기 작업에 대해 50% 할인된 가격으로 모든 Azure 지역을 사용할 수 있습니다.
데이터 영역 표준 배포를 통해 데이터는 토큰당 종량제 기준으로 특정 데이터 영역 내에 유지됩니다. EU/미국 데이터 영역 규정 준수가 필요한 시나리오에 가장 적합합니다.
데이터 영역 프로비전된 배포는 데이터 영역 내의 예약된 CPU를 기반으로 예측 가능한 처리량을 제공합니다.
데이터 영역 일괄 처리 배포는 데이터 영역 내의 대규모 비동기 일괄 처리 작업을 위해 설계되었습니다.
표준 배포는 토큰당 종량제 기준으로 단일 지역 내에 배포됩니다. 지역 데이터 상주 규정 준수가 필요하거나 볼륨이 적은 시나리오에 적합합니다.
지역 프로비저닝된 배포는 단일 지역 내에서 예약된 CPU를 제공합니다.
개발자 개발자 배포는 토큰당 종량제 기준으로 모든 Azure 지역을 사용하며 미세 조정된 모델 평가에만 사용됩니다.

카탈로그의 각 모델은 지원하는 배포 유형을 나타냅니다. 포털은 환경 및 모델 요구 사항에 따라 최상의 배포 옵션을 자동으로 선택합니다. Foundry 리소스의 글로벌 표준 배포는 가능한 한 최대 기능을 위해 사용해야 합니다.

모델 배포

Microsoft Foundry 포털에서 모델을 배포하려면 다음을 수행합니다.

먼저 모델 카탈로그에서 선택한 모델로 이동합니다. Foundry 포털 홈페이지에서 탐색에서 검색 을 선택한 다음 왼쪽 창의 모델을 선택합니다. 모델 카드를 열어 사양 및 지원되는 배포 유형을 검토합니다.

배포를 선택하여 배포 프로세스를 시작합니다. 다음을 선택할 수 있습니다.

권장 구성을 사용하여 신속하게 배포하는 기본 설정
배포 옵션을 사용자 지정하는 사용자 지정 설정

모델에 Azure Marketplace 구독(파트너 및 커뮤니티의 모델에 공통)이 필요한 경우 사용 약관이 표시됩니다. 이러한 약관을 검토하고 동의를 선택하고 계속 하여 동의합니다. GPT-4o-mini와 같은 Azure OpenAI 모델과 같이 Azure 직접 판매되는 모델은 마켓플레이스 구독이 필요하지 않습니다.

배포 설정을 구성합니다.

배포 이름: 기본적으로 시스템은 모델 이름을 사용합니다. 이를 수정하여 동일한 모델의 여러 배포에 대한 의미 있는 이름을 만들 수 있습니다. 유추하는 동안 코드는 매개 변수에서 model 이 배포 이름을 사용하여 요청을 라우팅합니다.
배포 유형: 포털은 모델 및 환경에 따라 적절한 배포 유형을 자동으로 선택합니다. 각 모델은 서로 다른 데이터 상주 또는 처리량 보장을 제공하는 다양한 배포 유형을 지원합니다.

관리되는 컴퓨팅 배포의 경우 다음을 구성합니다.

가상 머신 SKU: 지원되는 VM 유형 중에서 선택합니다. 구독에서 선택한 SKU에 대한 Azure Machine Learning 컴퓨팅 할당량이 필요합니다.
인스턴스 수: 부하 분산 및 중복성을 위해 배포할 인스턴스 수를 지정합니다.

모든 설정을 구성한 후 배포를 선택합니다. 배포가 완료되면 모델을 대화형으로 테스트할 수 있는 Foundry Playground에 배치됩니다. 배포 목록에 배포 상태가 성공으로 표시되는지 확인합니다.

배포된 모델 관리

배포 후에는 Microsoft Foundry 포털의 빌드 섹션에서 모델을 관리합니다. 탐색에서 빌드 를 선택한 다음 왼쪽 창의 모델을 선택하여 리소스의 배포 목록을 확인합니다.

배포 목록에서 특정 모델을 선택하여 세부 정보를 봅니다.

배포 구성 및 상태
API 액세스를 위한 엔드포인트 URL
인증 키 또는 토큰
모니터링 및 사용 메트릭
배포 설정을 조정하거나 배포를 삭제하는 옵션

배포 세부 정보 페이지에서는 애플리케이션이 모델을 연결하고 사용하는 데 필요한 정보를 제공합니다.

놀이터에서 테스트

Microsoft Foundry 포털에는 코드를 작성하지 않고 배포된 모델을 즉시 테스트하는 대화형 플레이그라운드가 포함되어 있습니다. 배포가 완료되면 자동으로 플레이그라운드에 착륙하거나 모델 목록에서 배포를 선택하여 플레이그라운드를 열 수 있습니다.

플레이그라운드는 배포를 미리 선택하므로 즉시 테스트를 시작할 수 있습니다. 채팅 인터페이스에서 다음을 수행합니다.

메시지 상자에 프롬프트를 입력하고 응답을 관찰합니다. 플레이그라운드는 입력과 모델의 생성된 출력을 모두 표시하여 동작과 품질을 이해하는 데 도움이 됩니다.

다양한 유형의 프롬프트를 실험하여 다양한 기능을 테스트합니다.

기본적인 이해를 확인하는 간단한 질문
복잡한 다단계 추론 문제
특정 형식 또는 스타일에 대한 요청
제한을 드러낼 수 있는 경계 사례

모델 동작을 안내하도록 시스템 메시지를 조정합니다. 시스템 메시지는 모든 사용자 입력에 적용되는 컨텍스트, 톤 및 지침을 설정합니다. 예를 들어 모델에 "customer service 담당자로 응답" 또는 "간결하고 기술적인 설명 제공"을 지시할 수 있습니다.

온도(창의성 및 일관성), 최대 토큰(응답 길이 제한) 및 top-p(핵 샘플링)와 같은 매개 변수를 수정하여 생성 동작을 미세 조정합니다.

코드 탭을 선택하여 배포된 모델을 프로그래밍 방식으로 호출하는 방법의 예를 확인합니다. 코드 샘플은 인증, 엔드포인트 구성 및 요청 형식을 Python, C#, JavaScript와 같은 언어로 보여 줍니다. 이러한 샘플을 애플리케이션에 직접 복사할 수 있습니다.

플레이그라운드는 모델을 애플리케이션에 통합하기 전에 프롬프트 엔지니어링 및 테스트를 위한 개발 환경 역할을 합니다.

프로그래밍 방식으로 모델에 접근하기

모델을 애플리케이션에 통합할 준비가 되면 배포 세부 정보의 세 가지 주요 정보가 필요합니다.

엔드포인트 URL: 애플리케이션이 요청을 보내는 API 엔드포인트입니다. Microsoft Foundry는 Foundry 관련 기능에 대한 프로젝트 엔드포인트와 OpenAI 모델 API와의 광범위한 호환성을 위해 OpenAI v1 엔드포인트를 지원합니다.

인증 키: 애플리케이션이 요청을 인증하기 위해 제공하는 비밀 키 또는 토큰입니다. 또는 Microsoft Entra ID 인증을 사용하고 애플리케이션에서 ID를 기반으로 인증 토큰을 표시하도록 할 수 있습니다. 엔트라 ID 인증은 프로덕션 시나리오에 권장됩니다.

배포 이름: 특정 배포로 라우팅하기 위해 API 요청의 매개 변수에 model 사용되는 배포 중에 지정한 이름입니다.

애플리케이션은 이러한 세부 정보를 사용하여 API 요청을 생성합니다. Microsoft Foundry 포털은 요청 형식 지정, 인증 및 응답 처리를 보여 주는 코드 샘플과 함께 다양한 프로그래밍 언어에 대한 SDK 및 REST API 설명서를 제공합니다.

모델을 배포하고 테스트하면 애플리케이션에 통합하거나 자동화된 메트릭 및 테스트 데이터 세트를 사용하여 보다 포괄적인 평가를 진행할 준비가 된 것입니다.

피드백

이 페이지가 도움이 되었나요?