다음을 통해 공유


Microsoft Foundry 모델에 우선 순위 처리 사용(미리 보기)

중요합니다

우선 순위 처리는 미리 보기 상태이며 초대를 통해서만 사용할 수 있습니다. 여기에 등록 하여 더 광범위하게 사용할 수 있게 되면 알림을 받습니다.

이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

우선 순위 처리는 종량제의 유연성과 함께 짧은 대기 시간 성능을 제공합니다. 종량제 토큰 모델에서 작동하여 장기 계약 약정 없이 신속한 응답 시간을 제공합니다. 이 문서에서는 모델 배포에서 우선 순위 처리를 사용하도록 설정하고, 요청을 처리한 서비스 계층을 확인하고, 관련 비용을 모니터링합니다.

필수 조건

  • Azure 구독 – 무료로 만드세요.
  • 배포 유형 GlobalStandard 또는 DataZoneStandard 배포 모델이 있는 Microsoft Foundry 프로젝트입니다.
  • 우선 순위 처리 미리 보기에 동의합니다. 우선 순위 처리가 보다 광범위하게 제공될 때 알림을 받도록 여기에 등록합니다.
  • API 버전 2025-10-01-preview 이상.

개요

이점

  • 예측 가능한 짧은 대기 시간: 더 빠르고 일관된 토큰 생성.
  • 사용하기 쉬운 유연성: 표준 종량제 처리와 마찬가지로 프로비전 및 예약을 미리 요구하는 대신 유연하고 종량제 기준으로 우선 순위 처리에 액세스합니다.

주요 사용 사례

  • 응답성이 뛰어난 사용자 환경에 대한 일관되고 짧은 대기 시간.
  • 장기 약정 없이 사용한 만큼만 지불하는 방식의 간편함.
  • 확장 가능하고 비용 효율적인 성능의 이점을 누릴 수 있는 업무 시간 또는 버스트 트래픽 필요에 따라 안정적인 상태 용량 및 비용 최적화를 위해 우선 순위 처리를 PTU(프로비전된 처리량 단위)와 결합할 수 있습니다.

제한

  • 램프 제한: 분당 우선 순위 처리 토큰이 급격히 증가하면 램프 속도 제한에 도달할 수 있습니다. 램프 속도 제한을 초과하는 경우 서비스는 대신 표준 처리에 추가 트래픽을 보낼 수 있습니다.

  • 할당량: 우선 순위 처리는 표준 처리와 동일한 할당량을 사용합니다. 즉, 우선 순위 처리가 설정된 배포는 기존 표준 할당에서 할당량을 사용합니다.

우선 순위 처리 지원

글로벌 표준 모델 가용성

지역 gpt-4.1, 2025-04-14
eastus 2
스웨덴 중부
westus3

비고

미리 보기 기간 동안 모델 및 지역 가용성이 확장될 수 있습니다. 이 페이지에서 업데이트를 확인합니다.

알려진 문제

우선 순위 처리에는 현재 이러한 제한 사항이 있으며 수정이 진행 중입니다.

  • gpt-4.1에 대한 긴 컨텍스트 제한: 이 서비스는 128,000개의 토큰을 초과하는 요청을 지원하지 않으며 HTTP 400 오류를 반환합니다.

  • PTU 유출에 대한 지원 없음: 이 서비스는 우선 순위 처리 지원 배포에 대한 PTU 분산을 아직 지원하지 않습니다. 스필오버 동작이 필요한 경우 Azure API Management를 사용하는 등 고유한 논리를 구현합니다.

  • 응답 API에서 스트리밍을 사용할 때 잘못된 service_tier 값: 응답 API service_tier 를 통해 응답을 스트리밍할 때 용량 제약 조건 또는 램프 제한으로 인해 요청이 표준 계층에서 제공되더라도 필드가 "우선 순위"를 잘못 반환할 수 있습니다. 이 경우 예상 값 service_tier 은 "default"입니다.

배포 수준에서 우선 순위 처리 사용

배포 수준 및 요청 수준에서(선택 사항) 우선 순위 처리를 사용하도록 설정할 수 있습니다.

Microsoft Foundry 포털에서 배포를 설정하는 동안 우선 순위 처리를 사용하도록 설정할 수 있습니다. 배포를 만들 때 배포 세부 정보 페이지에서 우선 순위 처리(미리 보기) 토글을 켜거나 배포 세부 정보를 편집하여 배포된 모델의 설정을 업데이트합니다.

Foundry 포털에서 모델을 배포하는 동안 우선 순위 처리를 사용하도록 설정하는 방법을 보여 주는 스크린샷

비고

코드를 사용하여 배포 수준에서 우선 순위 처리를 사용하도록 설정하려는 경우 다음과 같이 특성을 설정 service_tier 하여 배포용 REST API를 통해 수행할 수 있습니다 "properties" : {"service_tier" : "priority"}. 특성에 허용되는 값은 service_tier 다음과 같습니다 defaultpriority. default 는 표준 처리를 의미하지만 priority 우선 순위 처리를 사용하도록 설정합니다.

우선 순위 처리를 사용하도록 모델 배포가 구성되면 모델에 요청을 보내기 시작할 수 있습니다.

사용 메트릭 보기

Azure Portal의 Azure Monitor 섹션에서 리소스에 대한 사용률 측정값을 볼 수 있습니다.

표준 처리 및 우선 순위 처리로 처리되는 요청의 볼륨을 보려면 원래 요청에 있던 서비스 계층(표준 또는 우선 순위)으로 분할합니다.

  1. https://portal.azure.com에 로그인하세요.
  2. Azure OpenAI 리소스로 이동하여 왼쪽 탐색에서 메트릭 옵션을 선택합니다.
  3. 메트릭 페이지에서 Azure OpenAI 요청 메트릭을 추가합니다. Azure OpenAI 대기 시간, Azure OpenAI사용량 등과 같은 다른 메트릭을 선택할 수도 있습니다.
  4. 필터 추가를 선택하여 우선 순위 처리 요청이 처리된 표준 배포를 선택합니다.
  5. 분할 적용을 선택하여 ServiceTierRequestServiceTierResponse로 값을 분할합니다.

Azure Portal의 리소스 메트릭 페이지에서 우선 순위 처리 사용률 스크린샷

배포 모니터링에 대한 자세한 내용은 Azure OpenAI 모니터링을 참조하세요.

비용 모니터링

다음과 같이 배포 이름 및 청구 태그를 필터링하여 Azure Portal의 비용 분석 페이지에서 우선 순위 및 표준 요청에 대한 비용 분석을 확인할 수 있습니다.

  1. Azure Portal의 비용 분석 페이지로 이동합니다.
  2. (선택 사항) 리소스별로 필터링합니다.
  3. 배포 이름으로 필터링하려면: 청구 태그> 에 대한 필터를 추가하고 배포 를 값으로 선택한 다음 배포 이름을 선택합니다.

Azure Portal의 리소스 비용 분석 페이지에서 우선 순위 처리 사용률 스크린샷

우선 순위 처리를 위한 가격 책정에 대한 자세한 내용은 Azure OpenAI 서비스 가격 책정 개요를 참조하세요.

요청 수준에서 우선 순위 처리 사용

요청 수준에서 우선 순위 처리를 사용하도록 설정하는 것은 선택 사항입니다. 채팅 완료 API와 응답 API에는 모두 요청을 처리할 때 사용할 처리 유형을 지정하는 선택적 특성 service_tier 이 있습니다. 다음 예제에서는 응답 요청에서 설정하는 service_tierpriority 방법을 보여 줍니다.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier 특성을 사용하여 배포 수준 설정을 재정의합니다. service_tier는 값을 autodefault사용할 수 있습니다priority.

  • 특성을 설정하지 않으면 기본값은 .입니다 auto.

  • service_tier = auto 는 요청이 배포에 구성된 서비스 계층을 사용한다는 것을 의미합니다.

  • service_tier = default 는 요청이 선택한 모델에 대한 표준 가격 책정 및 성능을 사용한다는 것을 의미합니다.

  • service_tier = priority 는 요청이 우선 순위 처리 서비스 계층을 사용한다는 것을 의미합니다.

다음 표에는 배포 수준 및 요청 수준 설정에 따라 요청을 처리하는 서비스 계층이 요약되어 있습니다 service_tier.

배포 수준 설정 요청 수준 설정 서비스 계층에서 처리된 요청
기본값 auto (자동), default (기본값) 스탠다드
기본값 우선순위 우선 순위 처리
우선순위 자동, 우선순위 우선 순위 처리
우선순위 기본값 스탠다드

대기 시간 목표

주제 gpt-4.1, 2025-04-14
대기 시간 대상 값 99% > 80개의 토큰/초*

* 5분 단위로 p50 요청 대기 시간으로 계산됩니다.

경사 속도 제한

모든 고객에게 일관되게 높은 성능을 보장하면서 유연한 주문형 가격 책정을 제공하기 위해 우선 순위 처리는 램프 속도 제한을 적용합니다. 현재 증가 속도 제한은 트래픽을 15분 이내에 50% 이상 증가시키는 것으로 정의되어 있습니다.

다운그레이드 조건

우선 순위 처리 성능이 저하되고 고객의 트래픽이 너무 빠르게 증가하는 경우 서비스는 일부 우선 순위 요청을 표준 처리로 다운그레이드할 수 있습니다. 서비스는 표준 서비스 계층에서 처리된 요청에 대해 표준 요금으로 청구합니다. 이러한 요청은 우선 순위 처리 대기 시간 대상에 적합하지 않습니다. 표준 서비스 계층에서 처리된 요청은 응답에 포함됩니다 service_tier = default .

팁 (조언)

램프 속도 제한이 일상적으로 발생하는 경우 우선 순위 처리 대신 또는 PTU를 구매하는 것이 좋습니다.

문제 해결

문제 원인 해결 방법
긴 프롬프트에서 HTTP 400 오류 발생 gpt-4.1은 우선 순위 처리에서 128,000개 토큰을 초과하는 요청을 지원하지 않습니다. 총 요청 토큰을 128,000 미만으로 유지합니다. 긴 프롬프트를 더 작은 요청으로 분할합니다.
표준 계층으로 다운그레이드된 요청 트래픽이 15분 내에 분당 토큰 수를 50% 이상 증가시키며 증가율 한계에 도달했습니다. 트래픽을 점진적으로 늘입니다. 안정적인 상태 용량을 위해 PTU를 구매하는 것이 좋습니다.
PTU 스필오버가 작동하지 않음 우선 순위 처리는 우선 순위 처리 지원 배포에 대한 PTU 분산을 아직 지원하지 않습니다. Azure API Management를 사용하는 것과 같은 사용자 지정 분산 논리를 구현합니다.
service_tier 는 스트리밍 중에 잘못된 값을 반환합니다. 응답 API를 통해 service_tier로 스트리밍하는 경우, 요청이 표준 계층에서 처리되었음에도 "priority"를 보고할 수 있습니다. 청구 레코드를 확인하여 요청을 실제로 처리한 계층을 확인합니다.

API 지원

API 버전
지원되는 최신 미리 보기 API 릴리스: 2025-10-01-preview