이 문서에는 Azure AI 서비스에서 Azure AI 모델의 유추에 대한 할당량 및 제한에 대한 빠른 참조 및 자세한 설명이 포함되어 있습니다. Azure OpenAI 서비스와 관련된 할당량 및 제한은 Azure OpenAI 서비스의 할당량 및 제한을 참조하세요.
할당량 및 제한 참조
Azure는 사기로 인한 예산 초과를 방지하고, Azure 용량 제약 조건을 준수하기 위해 할당량 및 제한을 사용합니다. 프로덕션 워크로드의 크기를 조정할 때 이러한 한도를 고려하세요. 다음 섹션에서는 Azure AI 서비스의 Azure AI 모델의 유추 서비스에 적용되는 기본 할당량 및 제한에 대한 빠른 가이드를 제공합니다.
리소스 제한
제한 이름 | 제한 값 |
---|---|
Azure 구독당 지역당 Azure AI 서비스 리소스 | 30 |
리소스당 최대 배포 | 32 |
속도 제한
제한 이름 | 적용 대상 | 제한 값 |
---|---|---|
분당 토큰 | Azure OpenAI 모델 | 모델 및 SKU마다 다릅니다. Azure OpenAI에 대한 제한을 참조하세요. |
분당 요청 | Azure OpenAI 모델 | 모델 및 SKU마다 다릅니다. Azure OpenAI에 대한 제한을 참조하세요. |
분당 토큰 | DeepSeek-R1 DeepSeek-V3-0324 |
5,000,000 |
분당 요청 | DeepSeek-R1 DeepSeek-V3-0324 |
5,000 |
동시 요청 | DeepSeek-R1 DeepSeek-V3-0324 |
300 |
분당 토큰 | 나머지 모델 | 400,000 |
분당 요청 | 나머지 모델 | 1,000 |
동시 요청 | 나머지 모델 | 300 |
기본 제한으로 증가를 요청할 수 있습니다. 높은 수요로 인해 요청당 제한 증가 요청을 제출하고 평가할 수 있습니다.
기타 제한
제한 이름 | 제한 값 |
---|---|
API 요청의 사용자 지정 헤더의 최대 수1 | 10 |
1 현재 API는 최대 10개의 사용자 지정 헤더를 허용하며, 이는 파이프라인을 통해 전달되어 반환됩니다. 일부 고객이 헤더 수를 초과하여 HTTP 431 오류가 발생하는 것을 확인했습니다. 헤더 볼륨을 줄이는 것 외에는 이 오류에 대한 솔루션이 없습니다. 향후 API 버전에서는 더 이상 사용자 지정 헤더를 전달하지 않습니다. 고객은 향후 시스템 아키텍처에서 사용자 지정 헤더에 의존하지 않는 것이 좋습니다.
사용 계층
글로벌 표준 배포는 Azure의 글로벌 인프라를 사용하여 고객의 유추 요청에 가장 적합한 가용성으로 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 이렇게 하면 트래픽 수준이 낮거나 중간 수준인 고객에게 더 일관된 대기 시간을 제공할 수 있습니다. 지속적인 사용 수준이 높은 고객은 응답 대기 시간에 더 많은 variabilities를 볼 수 있습니다.
사용량 제한은 고객이 응답 대기 시간에 더 큰 가변성을 볼 수 있는 위의 사용량 수준을 결정합니다. 고객의 사용량은 모델별로 정의되며 지정된 테넌트에 대한 모든 지역의 모든 구독에서 모든 배포에서 사용되는 총 토큰입니다.
요청이 기본 제한으로 증가합니다.
요청당 제한 증가 요청을 제출하고 평가할 수 있습니다. 온라인 고객 지원 요청을 엽니다. 엔드포인트 한도 늘리기를 요청할 때 다음 정보를 제공합니다.
지원 요청을 열 때 문제 유형으로 서비스 및 구독 한도(할당량)를 선택합니다.
원하는 구독을 선택합니다.
Cognitive Services를할당량 유형으로 선택합니다.
다음을 선택합니다.
요청을 처리하려면 추가 세부 정보 탭에서 한도를 늘리려는 자세한 이유를 제공해야 합니다. 한도를 늘리려는 이유에 다음 정보를 추가해야 합니다.
- 모델 이름, 모델 버전(해당하는 경우) 및 배포 유형(SKU)입니다.
- 시나리오 및 워크로드에 대한 설명입니다.
- 요청된 증가에 대한 근거.
- 대상 처리량( 분당 토큰, 분당 요청 등)을 제공합니다.
- 계획된 시간 계획을 제공합니다(제한 증가가 필요한 경우).
마지막으로 저장 및 계속을 선택하여 계속합니다.
속도 제한을 유지하기 위한 일반적인 모범 사례
속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.
- 애플리케이션에서 다시 시도 논리를 구현합니다.
- 워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
- 다양한 로드 증가 패턴을 테스트합니다.
- 배포에 할당된 할당량을 늘립니다. 필요한 경우 다른 배포에서 할당량을 이동합니다.
다음 단계
- Azure AI 모델의 유추 서비스에서 사용할 수 있는 모델에 대해 자세히 알아보기