Azure OpenAI 서비스 할당량 및 제한
이 문서에는 Azure AI 서비스의 Azure OpenAI에 대한 할당량 및 제한에 대한 빠른 참조와 자세한 설명이 포함되어 있습니다.
할당량 및 제한 참조
다음 섹션에서는 Azure OpenAI에 적용되는 기본 할당량 및 제한에 대한 빠른 가이드를 제공합니다.
이름 제한 | 값 제한 |
---|---|
Azure 구독별 지역별 OpenAI 리소스 | 30 |
기본 DALL-E 2 할당량 한도 | 동시 요청 2개 |
기본 DALL-E 3 할당량 한도 | 2 용량 단위(분당 요청 6개) |
기본 위스퍼 할당량 제한 | 분당 요청 3개 |
요청당 최대 프롬프트 토큰 | 모델마다 다릅니다. 자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요. |
최대 미세 조정 모델 배포 | 5 |
리소스당 총 학습 작업 수 | 100 |
리소스당 최대 동시 실행 학습 작업 | 1 |
대기 중인 최대 학습 작업 | 20 |
리소스당 최대 파일(미세 조정) | 50 |
리소스당 모든 파일의 총 크기(미세 조정) | 1GB |
최대 학습 작업 시간(초과 시 작업 실패) | 720시간 |
최대 학습 작업 크기(학습 파일의 토큰 수) * (Epoch 수) | 20억 |
업로드당 모든 파일의 최대 크기(데이터의 Azure OpenAI) | 16MB |
/embeddings 를 사용하는 배열의 최대 수 또는 입력 |
2048 |
최대 /chat/completions 메시지 수 |
2048 |
최대 /chat/completions 함수 수 |
128 |
최대 /chat completions 도구 수 |
128 |
배포당 프로비전된 처리량 단위의 최대 수 | 100,000 |
도우미/스레드당 최대 파일 | API 또는 AI 스튜디오를 사용하는 경우 10,000개. Azure OpenAI 스튜디오를 사용하는 경우 20개. |
도우미 최대 파일 크기 및 미세 조정 | 512MB |
도우미 토큰 제한 | 2,000,000개의 토큰 제한 |
요청당 GPT-4o 최대 이미지(메시지 배열/대화 내용의 이미지 수) | 10 |
GPT-4 vision-preview 및 GPT-4 turbo-2024-04-09 기본 최대 토큰 |
16 잘린 응답을 방지하려면 max_tokens 매개 변수 값을 늘립니다. GPT-4o 최대 토큰의 기본값은 4096입니다. |
지역 할당량 한도
지역 | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o - GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Instruct | Text-Embedding-Ada-002 | text-embedding-3-small | text-embedding-3-large | Babbage-002 | Babbage-002 - 미세 조정 | Davinci-002 | Davinci-002 - 미세 조정 | GPT-35-Turbo - 미세 조정 | GPT-35-Turbo-1106 - 미세 조정 | GPT-4 - finetune | GPT-35-Turbo-0125 - 미세 조정 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40K | 80K | 80K | 30K | - | 450,000 30M |
300K | - | 350K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450,000 30M |
- | - | 350K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40K | 80K | 80K | - | - | 450,000 30M |
300K | - | 350K | 350K | 350K | - | - | - | - | - | - | - | - |
eastus | - | - | 80K | - | 150K 1 M |
450,000 30M |
240K | 240K | 240K | 350K | 350K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80K | - | 150K 1 M |
450,000 30M |
300K | - | 350K | 350K | 350K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20K | 60K | 80K | - | - | 450,000 30M |
240K | - | 240K | - | 350K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450,000 30M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30K | - | 450,000 30M |
300K | - | 350K | - | 350K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450,000 30M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80K | - | 150K 1 M |
450,000 30M |
300K | - | 350K | - | - | 240K | 250 K | 240K | 250 K | 250 K | 250 K | 100K | 250 K |
norwayeast | - | - | 150K | - | - | 450,000 30M |
- | - | 350K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | 450,000 30M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450,000 30M |
- | - | 350K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80K | - | 150K 1 M |
450,000 30M |
240K | - | 240K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150K | - | - | 450,000 30M |
300K | - | 350K | - | 350K | - | - | - | - | - | - | - | - |
스웨덴 중부 | 40K | 80K | 150K | 30K | 150K 1 M |
450,000 30M |
300K | 240K | 350K | - | 350K | 240K | 250 K | 240K | 250 K | 250 K | 250 K | 100K | 250 K |
스위스 북부 | 40K | 80K | - | 30K | - | 450,000 30M |
300K | - | 350K | - | - | - | - | - | - | - | - | - | - |
switzerlandwest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80K | - | - | 450,000 30M |
240K | - | 350K | - | 350K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450,000 30M |
240K | - | 240K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80K | 30K | 150K 1 M |
450,000 30M |
300K | - | 350K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80K | - | 150K 1 M |
450,000 30M |
- | - | 350K | - | 350K | - | - | - | - | - | - | - | - |
gpt-4o 속도 제한
gpt-4o
에서는 특정 고객 형식에 대해 더 높은 한도를 적용하는 속도 제한 계층을 도입합니다.
gpt-4o 글로벌 표준
계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|
기업 계약 | 30M | 60K |
기본값 | 450K | 2.7K |
M = 백만 | K = 천
gpt-4o 표준
계층 | 분당 토큰(TPM) 할당량 한도 | 분당 요청 |
---|---|---|
기업 계약 | 1 M | 6K |
기본값 | 150K | 900 |
M = 백만 | K = 천
사용 계층
글로벌 표준 배포는 Azure의 글로벌 인프라를 활용하여 고객의 유추 요청에 대한 최상의 가용성을 제공하면서 고객 트래픽을 데이터 센터로 동적으로 라우팅합니다. 이렇게 하면 트래픽 수준이 낮거나 중간 수준인 고객에게 더 일관된 대기 시간을 제공할 수 있습니다. 사용량 수준이 지속적으로 높은 고객은 응답 대기 시간이 더 가변적일 수 있습니다.
사용량 제한은 고객이 응답 대기 시간에 더 큰 가변성을 볼 수 있는 위의 사용량 수준을 결정합니다. 고객의 사용량은 모델별로 정의되며 지정된 테넌트에 대한 모든 지역의 모든 구독에서 모든 배포에서 사용되는 총 토큰입니다.
GPT-4o 글로벌 표준 및 표준
모델 | 월별 사용량 계층 |
---|---|
GPT-4o |
15억 토큰 |
기타 제품 유형
Azure 구독이 특정 제안 유형에 연결되어 있는 경우 최대 할당량 값이 위 테이블에 표시된 값보다 낮습니다.
계층 | 분당 토큰(TPM) 할당량 한도 |
---|---|
Azure for Students, 평가판 | 1K(모든 모델) |
MSDN 구독 | GPT 3.5 Turbo 시리즈: 30K GPT-4 시리즈: 8K |
월간 신용 카드 기반 구독 1 | GPT 3.5 Turbo 시리즈: 30K GPT-4 시리즈: 8K |
1 이는 현재 제안 유형 0003P에 적용됩니다
Azure Portal에서 구독으로 이동하고 구독 개요 창을 확인하여 구독과 연결된 제안 유형을 확인할 수 있습니다. 제안 유형은 구독 개요의 계획 필드에 해당합니다.
속도 제한을 유지하기 위한 일반적인 모범 사례
속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.
- 애플리케이션에서 다시 시도 논리를 구현합니다.
- 워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
- 다양한 로드 증가 패턴을 테스트합니다.
- 배포에 할당된 할당량을 늘립니다. 필요한 경우 다른 배포에서 할당량을 이동합니다.
기본 할당량 및 한도 증가를 요청하는 방법
할당량 증가 요청은 Azure OpenAI Studio의 할당량 페이지에서 제출할 수 있습니다. 엄청난 수요로 인해 할당량 증가 요청이 수신되는 순서대로 수락되고 있으며 채워질 것입니다. 기존 할당량 할당을 사용하는 트래픽을 생성하는 고객에게 우선 순위가 지정되며, 이 조건이 충족되지 않으면 요청이 거부될 수 있습니다.
다른 속도 제한의 경우 서비스 요청을 제출하세요.
다음 단계
Azure OpenAI 배포에 대한 할당량을 관리하는 방법을 알아봅니다. Azure OpenAI를 지원하는 기본 모델에 대해 자세히 알아봅니다.
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기