Share via


Azure OpenAI 서비스 할당량 및 제한

이 문서에는 Azure AI 서비스의 Azure OpenAI에 대한 할당량 및 제한에 대한 빠른 참조와 자세한 설명이 포함되어 있습니다.

할당량 및 제한 참조

다음 섹션에서는 Azure OpenAI에 적용되는 기본 할당량 및 제한에 대한 빠른 가이드를 제공합니다.

이름 제한 값 제한
Azure 구독별 지역별 OpenAI 리소스 30
기본 DALL-E 2 할당량 한도 동시 요청 2개
기본 DALL-E 3 할당량 한도 2 용량 단위(분당 요청 6개)
요청당 최대 프롬프트 토큰 모델마다 다릅니다. 자세한 내용은 Azure OpenAI 서비스 모델을 참조하세요.
최대 미세 조정 모델 배포 5
리소스당 총 학습 작업 수 100
리소스당 최대 동시 실행 학습 작업 1
대기 중인 최대 학습 작업 20
리소스당 최대 파일(미세 조정) 50
리소스당 모든 파일의 총 크기(미세 조정) 1GB
최대 학습 작업 시간(초과 시 작업 실패) 720시간
최대 학습 작업 크기(학습 파일의 토큰 수) * (Epoch 수) 20억
업로드당 모든 파일의 최대 크기(데이터의 Azure OpenAI) 16MB
/embeddings를 사용하는 배열의 최대 수 또는 입력 2048
최대 /chat/completions 메시지 수 2048
최대 /chat/completions 함수 수 128
최대 /chat completions 도구 수 128
배포당 프로비전된 처리량 단위의 최대 수 100,000
도우미/스레드당 최대 파일 20
도우미 최대 파일 크기 및 미세 조정 512MB
도우미 토큰 제한 2,000,000개의 토큰 제한

지역 할당량 한도

모델의 기본 할당량은 모델 및 지역에 따라 다릅니다. 기본 할당량 한도는 변경될 수 있습니다.

표준 배포에 대한 할당량은 TPM(분당 토큰) 기준으로 설명됩니다.

지역 GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Instruct Text-Embedding-Ada-002 text-embedding-3-small text-embedding-3-large Babbage-002 Babbage-002 - 미세 조정 Davinci-002 Davinci-002 - 미세 조정 GPT-35-Turbo - 미세 조정 GPT-35-Turbo-1106 - 미세 조정 GPT-35-Turbo-0125 - 미세 조정
australiaeast 40K 80K 80K 30K 300K - 350K - - - - - - - - -
brazilsouth - - - - - - 350K - - - - - - - - -
canadaeast 40K 80K 80K - 300K - 350K 350K 350K - - - - - - -
eastus - - 80K - 240K 240K 240K 350K 350K - - - - - - -
eastus2 - - 80K - 300K - 350K 350K 350K - - - - 250 K 250 K 250 K
francecentral 20K 60K 80K - 240K - 240K - - - - - - - - -
japaneast - - - 30K 300K - 350K - - - - - - - - -
northcentralus - - 80K - 300K - 350K - - 240K 250 K 240K 250 K 250 K 250 K 250 K
norwayeast - - 150K - - - 350K - - - - - - - - -
southafricanorth - - - - - - 350K - - - - - - - - -
southcentralus - - 80K - 240K - 240K - - - - - - - - -
southindia - - 150K - 300K - 350K - - - - - - - - -
스웨덴 중부 40K 80K 150K 30K 300K 240K 350K - - 240K 250 K 240K 250 K 250 K 250 K 250 K
스위스 북부 40K 80K - 30K 300K - 350K - - - - - - - - -
switzerlandwest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80K - 240K - 350K - - - - - - - - -
westeurope - - - - 240K - 240K - - - - - - - - -
westus - - 80K 30K 300K - 350K - - - - - - - - -
westus3 - - 80K - - - 350K - - - - - - - - -

1K = TPM(분당 토큰 1,000개) TPM과 RPM(분당 요청 수) 간의 관계는 현재 1000TPM당 6 RPM으로 정의됩니다.

속도 제한을 유지하기 위한 일반적인 모범 사례

속도 제한과 관련된 문제를 최소화하려면 다음 기술을 사용하는 것이 좋습니다.

  • 애플리케이션에서 다시 시도 논리를 구현합니다.
  • 워크로드가 급격히 변경되지 않도록 합니다. 워크로드를 점진적으로 늘립니다.
  • 다양한 로드 증가 패턴을 테스트합니다.
  • 배포에 할당된 할당량을 늘립니다. 필요한 경우 다른 배포에서 할당량을 이동합니다.

기본 할당량 및 한도 증가를 요청하는 방법

할당량 증가 요청은 Azure OpenAI Studio의 할당량 페이지에서 제출할 수 있습니다. 엄청난 수요로 인해 할당량 증가 요청이 수락되고 수신되는 순서대로 채워집니다. 기존 할당량 할당을 사용하는 트래픽을 생성하는 고객에게 우선 순위가 지정되며, 이 조건이 충족되지 않으면 요청이 거부될 수 있습니다.

다른 요금 제한에 대해서는 서비스 요청을 제출하세요.

다음 단계

Azure OpenAI 배포에 대한 할당량을 관리하는 방법을 알아봅니다. Azure OpenAI를 지원하는 기본 모델에 대해 자세히 알아봅니다.