다음을 통해 공유


Azure OpenAI 동적 할당량(미리 보기)

동적 할당량은 추가 용량을 사용할 수 있을 때 표준(종량제) 배포를 통해 더 많은 할당량을 기회적으로 활용할 수 있도록 하는 Azure OpenAI 기능입니다. 동적 할당량이 꺼짐으로 설정되면 배포는 TPM(분당 토큰 수) 설정에 따라 설정된 최대 처리량을 처리할 수 있습니다. 사전 설정 TPM을 초과하면 요청이 HTTP 429 응답을 반환합니다. 동적 할당량이 사용하도록 설정되면 배포에서는 429 응답을 반환하기 전에 더 높은 처리량에 액세스할 수 있으므로 더 많은 호출을 더 일찍 수행할 수 있습니다. 추가 요청은 여전히 일반 가격 책정 요율로 청구됩니다.

동적 할당량은 사용 가능한 할당량을 일시적으로만 늘릴 수 있습니다. 구성된 값 이하로 줄어들지 않습니다.

동적 할당량을 사용하는 경우

동적 할당량은 대부분의 시나리오에서 유용하며, 특히 애플리케이션이 기회에 따라 추가 용량을 사용할 수 있거나 애플리케이션 자체가 Azure OpenAI API 호출 속도를 높이는 경우에 유용합니다.

일반적으로 동적 할당량을 피하고 싶은 상황은 할당량이 변동되거나 증가하는 경우 애플리케이션에서 불리한 환경을 제공하는 경우입니다.

동적 할당량의 경우 다음과 같은 시나리오를 고려합니다.

  • 대량 처리,
  • RAG(검색 증강 생성)를 위한 요약 또는 포함 만들기,
  • 메트릭 및 평가 생성을 위한 오프라인 로그 분석,
  • 우선 순위가 낮은 연구,
  • 소량의 할당량이 할당된 앱입니다.

동적 할당량은 언제 적용되나요?

Azure OpenAI 백 엔드는 다양한 배포에서 추가 동적 할당량을 추가하거나 제거할지 여부, 시기 및 양을 결정합니다. 사전에 예측하거나 공지하지도 않으며, 예측할 수도 없습니다. 동적 할당량을 활용하려면 HTTP 429 응답이 드물기 때문에 애플리케이션 코드에서 더 많은 요청을 실행할 수 있어야 합니다. Azure OpenAI는 HTTP 429로 응답하고 더 많은 API 호출을 허용하지 않음으로써 애플리케이션에 할당량 한도에 도달했을 때 알릴 수 있습니다.

동적 할당량은 비용을 어떻게 변경하나요?

  • 기본 할당량을 초과하여 수행된 호출은 일반 호출과 동일한 비용이 발생합니다.

  • 배포에서 동적 할당량을 설정하는 데 추가 비용은 없지만, 처리량 증가로 인해 배포에서 수신하는 트래픽 양에 따라 궁극적으로 비용이 증가할 수 있습니다.

참고 항목

동적 할당량을 사용하면 "최대" 할당량 또는 처리량에 대한 호출 적용이 없습니다. Azure OpenAI는 기준 할당량을 초과하여 최대한 많은 요청을 처리합니다. 할당량이 덜 제한되어 있는 경우에도 지출 비율을 제어해야 하는 경우 애플리케이션 코드는 이에 따라 요청을 보류해야 합니다.

동적 할당량을 사용하는 방법

동적 할당량을 사용하려면 다음을 수행해야 합니다.

  • Azure OpenAI 배포에서 동적 할당량 속성을 설정합니다.
  • 애플리케이션이 동적 할당량을 활용할 수 있는지 확인합니다.

동적 할당량 사용

배포에 대한 동적 할당량을 활성화하려면 리소스 구성의 고급 속성으로 이동하여 이를 켜면 됩니다.

배포에 대한 고급 구성 UI의 스크린샷.

또는 Azure CLI의 az rest를 사용하여 프로그래밍 방식으로 사용하도록 설정할 수 있습니다.

{subscriptionId}, {resourceGroupName}, {accountName}{deploymentName}을 리소스에 대한 관련 값으로 바꿉니다. 이 경우 accountName은 Azure OpenAI 리소스 이름과 같습니다.

az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'

내 앱에 추가되는 처리량 동적 할당량을 어떻게 알 수 있나요?

작동 방식을 모니터링하려면 Azure Monitor에서 애플리케이션의 처리량을 추적할 수 있습니다. 동적 할당량 미리 보기 중에는 할당량이 동적으로 증가 또는 감소했는지 여부를 나타내는 특정 메트릭이나 로그가 없습니다. 동적 할당량은 활용도가 높은 지역에서 실행되고 해당 지역의 사용량이 가장 많은 시간 동안 배포에 사용될 가능성이 적습니다.

다음 단계