Udostępnij za pośrednictwem


Przydziały i limity modeli Azure OpenAI w modelach Azure AI Foundry

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI.

Odniesienie do kwot i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu Wartość limitu
Zasoby usługi Azure OpenAI w regionach dla każdej subskrypcji platformy Azure 30
Domyślne limity przydziału DALL-E 2 2 współbieżne żądania
Domyślne limity kwotowe DALL-E 3 2 jednostki pojemności (6 żądań na minutę)
Domyślne limity kwoty GPT-image-1 2 jednostki pojemności (6 żądań na minutę)
Domyślne limity przydziału Sora 60 żądań na minutę
Domyślne limity kwotowe interfejsu API dla przekształcania mowy na tekst 3 żądania na minutę
Maksymalna liczba tokenów na każde żądanie Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI
Maksymalna liczba wdrożeń standardowych na zasób 32
Maksymalne wysoce dostrojone wdrożenia modelu 5
Łączna liczba zadań szkoleniowych dla każdego zasobu 100
Maksymalna liczba równoczesnych uruchomionych zadań treningowych dla zasobu 1
Maksymalna liczba zadań szkoleniowych w kolejce 20
Maksymalna liczba plików na zasób (kalibracja) 50
Całkowity rozmiar wszystkich plików dla zasobu (dostrajanie) 1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) 720 godzin
Maksymalny rozmiar zadania szkoleniowego (tokeny w pliku szkoleniowym) x (liczba epok) 2 miliardy
Maksymalny rozmiar wszystkich plików na jedno przesłanie (Azure OpenAI na Twoich danych) 16 MB
Maksymalna liczba danych wejściowych w tablicy z /embeddings 2048
Maksymalna liczba komunikatów /chat/completions 2048
Maksymalna liczba /chat/completions funkcji 128
Maksymalna liczba /chat completions narzędzi 128
Maksymalna liczba zarezerwowanych jednostek przepływności na jedno wdrożenie 100 000
Maksymalna liczba plików na asystenta/wątek 10 000 w przypadku korzystania z interfejsu API lub portalu usługi Azure AI Foundry.
Maksymalny rozmiar pliku dla asystentów i dostrajania 512 MB

200 MB za pośrednictwem portalu Azure AI Foundry
Maksymalny rozmiar wszystkich przesyłanych plików do użytku asystentów 200 GB
Limit tokenów asystentów Limit 2 000 000 tokenów
GPT-4o i GPT-4.1 maksymalna liczba obrazów na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) 50
Maksymalne domyślne tokeny GPT-4 vision-preview i GPT-4 turbo-2024-04-09 16

Zwiększ wartość parametru max_tokens, aby uniknąć przycięcia odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1 10
Limit znaków wiadomości 1048576
Rozmiar komunikatu dla plików audio 20 MB

1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez kanał przetwarzania i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Uwaga / Notatka

Limity przydziału mogą ulec zmianie.

Limity usługi Batch

Nazwa limitu Wartość limitu
Maksymalna liczba plików na zasób 500
Maksymalny rozmiar pliku wejściowego 200 MB
Maksymalna liczba żądań na plik 100 000

Kwota partii

W tabeli przedstawiono limit kontyngentu partii. Wartości przydziału dla globalnej partii są przedstawiane jako liczba tokenów oczekujących w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczona. Dopóki zadanie wsadowe nie osiągnie stanu końcowego, te tokeny będą wliczane do całkowitego limitu zakolejkowanych tokenów.

Partia globalna

Model Umowa Korporacyjna Wartość domyślna Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure for Students, bezpłatne wersje próbne
gpt-4.1 5 B 200 milionów 50 milionów 90 K N/A
gpt-4.1 mini 15B 1B 50 mln 90 tys. N/A
gpt-4.1-nano 15 B 1 B 50 milionów 90 K N/A
gpt-4o 5 B 200 milionów 50 milionów 90 K N/A
gpt-4o-mini 15 B 1 B 50 milionów 90 K N/A
gpt-4-turbo 300 milionów 80 milionów 40 M 90 K N/A
gpt-4 150 M 30 M 5 milionów 100 tysięcy N/A
gpt-35-turbo 10 B 1 B 100 M 2 mln 50 tysięcy
o3-mini 15 B 1 B 50 milionów 90 K N/A
o4-mini 15 B 1 B 50 milionów 90 K N/A

B = miliard | M = milion | K = tysiąc

Partia danych strefowych

Model Umowa Korporacyjna Wartość domyślna Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure for Students, bezpłatne wersje próbne
gpt-4.1 500 mln 30 M 30 M 90 K N/A
gpt-4.1-mini 1.5 B 100 M 50 milionów 90 K N/A
gpt-4o 500 mln 30 M 30 M 90 K N/A
gpt-4o-mini 1.5 B 100 M 50 milionów 90 K N/A
o3-mini 1.5 B 100 M 50 milionów 90 K N/A

Limity szybkości GPT-4

Globalny standard GPT-4.5 (wersja zapoznawcza)

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4.5 Poziom przedsiębiorstwa 200 K 200
gpt-4.5 Wartość domyślna 150 K 150

Globalny standard serii GPT-4.1

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4.1 (2025-04-14) Poziom przedsiębiorstwa 5 milionów 5 K
gpt-4.1 (2025-04-14) Wartość domyślna 1 mln 1 K
gpt-4.1-nano (2025-04-14) Poziom przedsiębiorstwa 150 M 150 K
gpt-4.1-nano (2025-04-14) Wartość domyślna 5 milionów 5 K
gpt-4.1-mini (2025-04-14) Poziom przedsiębiorstwa 150 M 150 K
gpt-4.1-mini (2025-04-14) Wartość domyślna 5 milionów 5 K

Standard strefy danych serii GPT-4.1

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4.1 (2025-04-14) Poziom przedsiębiorstwa 2 mln 2 K
gpt-4.1 (2025-04-14) Wartość domyślna 300 K 300
gpt-4.1-nano (2025-04-14) Poziom przedsiębiorstwa 50 milionów 50 tysięcy
gpt-4.1-nano (2025-04-14) Wartość domyślna 2 mln 2 K
gpt-4.1-mini (2025-04-14) Poziom przedsiębiorstwa 50 milionów 50 tysięcy
gpt-4.1-mini (2025-04-14) Wartość domyślna 2 mln 2 K

GPT-4 Turbo

gpt-4 (turbo-2024-04-09) ma poziomy ograniczeń prędkości z wyższymi limitami dla wybranych typów klientów.

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4 (turbo-2024-04-09) Umowa Korporacyjna 2 mln 12 K
gpt-4 (turbo-2024-04-09) Wartość domyślna 450 K 2,7 K

limity szybkości routera modelu

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
model-router (2025-05-19) Poziom przedsiębiorstwa 10 M 10 tys.
model-router (2025-05-19) Wartość domyślna 1 mln 1 K

globalne limity szybkości użycia komputera w wersji zapoznawczej

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
computer-use-preview Poziom przedsiębiorstwa 30 M 300 K
computer-use-preview Wartość domyślna 450 K 4,5 K

Limity szybkości serii o

Ważne

Współczynnik żądań na minutę (RPM) do tokenów na minutę (TPM) dla limitu przydziału może się różnić w zależności od modelu. Podczas programowego wdrażania modelu lub żądania zwiększenia limitu przydziału nie masz szczegółowej kontroli nad wartościami TPM i RPM jako niezależnymi. Przydział jest rozdzielany w jednostkach pojemności, które mają odpowiednie ilości obr./min i TPM.

Model Pojemność Żądania na minutę (RPM) Tokeny na minutę (TPM)
Starsze modele rozmów: 1 jednostka 6 obrotów na minutę 1 000 TPM
o1 i podgląd o1: 1 jednostka 1 OBR./min 6000 TPM
o3 1 jednostka 1 OBR./min 1 000 TPM
o4-mini 1 jednostka 1 OBR./min 1 000 TPM
o3-mini: 1 jednostka 1 OBR./min 10 000 TPM
o1-mini: 1 jednostka 1 OBR./min 10 000 TPM
o3-pro: 1 jednostka 1 OBR./min 10 000 TPM

Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ zmiany współczynnika RPM/TPM mogą spowodować przypadkowe błędne rozmieszczenie limitu przydziału.

Globalny standard serii o

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
codex-mini Umowa Korporacyjna 10 M 10 tys.
o3-pro Umowa Korporacyjna 16 M 1,6 K
o4-mini Umowa Korporacyjna 10 M 10 tys.
o3 Umowa Korporacyjna 10 M 10 tys.
o3-mini Umowa Korporacyjna 50 milionów 5 K
o1 & o1-preview Umowa Korporacyjna 30 M 5 K
o1-mini Umowa Korporacyjna 50 milionów 5 K
codex-mini Wartość domyślna 1 mln 1 K
o3-pro Wartość domyślna 1,6 mln 160
o4-mini Wartość domyślna 1 mln 1 K
o3 Wartość domyślna 1 mln 1 K
o3-mini Wartość domyślna 5 milionów 500
o1 & o1-preview Wartość domyślna 3 M 500
o1-mini Wartość domyślna 5 milionów 500

Standard strefy danych serii o

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
o3-mini Umowa Korporacyjna 20 M 2 K
o3-mini Wartość domyślna 2 mln 200
o1 Umowa Korporacyjna 6 milionów 1 K
o1 Wartość domyślna 600 K 100

o1-preview i o1-mini standardowy

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
o1-preview Umowa Korporacyjna 600 K 100
o1-mini Umowa Korporacyjna 1 mln 100
o1-preview Wartość domyślna 300 K 50
o1-mini Wartość domyślna 500 K 50

limity szybkości gpt-4o

gpt-4o i gpt-4o-mini mają warstwy limitu szybkości z wyższymi limitami dla niektórych typów klientów.

gpt-4o globalny standard

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Korporacyjna 30 M 180 K
gpt-4o-mini Umowa Korporacyjna 50 milionów 300 K
gpt-4o Wartość domyślna 450 K 2,7 K
gpt-4o-mini Wartość domyślna 2 mln 12 K

M = milion | K = tysiąc

standardowy obszar danych gpt-4o

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Korporacyjna 10 M 60 tysięcy
gpt-4o-mini Umowa Korporacyjna 20 M 120 kilowatów
gpt-4o Wartość domyślna 300 K 1,8 K
gpt-4o-mini Wartość domyślna 1 mln 6 K

M = milion | K = tysiąc

gpt-4o standard

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4o Umowa Korporacyjna 1 mln 6 K
gpt-4o-mini Umowa Korporacyjna 2 mln 12 K
gpt-4o Wartość domyślna 150 K 900
gpt-4o-mini Wartość domyślna 450 K 2,7 K

M = milion | K = tysiąc

gpt-4o audio

Limity szybkości dla każdego gpt-4o wdrożenia modelu audio to 100 K TPM i 1 K OBR/min. W wersji zapoznawczej portal usługi Azure AI Foundry i interfejsy API mogą niedokładnie pokazywać różne limity szybkości. Nawet jeśli spróbujesz ustawić inny limit szybkości, rzeczywisty limit szybkości to 100 K TPM i 1 K OBR/min.

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-4o-audio-preview Wartość domyślna 450 K 1 K
gpt-4o-realtime-preview Wartość domyślna 800 Kelwinów 1 K
gpt-4o-mini-audio-preview Wartość domyślna 2 mln 1 K
gpt-4o-mini-realtime-preview Wartość domyślna 800 Kelwinów 1 K

M = milion | K = tysiąc

Limity szybkości GPT-image-1

Globalny standard GPT0-image-1

Model Warstwa Limit kwoty w tokenach na minutę (TPM) Żądania na minutę
gpt-image-1 Umowa Korporacyjna N/A 20
gpt-image-1 Wartość domyślna N/A 6

Poziomy użycia

Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie przekierowując ruch użytkowników do centrum danych z najlepszą dostępnością dla zapytań klientów. Podobnie standardowe wdrożenia strefy danych umożliwiają używanie globalnej infrastruktury platformy Azure do dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane według modelu i to łączna liczba tokenów wykorzystanych we wszystkich wdrożeniach, we wszystkich subskrypcjach, we wszystkich regionach dla danego najemcy.

Uwaga / Notatka

Warstwy użycia mają zastosowanie tylko do typów wdrożeń: standardowego, standardu strefy danych i globalnego standardu. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i zarezerwowanej przepływności.

Standard globalny, Standard strefy danych i Standard

Model Poziomy użycia na miesiąc
gpt-4 + gpt-4-32k (wszystkie wersje) 6 Miliardów tokenów
gpt-4o 12 Miliardów tokenów
gpt-4o-mini 85 Miliardów tokenów
o3-mini 50 miliardów tokenów
o1 4 miliardy tokenów
o4-mini 50 miliardów tokenów
o3 5 Miliardów tokenów
gpt-4.1 30 Miliardów tokenów
gpt-4.1-mini 150 Miliardów tokenów
gpt-4.1-nano 550 Miliardów tokenów

Inne typy ofert

Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.

Warstwa Limit kwoty w tokenach na minutę (TPM)
Azure for Students 1 K (wszystkie modele)
Wyjątek o-series & GPT-4.1 & GPT 4.5 Zapowiedź: 0
MSDN GPT-4o-mini: 200 K
Seria GPT 3.5 Turbo: 200 K
Seria GPT-4: 50 K
podgląd-użytkowania-komputera: 8 K
podgląd-w-czasie-rzeczywistym-gpt-4o: 1 K
seria o: 0
Podgląd GPT 4.5: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Standard GPT-4o-mini: 200 K
Seria GPT 3.5 Turbo: 200 K
Seria GPT-4: 50 K
podgląd-użytkowania-komputerów: 30 K
seria o: 0
Podgląd GPT 4.5: 0
GPT-4.1: 50 K
GPT-4.1-nano: 200 K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini: 200 K
Seria GPT 3.5 Turbo: 200 K
Seria GPT-4: 50 K
CSP Integration Sandbox * Wszystkie modele: 0
Lightweight trial
Free Trials
Azure Pass
Wszystkie modele: 0

*Dotyczy to tylko niewielkiej liczby starszych subskrypcji sandbox CSP. Użyj poniższego zapytania, aby określić, co quotaId jest skojarzone z subskrypcją.

Aby określić typ oferty skojarzony z subskrypcją, możesz sprawdzić swój quotaId. Jeśli quotaId nie jest wymienione w tej tabeli, twoja subskrypcja kwalifikuje się do domyślnego przydziału.

Dokumentacja interfejsu API

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

Wynik

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
Alokacja przydziału/Typ oferty Identyfikator limitu przydziału subskrypcji
Enterprise EnterpriseAgreement_2014-09-01
Płać według zużycia PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
Piaskownica integracji programu CSP CSPDEVTEST_2018-05-01
Azure for Students AzureForStudents_2018-01-01
Bezpłatna wersja próbna FreeTrial_2014-09-01
Azure — dostęp próbny AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
Wartość domyślna Żaden identyfikator limitu przydziału nie wymieniony w tej tabeli

Ogólne najlepsze praktyki dotyczące utrzymania się w granicach limitów szybkości.

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Testuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do Twojego wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia limitu przydziału

Żądania zwiększenia limitu przydziału można przesłać za pośrednictwem formularza żądania zwiększenia limitu przydziału. Ze względu na duże zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i wypełniane w kolejności ich odebrania. Klienci, którzy generują ruch wykorzystujący istniejący limit, są obsługiwani w pierwszej kolejności, a twoja prośba może być odrzucona, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów prześlij żądanie obsługi.

Regionalne limity pojemności przydziału

Dostępność limitów przydziału można wyświetlić według regionów dla subskrypcji w portalu usługi Azure AI Foundry.

Alternatywnie, aby wyświetlić pojemność przydziału według regionu dla określonego modelu/wersji, możesz zapytać API pojemności dla swojej subskrypcji. Podaj wartości subscriptionId, model_namei model_version i interfejs API zwraca dostępną pojemność dla tego modelu we wszystkich regionach oraz typy wdrożeń dla subskrypcji.

Uwaga / Notatka

Obecnie zarówno portal usługi Azure AI Foundry, jak i interfejs API pojemności zwracają informacje o limitach przydziału/pojemności dla modeli, które są wycofane i nie są już dostępne.

Referencja API

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))

Dalsze kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.