Azure OpenAI i limity oraz przydziały modeli w Microsoft Foundry

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla Azure OpenAI.

Zakres przydziału

Limity i przydziały nie są egzekwowane na poziomie dzierżawy. Zamiast tego, najwyższy poziom ograniczenia przydziału jest określony na poziomie subskrypcji Azure.

Alokacja przydziału regionalnego

Tokeny na minutę (TPM) i żądania na minutę (RPM) są definiowane na region, na subskrypcję oraz na model lub typ wdrożenia.

Jeśli na przykład model gpt-4.1 Global Standard jest wymieniony z limitem przydziału 5 mln TPM i 5 000 OBR/min, następnie każdy region, gdzie ten model lub typ wdrożenia jest dostępny, ma własną dedykowaną pulę przydziałów o tej wielkości dla każdej subskrypcji Azure. W ramach jednej subskrypcji Azure można użyć większej ilości całkowitego limitu TPM i RPM dla określonego modelu oraz typu wdrożenia, o ile masz zasoby i wdrożenia modelu rozproszone w wielu regionach.

Warstwy przydziału

Wprowadzamy warstwy przydziału, aby poprawić obsługę modeli Foundry i zmniejszyć trudności związane ze skalowaniem obciążeń. Limity przydziału będą teraz zwiększane automatycznie przy użyciu, co pomaga uniknąć błędów limitu szybkości, jednocześnie tworząc sprawiedliwsze środowisko dla wszystkich użytkowników. Zostanie udostępnionych siedem warstw: warstwa Bezpłatna i warstwy od 1 do 6 — z warstwą 6 oferującą najwyższe limity przydziału. Początkowy poziom przypisany klientowi jest określany na podstawie jego aktualnego korzystania z tego modelu i obecnej relacji z Microsoftem oraz statusu umowy typu Enterprise Agreement (EA lub MCA-E). 

Co się dla mnie zmienia?

Dotychczas platforma Foundry oferowała tylko poziomy limitu przydziału Podstawowego i Firmowego dla oferty płatności zgodnie z użyciem, co skutkowało dużą różnicą między poziomami oraz długim procesem wnioskowania o zwiększenie. W przypadku warstw przydziałów wszyscy użytkownicy mają przypisaną warstwę, której przydział jest równy lub wyższy niż na poprzednich poziomach. Wszystkie wcześniej zatwierdzone wzrosty przydziału są zachowywane i nie zostaną zmniejszone. Wraz ze wzrostem użycia Foundry automatycznie zwiększa limity przydziału, przenosząc użytkowników do wyższych warstw, a dodatkowy limit przydziału można nadal żądać za pośrednictwem formularza przydziału.

Jak klient automatycznie przejdzie z jednej warstwy do innej, na przykład jakie są kryteria zmiany warstwy? 

Automatyczne uaktualnienia poziomów są oparte głównie na tendencjach zużycia klientów w modelach Foundry na przestrzeni czasu. Jeśli użycie klienta wzrośnie do tego stopnia, że ich obecny poziom przydziału ogranicza możliwość korzystania z Modeli Foundry, system automatycznie uaktualni klienta do następnego wyższego poziomu. Uwzględniane są również relacje klienta z Microsoft. Klienci Enterprise (w tym EA i MCA-E) firmy Microsoft mają przypisane wyższe poziomy przydziału. Ponadto Microsoft rozważy również historię płatności klienta, aby określić uprawnienia do automatycznych uaktualnień. 

Czy mogę zrezygnować z automatycznych uaktualnień?

Tak, możesz zrezygnować z automatycznych uaktualnień i pozostaniesz w bieżącej warstwie niezależnie od zmian zużycia. Zdajemy sobie sprawę, że niektórzy klienci używają limitu przydziału do zarządzania rozliczeniami. Nie jest to jednak najlepsze rozwiązanie Azure, jednak rozumiemy, że jeśli system jest skonfigurowany w taki sposób, że nie chcemy go przerywać. Więcej informacji na temat zarządzania rozliczeniami i najlepszych rozwiązań można znaleźć tutaj: Cost Management.

Aby zrezygnować, możesz ustawić następującą flagę na :NoAutoUpgrade

curl -X PATCH \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
  -H "Content-Type: application/json" \
  -d '{
    "properties": {
      "tierUpgradePolicy": "NoAutoUpgrade"
    }
  }'

Uwaga

Funkcja rezygnacji jest w wersji zapoznawczej i może ulec zmianie/usunięciu w przyszłości.

Czy mogę zażądać większego limitu przydziału?

Tak, korzystając z formularza żądania limitu przydziału , zawsze możesz zażądać większego limitu przydziału. Jeśli żądanie zostanie zatwierdzone, bieżący poziom pozostanie taki sam, ale z większą liczbą przydzielonych zasobów.

Jak sprawdzić limit przydziału mojej subskrypcji?

Możesz obecnie sprawdzić swój poziom przydziału za pomocą interfejsu API płaszczyzny sterowania:

curl -X GET \
  "https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
  -H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
  -H "Content-Type: application/json"

Odniesienie do poziomu kwoty

Warstwa 1

Nazwa modelu Typ wdrożenia Żądania na minutę (RPM) Tokeny na minutę (TPM)
codex-mini GlobalStandard 1,000 1,000,000
podgląd użycia komputera GlobalStandard 4,500 450 000
gpt-4.1 DataZoneStandard 300 300,000
gpt-4.1 GlobalStandard 1,000 1,000,000
gpt-4.1-mini DataZoneStandard 2 000 2,000,000
gpt-4.1-mini GlobalStandard 5,000 5,000,000
gpt-4.1-mini Standard 6,000 6,000,000
gpt-4.1-nano DataZoneStandard 2 000 2,000,000
gpt-4.1-nano GlobalStandard 5,000 5,000,000
gpt-4o DataZoneStandard 300/10s 300,000
gpt-4o-audio-preview GlobalStandard 30000/10s 30,000,000
gpt-4o-mini DataZoneStandard 10 000 1,000,000
gpt-4o-mini GlobalStandard 20,000 2,000,000
gpt-4o-mini-audio-preview GlobalStandard 30000/10s 30,000,000
gpt-4o-mini-realtime-preview GlobalStandard 36 6,000
gpt-4o-realtime-preview GlobalStandard 36 6,000
gpt-5 DataZoneStandard 3,000 300,000
gpt-5 GlobalStandard 10 000 1,000,000
gpt-5-chat GlobalStandard 1,000 1,000,000
gpt-5-codex GlobalStandard 1,000 1,000,000
gpt-5-mini DataZoneStandard 300 300,000
gpt-5-mini GlobalStandard 1,000 1,000,000
gpt-5-nano DataZoneStandard 2 000 2,000,000
gpt-5-nano GlobalStandard 5,000 5,000,000
gpt-5-pro GlobalStandard 1,600 160,000
gpt-5.1 DataZoneStandard 3,000 300,000
gpt-5.1 GlobalStandard 10 000 1,000,000
gpt-5.1 Standard 3,000 300,000
gpt-5.1-chat GlobalStandard 10 000 1,000,000
gpt-5.1-codex DataZoneStandard 3,000 300,000
gpt-5.1-codex GlobalStandard 1,000 1,000,000
gpt-5.1-codex-max GlobalStandard 10 000 1,000,000
gpt-5.1-codex-mini GlobalStandard 1,000 1,000,000
gpt-5.2 DataZoneStandard 3,000 300,000
gpt-5.2 GlobalStandard 10 000 1,000,000
gpt-5.2-chat GlobalStandard 10 000 1,000,000
gpt-5.3-chat GlobalStandard 1,000 1,000,000
gpt-5.2-codex GlobalStandard 10 000 1,000,000
gpt-5.3-codex GlobalStandard 10 000 1,000,000
gpt-5.4 DataZoneStandard 300 300,000
gpt-5.4 GlobalStandard 10 000 1,000,000
gpt-5.4-pro GlobalStandard 160 160,000
gpt-5.4-mini GlobalStandard 1,000 1,000,000
gpt-5.4-nano DataZoneStandard 2 000 2,000,000
gpt-5.4-nano GlobalStandard 5,000 5,000,000
gpt-5.5 DataZoneStandard 0 0
gpt-5.5 GlobalStandard 0 0
gpt-chat-latest GlobalStandard 10 000 1,000,000
gpt-audio GlobalStandard 30000/10s 30,000,000
gpt-image-1 GlobalStandard 9 -
gpt-image-1-mini GlobalStandard 12 -
gpt-image-1.5 DataZoneStandard 3 -
gpt-image-1.5 GlobalStandard 9 -
gpt-image-2 DataZoneStandard 2 -
gpt-image-2 GlobalStandard 6 -
gpt-realtime GlobalStandard 200 100,000
model-router DataZoneStandard 300 300,000
model-router GlobalStandard 1,000 1,000,000
o1 DataZoneStandard 100 600,000
o1 GlobalStandard 500 3,000,000
o3 DataZoneStandard 300 300,000
o3 GlobalStandard 1,000 1,000,000
o3-głębokie-badania GlobalStandard 3,000 3,000,000
o3-mini DataZoneStandard 200 2,000,000
o3-mini GlobalStandard 500 5,000,000
o3-pro GlobalStandard 160 1,600,000
o4-mini DataZoneStandard 300/10s 300,000
o4-mini GlobalStandard 1,000 1,000,000
osadzanie tekstu —3 — duże DataZoneStandard 1,000 1,000,000
osadzanie tekstu —3 — duże GlobalStandard 1000/10s 1,000,000
osadzanie tekstu — 3 małe DataZoneStandard 1,000 1,000,000
osadzanie tekstu — 3 małe GlobalStandard 1000/10s 1,000,000

Odwołanie do przydziałów i limitów

Poniższa sekcja zawiera szybki przewodnik po domyślnych przydziałach i limitach, które mają zastosowanie do Azure OpenAI:

Nazwa limitu Wartość limitu
Zasoby Azure OpenAI na region, na subskrypcję Azure 30.
Domyślne limity kontyngentu GPT-image-1 9 żądań na minutę
Domyślne limity przydziału GPT-image-1-mini 12 żądań na minutę
Domyślne limity przydziału GPT-image-1.5 9 żądań na minutę
Domyślne limity GPT-image-2 9 żądań na minutę
Domyślne limity przydziału Sora 60 żądań na minutę.
Domyślne limity przydziału Sora 2 2 żądania zadań1 na minutę
Domyślne limity użycia interfejsu API zamiany mowy na tekst 3 żądania na minutę.
Maksymalna liczba tokenów monitu na żądanie Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Azure Modele OpenAI.
Maksymalna liczba standardowych wdrożeń przypadających na zasób 32.
Maksymalnie dopasowane wdrożenia modeli 10.
Łączna liczba prac szkoleniowych na zasób 100.
Maksymalna liczba równocześnie uruchomionych zadań treningowych na zasób Szkolenie standardowe i globalne: 3;
Szkolenie dla deweloperów: 5
Maksymalna liczba zleceń treningowych w kolejce 20.
Maksymalna liczba plików na zasób (dostosowanie) 100.
Całkowity rozmiar wszystkich plików według zasobu (strojenie) 1 GB.
Maksymalny czas zadania trenowania (zadanie kończy się niepowodzeniem, jeśli zostanie przekroczone) 720 godzin.
Maksymalny rozmiar zadania trenowania (tokens in training file) x (# of epochs) 2 miliardy.
Maksymalny rozmiar wszystkich plików na przesyłanie (Azure OpenAI na danych) 16 MB.
Maksymalna liczba danych wejściowych w tablicy z /embeddings 2,048.
Maksymalna liczba tokenów w jednym żądaniu /embeddings (łącznie we wszystkich danych wejściowych) 300,000.
Maksymalna liczba komunikatów /chat/completions 2,048.
Maksymalna liczba /chat/completions funkcji 128.
Maksymalna liczba /chat/completions narzędzi 128.
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie 100,000.
Maksymalna liczba plików na asystenta lub wątek 10 000 w przypadku korzystania z interfejsu API lub portalu Microsoft Foundry.
Maksymalny rozmiar pliku dla asystentów i dostrajanie 512 MB za pośrednictwem interfejsu API

200 MB za pośrednictwem portalu Foundry.
Maksymalna liczba żądań przesyłania plików dla zasobu 30 żądań na sekundę.
Maksymalny rozmiar wszystkich przesłanych plików dla asystentów 200 GB.
Limit tokenów asystentów Limit tokenu: 2000 000.
GPT-4o i GPT-4.1 maksymalna liczba obrazów na żądanie (liczba obrazów w tablicy wiadomości lub historii konwersacji) 50.
GPT-4 vision-preview i GPT-4 turbo-2024-04-09 domyślne maksymalne tokeny 16.

Zwiększ wartość parametru max_tokens, aby uniknąć przycinania odpowiedzi. GPT-4o maksymalna wartość domyślna tokenów to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniach interfejsu API2 10.
Limit znaków wiadomości 1,048,576.
Rozmiar komunikatu dla plików audio 20 MB.

1 Limit przydziału Sora 2 RPM liczy tylko żądania zadań wideo. Inne rodzaje żądań nie podlegają ograniczeniom szybkości.

2 Nasze bieżące API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez pipeline i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Uwaga

Limity przydziału mogą ulec zmianie.

Limity usługi Batch

Nazwa limitu Wartość limitu
Maksymalna liczba plików wejściowych usługi Batch — (bez wygaśnięcia) 500
Maksymalna liczba plików wejściowych usługi Batch — (ustawienie wygaśnięcia) 10 000
Maksymalny rozmiar pliku wejściowego 200 MB
Maksymalny rozmiar pliku wejściowego — przynieś własną pamięć masową (BYOS) 1 GB
Maksymalna liczba żądań na plik 100,000

Uwaga

Limity plików wsadowych nie mają zastosowania do plików wyjściowych (na przykład result.jsonl i error.jsonl). Aby usunąć limity plików wejściowych wsadowych, użyj Batch z Azure Blob Storage.

Przydział wsadowy

W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów oczekujących w kolejce. Gdy przesyłasz plik do przetwarzania wsadowego, liczba tokenów w pliku jest liczona. Zanim zadanie wsadowe osiągnie stan końcowy, te tokeny są liczone w stosunku do całkowitego limitu tokenów umieszczonych w kolejce.

Partia globalna

Model Przedsiębiorstwo i MCA-E Domyślny Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure dla uczniów, bezpłatne wersje próbne
gpt-4.1 5B 200 mln 50 mln 90 tys. N/A
gpt-4.1 mini 15B 1B 50 mln 90 tys. N/A
gpt-4.1-nano 15B 1B 50 mln 90 tys. N/A
gpt-4o 5B 200 mln 50 mln 90 tys. N/A
gpt-4o-mini 15B 1B 50 mln 90 tys. N/A
gpt-4-turbo 300 mln 80 mln 40 mln 90 tys. N/A
gpt-4 150 mln 30 mln 5 mln 100 tys. N/A
o3-mini 15B 1B 50 mln 90 tys. N/A
o4-mini 15B 1B 50 mln 90 tys. N/A
gpt-5 5B 200 mln 50 mln 90 tys. N/A
gpt-5.1 5B 200 mln 50 mln 90 tys. N/A

B = miliard | M = milion | K = tysiąc

Partia strefy danych

Model Przedsiębiorstwo i MCA-E Domyślny Miesięczne subskrypcje oparte na kartach kredytowych Subskrypcje MSDN Azure dla uczniów, bezpłatne wersje próbne
gpt-4.1 500 mln 30 mln 30 mln 90 tys. N/A
gpt-4.1-mini 1,5 mld 100 mln 50 mln 90 tys. N/A
gpt-4o 500 mln 30 mln 30 mln 90 tys. N/A
gpt-4o-mini 1,5 mld 100 mln 50 mln 90 tys. N/A
o3-mini 1,5 mld 100 mln 50 mln 90 tys. N/A
gpt-5 5B 200 mln 50 mln 90 tys. N/A
gpt-5.1 5B 200 mln 50 mln 90 tys. N/A

gpt-oss

Model Tokeny na minutę (TPM) Żądania na minutę (RPM)
gpt-oss-120b 5 milionów 5 K

Warstwy użycia

Globalne wdrożenia standardowe korzystają z globalnej infrastruktury Azure. Dynamicznie kierują ruch klientów do centrum danych, które ma najlepszą dostępność do obsługi żądań wnioskowania klientów. Podobnie wdrożenia w Standardowej strefie danych umożliwiają wykorzystanie globalnej infrastruktury Azure do dynamicznego kierowania ruchu do centrum danych w strefie danych określonej przez Microsoft, która zapewnia najlepszą dostępność dla każdego żądania. Ta praktyka umożliwia bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Azure warstwy użycia openAI zostały zaprojektowane tak, aby zapewnić spójną wydajność dla większości klientów z niskim i średnim poziomem ruchu. Każda warstwa użycia definiuje maksymalną przepływność (tokeny na minutę), której można oczekiwać z przewidywalnym opóźnieniem. Gdy użycie pozostanie w przypisanej warstwie, opóźnienie pozostaje stabilne, a czasy odpowiedzi są spójne.

Co się stanie, jeśli przekroczysz poziom zużycia?

  • Jeśli przepływność żądania przekracza warstwę użycia — szczególnie w okresach wysokiego zapotrzebowania — opóźnienie odpowiedzi może znacznie wzrosnąć.
  • Opóźnienie może się różnić i w niektórych przypadkach może być ponad dwukrotnie wyższe niż podczas działania w ramach poziomu użycia.
  • Ta zmienność jest najbardziej zauważalna dla klientów o wysokim ciągłym użyciu lub wzorcach gwałtownego ruchu.

Jeśli wystąpią błędy 429 lub zauważysz zwiększoną zmienność opóźnienia, oto co należy zrobić:

  • Zażądaj zwiększenia limitu przydziału: odwiedź portal Azure, aby zażądać wyższego limitu przydziału dla subskrypcji.
  • Rozważ uaktualnienie do oferty premium: dla obciążeń o krytycznym opóźnieniu lub dużym woluminie, uaktualnij do Jednostki Przepustowości Zarezerwowanej (PTU). PTU zapewnia dedykowane zasoby, gwarantowaną przepustowość i przewidywalne opóźnienia — nawet na dużą skalę. Jest to najlepszy wybór dla aplikacji o krytycznym znaczeniu, które wymagają spójnej wydajności.
  • Monitoruj użycie: regularnie przeglądaj metryki użycia w portalu Azure, aby upewnić się, że działasz w ramach limitów warstw. Dostosuj strategię obciążenia lub wdrożenia zgodnie z potrzebami.

Możesz otrzymać 429 odpowiedzi (zbyt wiele żądań), nawet jeśli metryki użycia tokenu są wyświetlane poniżej limitu przydziału. Aby uzyskać wyjaśnienie, dlaczego tak się dzieje, zobacz Dlaczego możesz zobaczyć liczbę 429, nawet jeśli metryki użycia tokenu są niższe niż limit przydziału.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane dla każdego modelu. Jest to łączna liczba tokenów zużytych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Uwaga

Poziomy użycia mają zastosowanie tylko do typów wdrożeń Standard, Data Zone Standard oraz Global Standard. Warstwy użycia nie mają zastosowania do globalnych wsadowych wdrożeń i wdrożeń z przydzieloną przepustowością.

Globalny standard, Standard strefy danych i Standard

Model Poziomy użycia na miesiąc
gpt-5 32 miliardy tokenów
gpt-5-mini 160 miliardów tokenów
gpt-5-nano 800 miliardów tokenów
gpt-5-chat 32 miliardy tokenów
gpt-4 + gpt-4-32k (wszystkie wersje) 6 miliardów tokenów
gpt-4o 12 miliardów tokenów
gpt-4o-mini 85 miliardów tokenów
o3-mini 50 miliardów tokenów
o1 4 miliardy tokenów
o4-mini 50 miliardów tokenów
o3 5 miliardów tokenów
gpt-4.1 30 miliardów tokenów
gpt-4.1-mini 150 miliardów tokenów
gpt-4.1-nano 550 miliardów tokenów

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Przetestuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Aby uzyskać szczegółowe zalecenia, przykłady kodu ponawiania z narastającym opóźnieniem oraz przewodnik rozwiązywania problemów z błędem 429, zobacz Manage Azure OpenAI in Microsoft Foundry Models quota.

Zwiększanie limitu przydziału

Prześlij formularz wniosku o zwiększenie limitu przydziału, aby poprosić o zwiększenie limitu przydziału dla modeli Foundry sprzedawanych przez platformę Azure, modeli Azure OpenAI i modeli Anthropic. Z wyjątkiem modeli Anthropic modeli od partnerów i społeczności nie obsługują zwiększenia limitu przydziału.

Żądania zwiększenia limitu przydziału są przetwarzane w kolejności, w której są odbierane, a priorytet jest kierowany do klientów, którzy aktywnie korzystają z istniejącej alokacji przydziału. Żądania, które nie spełniają tego warunku, mogą zostać odrzucone.

Regionalne limity pojemności przydziału

Możesz wyświetlić dostępność przydziału w danym regionie dla swojej subskrypcji w portalu Foundry.

Aby programowo sprawdzić limit przydziału i pojemność, zobacz Programowe sprawdzanie limitu przydziału i pojemności w przewodniku zarządzania przydziałami. W tej sekcji omówiono dwa uzupełniające interfejsy API REST: interfejs API użycia do sprawdzania użycia pod kątem limitów oraz interfejs API pojemności modelu na potrzeby sprawdzania dostępnej pojemności wdrożenia według modelu i regionu.

Uwaga

Obecnie zarówno portal Foundry, jak i interfejsy API pojemności zwracają informacje o limitach przydziału i pojemności dla modeli, które są wycofane i nie są już dostępne dla nowych wdrożeń.