Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla Azure OpenAI.
Zakres przydziału
Limity i przydziały nie są egzekwowane na poziomie dzierżawy. Zamiast tego, najwyższy poziom ograniczenia przydziału jest określony na poziomie subskrypcji Azure.
Alokacja przydziału regionalnego
Tokeny na minutę (TPM) i żądania na minutę (RPM) są definiowane na region, na subskrypcję oraz na model lub typ wdrożenia.
Jeśli na przykład model gpt-4.1 Global Standard jest wymieniony z limitem przydziału 5 mln TPM i 5 000 OBR/min, następnie każdy region, gdzie ten model lub typ wdrożenia jest dostępny, ma własną dedykowaną pulę przydziałów o tej wielkości dla każdej subskrypcji Azure. W ramach jednej subskrypcji Azure można użyć większej ilości całkowitego limitu TPM i RPM dla określonego modelu oraz typu wdrożenia, o ile masz zasoby i wdrożenia modelu rozproszone w wielu regionach.
Warstwy przydziału
Wprowadzamy warstwy przydziału, aby poprawić obsługę modeli Foundry i zmniejszyć trudności związane ze skalowaniem obciążeń. Limity przydziału będą teraz zwiększane automatycznie przy użyciu, co pomaga uniknąć błędów limitu szybkości, jednocześnie tworząc sprawiedliwsze środowisko dla wszystkich użytkowników. Zostanie udostępnionych siedem warstw: warstwa Bezpłatna i warstwy od 1 do 6 — z warstwą 6 oferującą najwyższe limity przydziału. Początkowy poziom przypisany klientowi jest określany na podstawie jego aktualnego korzystania z tego modelu i obecnej relacji z Microsoftem oraz statusu umowy typu Enterprise Agreement (EA lub MCA-E).
Co się dla mnie zmienia?
Dotychczas platforma Foundry oferowała tylko poziomy limitu przydziału Podstawowego i Firmowego dla oferty płatności zgodnie z użyciem, co skutkowało dużą różnicą między poziomami oraz długim procesem wnioskowania o zwiększenie. W przypadku warstw przydziałów wszyscy użytkownicy mają przypisaną warstwę, której przydział jest równy lub wyższy niż na poprzednich poziomach. Wszystkie wcześniej zatwierdzone wzrosty przydziału są zachowywane i nie zostaną zmniejszone. Wraz ze wzrostem użycia Foundry automatycznie zwiększa limity przydziału, przenosząc użytkowników do wyższych warstw, a dodatkowy limit przydziału można nadal żądać za pośrednictwem formularza przydziału.
Jak klient automatycznie przejdzie z jednej warstwy do innej, na przykład jakie są kryteria zmiany warstwy?
Automatyczne uaktualnienia poziomów są oparte głównie na tendencjach zużycia klientów w modelach Foundry na przestrzeni czasu. Jeśli użycie klienta wzrośnie do tego stopnia, że ich obecny poziom przydziału ogranicza możliwość korzystania z Modeli Foundry, system automatycznie uaktualni klienta do następnego wyższego poziomu. Uwzględniane są również relacje klienta z Microsoft. Klienci Enterprise (w tym EA i MCA-E) firmy Microsoft mają przypisane wyższe poziomy przydziału. Ponadto Microsoft rozważy również historię płatności klienta, aby określić uprawnienia do automatycznych uaktualnień.
Czy mogę zrezygnować z automatycznych uaktualnień?
Tak, możesz zrezygnować z automatycznych uaktualnień i pozostaniesz w bieżącej warstwie niezależnie od zmian zużycia. Zdajemy sobie sprawę, że niektórzy klienci używają limitu przydziału do zarządzania rozliczeniami. Nie jest to jednak najlepsze rozwiązanie Azure, jednak rozumiemy, że jeśli system jest skonfigurowany w taki sposób, że nie chcemy go przerywać. Więcej informacji na temat zarządzania rozliczeniami i najlepszych rozwiązań można znaleźć tutaj: Cost Management.
Aby zrezygnować, możesz ustawić następującą flagę na :NoAutoUpgrade
curl -X PATCH \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers/default?api-version=2025-10-01-preview" \
-H "Authorization: Bearer <YOUR_ACCESS_TOKEN>" \
-H "Content-Type: application/json" \
-d '{
"properties": {
"tierUpgradePolicy": "NoAutoUpgrade"
}
}'
Uwaga
Funkcja rezygnacji jest w wersji zapoznawczej i może ulec zmianie/usunięciu w przyszłości.
Czy mogę zażądać większego limitu przydziału?
Tak, korzystając z formularza żądania limitu przydziału , zawsze możesz zażądać większego limitu przydziału. Jeśli żądanie zostanie zatwierdzone, bieżący poziom pozostanie taki sam, ale z większą liczbą przydzielonych zasobów.
Jak sprawdzić limit przydziału mojej subskrypcji?
Możesz obecnie sprawdzić swój poziom przydziału za pomocą interfejsu API płaszczyzny sterowania:
curl -X GET \
"https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/providers/Microsoft.CognitiveServices/quotaTiers?api-version=2025-10-01-preview" \
-H "Authorization: Bearer $(az account get-access-token --resource https://management.azure.com --query accessToken -o tsv)" \
-H "Content-Type: application/json"
Odniesienie do poziomu kwoty
Warstwa 1
| Nazwa modelu | Typ wdrożenia | Żądania na minutę (RPM) | Tokeny na minutę (TPM) |
|---|---|---|---|
| codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| podgląd użycia komputera | GlobalStandard | 4,500 | 450 000 |
| gpt-4.1 | DataZoneStandard | 300 | 300,000 |
| gpt-4.1 | GlobalStandard | 1,000 | 1,000,000 |
| gpt-4.1-mini | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-4.1-mini | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4.1-mini | Standard | 6,000 | 6,000,000 |
| gpt-4.1-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-4.1-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-4o | DataZoneStandard | 300/10s | 300,000 |
| gpt-4o-audio-preview | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-4o-mini | DataZoneStandard | 10 000 | 1,000,000 |
| gpt-4o-mini | GlobalStandard | 20,000 | 2,000,000 |
| gpt-4o-mini-audio-preview | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-4o-mini-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-4o-realtime-preview | GlobalStandard | 36 | 6,000 |
| gpt-5 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-mini | DataZoneStandard | 300 | 300,000 |
| gpt-5-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-5-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5-pro | GlobalStandard | 1,600 | 160,000 |
| gpt-5.1 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1 | Standard | 3,000 | 300,000 |
| gpt-5.1-chat | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1-codex | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.1-codex | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.1-codex-max | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.1-codex-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2 | DataZoneStandard | 3,000 | 300,000 |
| gpt-5.2 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.2-chat | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.3-chat | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.2-codex | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.3-codex | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.4 | DataZoneStandard | 300 | 300,000 |
| gpt-5.4 | GlobalStandard | 10 000 | 1,000,000 |
| gpt-5.4-pro | GlobalStandard | 160 | 160,000 |
| gpt-5.4-mini | GlobalStandard | 1,000 | 1,000,000 |
| gpt-5.4-nano | DataZoneStandard | 2 000 | 2,000,000 |
| gpt-5.4-nano | GlobalStandard | 5,000 | 5,000,000 |
| gpt-5.5 | DataZoneStandard | 0 | 0 |
| gpt-5.5 | GlobalStandard | 0 | 0 |
| gpt-chat-latest | GlobalStandard | 10 000 | 1,000,000 |
| gpt-audio | GlobalStandard | 30000/10s | 30,000,000 |
| gpt-image-1 | GlobalStandard | 9 | - |
| gpt-image-1-mini | GlobalStandard | 12 | - |
| gpt-image-1.5 | DataZoneStandard | 3 | - |
| gpt-image-1.5 | GlobalStandard | 9 | - |
| gpt-image-2 | DataZoneStandard | 2 | - |
| gpt-image-2 | GlobalStandard | 6 | - |
| gpt-realtime | GlobalStandard | 200 | 100,000 |
| model-router | DataZoneStandard | 300 | 300,000 |
| model-router | GlobalStandard | 1,000 | 1,000,000 |
| o1 | DataZoneStandard | 100 | 600,000 |
| o1 | GlobalStandard | 500 | 3,000,000 |
| o3 | DataZoneStandard | 300 | 300,000 |
| o3 | GlobalStandard | 1,000 | 1,000,000 |
| o3-głębokie-badania | GlobalStandard | 3,000 | 3,000,000 |
| o3-mini | DataZoneStandard | 200 | 2,000,000 |
| o3-mini | GlobalStandard | 500 | 5,000,000 |
| o3-pro | GlobalStandard | 160 | 1,600,000 |
| o4-mini | DataZoneStandard | 300/10s | 300,000 |
| o4-mini | GlobalStandard | 1,000 | 1,000,000 |
| osadzanie tekstu —3 — duże | DataZoneStandard | 1,000 | 1,000,000 |
| osadzanie tekstu —3 — duże | GlobalStandard | 1000/10s | 1,000,000 |
| osadzanie tekstu — 3 małe | DataZoneStandard | 1,000 | 1,000,000 |
| osadzanie tekstu — 3 małe | GlobalStandard | 1000/10s | 1,000,000 |
Odwołanie do przydziałów i limitów
Poniższa sekcja zawiera szybki przewodnik po domyślnych przydziałach i limitach, które mają zastosowanie do Azure OpenAI:
| Nazwa limitu | Wartość limitu |
|---|---|
| Zasoby Azure OpenAI na region, na subskrypcję Azure | 30. |
| Domyślne limity kontyngentu GPT-image-1 | 9 żądań na minutę |
| Domyślne limity przydziału GPT-image-1-mini | 12 żądań na minutę |
| Domyślne limity przydziału GPT-image-1.5 | 9 żądań na minutę |
| Domyślne limity GPT-image-2 | 9 żądań na minutę |
| Domyślne limity przydziału Sora | 60 żądań na minutę. |
| Domyślne limity przydziału Sora 2 | 2 żądania zadań1 na minutę |
| Domyślne limity użycia interfejsu API zamiany mowy na tekst | 3 żądania na minutę. |
| Maksymalna liczba tokenów monitu na żądanie | Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Azure Modele OpenAI. |
| Maksymalna liczba standardowych wdrożeń przypadających na zasób | 32. |
| Maksymalnie dopasowane wdrożenia modeli | 10. |
| Łączna liczba prac szkoleniowych na zasób | 100. |
| Maksymalna liczba równocześnie uruchomionych zadań treningowych na zasób | Szkolenie standardowe i globalne: 3; Szkolenie dla deweloperów: 5 |
| Maksymalna liczba zleceń treningowych w kolejce | 20. |
| Maksymalna liczba plików na zasób (dostosowanie) | 100. |
| Całkowity rozmiar wszystkich plików według zasobu (strojenie) | 1 GB. |
| Maksymalny czas zadania trenowania (zadanie kończy się niepowodzeniem, jeśli zostanie przekroczone) | 720 godzin. |
Maksymalny rozmiar zadania trenowania (tokens in training file) x (# of epochs) |
2 miliardy. |
| Maksymalny rozmiar wszystkich plików na przesyłanie (Azure OpenAI na danych) | 16 MB. |
Maksymalna liczba danych wejściowych w tablicy z /embeddings |
2,048. |
Maksymalna liczba tokenów w jednym żądaniu /embeddings (łącznie we wszystkich danych wejściowych) |
300,000. |
Maksymalna liczba komunikatów /chat/completions |
2,048. |
Maksymalna liczba /chat/completions funkcji |
128. |
Maksymalna liczba /chat/completions narzędzi |
128. |
| Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie | 100,000. |
| Maksymalna liczba plików na asystenta lub wątek | 10 000 w przypadku korzystania z interfejsu API lub portalu Microsoft Foundry. |
| Maksymalny rozmiar pliku dla asystentów i dostrajanie | 512 MB za pośrednictwem interfejsu API 200 MB za pośrednictwem portalu Foundry. |
| Maksymalna liczba żądań przesyłania plików dla zasobu | 30 żądań na sekundę. |
| Maksymalny rozmiar wszystkich przesłanych plików dla asystentów | 200 GB. |
| Limit tokenów asystentów | Limit tokenu: 2000 000. |
GPT-4o i GPT-4.1 maksymalna liczba obrazów na żądanie (liczba obrazów w tablicy wiadomości lub historii konwersacji) |
50. |
GPT-4 vision-preview i GPT-4 turbo-2024-04-09 domyślne maksymalne tokeny |
16. Zwiększ wartość parametru max_tokens, aby uniknąć przycinania odpowiedzi.
GPT-4o maksymalna wartość domyślna tokenów to 4096. |
| Maksymalna liczba nagłówków niestandardowych w żądaniach interfejsu API2 | 10. |
| Limit znaków wiadomości | 1,048,576. |
| Rozmiar komunikatu dla plików audio | 20 MB. |
1 Limit przydziału Sora 2 RPM liczy tylko żądania zadań wideo. Inne rodzaje żądań nie podlegają ograniczeniom szybkości.
2 Nasze bieżące API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez pipeline i zwracane. Niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, inne niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.
Uwaga
Limity przydziału mogą ulec zmianie.
Limity usługi Batch
| Nazwa limitu | Wartość limitu |
|---|---|
| Maksymalna liczba plików wejściowych usługi Batch — (bez wygaśnięcia) | 500 |
| Maksymalna liczba plików wejściowych usługi Batch — (ustawienie wygaśnięcia) | 10 000 |
| Maksymalny rozmiar pliku wejściowego | 200 MB |
| Maksymalny rozmiar pliku wejściowego — przynieś własną pamięć masową (BYOS) | 1 GB |
| Maksymalna liczba żądań na plik | 100,000 |
Uwaga
Limity plików wsadowych nie mają zastosowania do plików wyjściowych (na przykład result.jsonl i error.jsonl). Aby usunąć limity plików wejściowych wsadowych, użyj Batch z Azure Blob Storage.
Przydział wsadowy
W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów oczekujących w kolejce. Gdy przesyłasz plik do przetwarzania wsadowego, liczba tokenów w pliku jest liczona. Zanim zadanie wsadowe osiągnie stan końcowy, te tokeny są liczone w stosunku do całkowitego limitu tokenów umieszczonych w kolejce.
Partia globalna
| Model | Przedsiębiorstwo i MCA-E | Domyślny | Miesięczne subskrypcje oparte na kartach kredytowych | Subskrypcje MSDN | Azure dla uczniów, bezpłatne wersje próbne |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200 mln | 50 mln | 90 tys. | N/A |
gpt-4.1 mini |
15B | 1B | 50 mln | 90 tys. | N/A |
gpt-4.1-nano |
15B | 1B | 50 mln | 90 tys. | N/A |
gpt-4o |
5B | 200 mln | 50 mln | 90 tys. | N/A |
gpt-4o-mini |
15B | 1B | 50 mln | 90 tys. | N/A |
gpt-4-turbo |
300 mln | 80 mln | 40 mln | 90 tys. | N/A |
gpt-4 |
150 mln | 30 mln | 5 mln | 100 tys. | N/A |
o3-mini |
15B | 1B | 50 mln | 90 tys. | N/A |
o4-mini |
15B | 1B | 50 mln | 90 tys. | N/A |
gpt-5 |
5B | 200 mln | 50 mln | 90 tys. | N/A |
gpt-5.1 |
5B | 200 mln | 50 mln | 90 tys. | N/A |
B = miliard | M = milion | K = tysiąc
Partia strefy danych
| Model | Przedsiębiorstwo i MCA-E | Domyślny | Miesięczne subskrypcje oparte na kartach kredytowych | Subskrypcje MSDN | Azure dla uczniów, bezpłatne wersje próbne |
|---|---|---|---|---|---|
gpt-4.1 |
500 mln | 30 mln | 30 mln | 90 tys. | N/A |
gpt-4.1-mini |
1,5 mld | 100 mln | 50 mln | 90 tys. | N/A |
gpt-4o |
500 mln | 30 mln | 30 mln | 90 tys. | N/A |
gpt-4o-mini |
1,5 mld | 100 mln | 50 mln | 90 tys. | N/A |
o3-mini |
1,5 mld | 100 mln | 50 mln | 90 tys. | N/A |
gpt-5 |
5B | 200 mln | 50 mln | 90 tys. | N/A |
gpt-5.1 |
5B | 200 mln | 50 mln | 90 tys. | N/A |
gpt-oss
| Model | Tokeny na minutę (TPM) | Żądania na minutę (RPM) |
|---|---|---|
gpt-oss-120b |
5 milionów | 5 K |
Warstwy użycia
Globalne wdrożenia standardowe korzystają z globalnej infrastruktury Azure. Dynamicznie kierują ruch klientów do centrum danych, które ma najlepszą dostępność do obsługi żądań wnioskowania klientów. Podobnie wdrożenia w Standardowej strefie danych umożliwiają wykorzystanie globalnej infrastruktury Azure do dynamicznego kierowania ruchu do centrum danych w strefie danych określonej przez Microsoft, która zapewnia najlepszą dostępność dla każdego żądania. Ta praktyka umożliwia bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.
Azure warstwy użycia openAI zostały zaprojektowane tak, aby zapewnić spójną wydajność dla większości klientów z niskim i średnim poziomem ruchu. Każda warstwa użycia definiuje maksymalną przepływność (tokeny na minutę), której można oczekiwać z przewidywalnym opóźnieniem. Gdy użycie pozostanie w przypisanej warstwie, opóźnienie pozostaje stabilne, a czasy odpowiedzi są spójne.
Co się stanie, jeśli przekroczysz poziom zużycia?
- Jeśli przepływność żądania przekracza warstwę użycia — szczególnie w okresach wysokiego zapotrzebowania — opóźnienie odpowiedzi może znacznie wzrosnąć.
- Opóźnienie może się różnić i w niektórych przypadkach może być ponad dwukrotnie wyższe niż podczas działania w ramach poziomu użycia.
- Ta zmienność jest najbardziej zauważalna dla klientów o wysokim ciągłym użyciu lub wzorcach gwałtownego ruchu.
Zalecane działania w przypadku przekroczenia progu użycia
Jeśli wystąpią błędy 429 lub zauważysz zwiększoną zmienność opóźnienia, oto co należy zrobić:
- Zażądaj zwiększenia limitu przydziału: odwiedź portal Azure, aby zażądać wyższego limitu przydziału dla subskrypcji.
- Rozważ uaktualnienie do oferty premium: dla obciążeń o krytycznym opóźnieniu lub dużym woluminie, uaktualnij do Jednostki Przepustowości Zarezerwowanej (PTU). PTU zapewnia dedykowane zasoby, gwarantowaną przepustowość i przewidywalne opóźnienia — nawet na dużą skalę. Jest to najlepszy wybór dla aplikacji o krytycznym znaczeniu, które wymagają spójnej wydajności.
- Monitoruj użycie: regularnie przeglądaj metryki użycia w portalu Azure, aby upewnić się, że działasz w ramach limitów warstw. Dostosuj strategię obciążenia lub wdrożenia zgodnie z potrzebami.
Możesz otrzymać 429 odpowiedzi (zbyt wiele żądań), nawet jeśli metryki użycia tokenu są wyświetlane poniżej limitu przydziału. Aby uzyskać wyjaśnienie, dlaczego tak się dzieje, zobacz Dlaczego możesz zobaczyć liczbę 429, nawet jeśli metryki użycia tokenu są niższe niż limit przydziału.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane dla każdego modelu. Jest to łączna liczba tokenów zużytych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
Uwaga
Poziomy użycia mają zastosowanie tylko do typów wdrożeń Standard, Data Zone Standard oraz Global Standard. Warstwy użycia nie mają zastosowania do globalnych wsadowych wdrożeń i wdrożeń z przydzieloną przepustowością.
Globalny standard, Standard strefy danych i Standard
| Model | Poziomy użycia na miesiąc |
|---|---|
gpt-5 |
32 miliardy tokenów |
gpt-5-mini |
160 miliardów tokenów |
gpt-5-nano |
800 miliardów tokenów |
gpt-5-chat |
32 miliardy tokenów |
gpt-4
+
gpt-4-32k (wszystkie wersje) |
6 miliardów tokenów |
gpt-4o |
12 miliardów tokenów |
gpt-4o-mini |
85 miliardów tokenów |
o3-mini |
50 miliardów tokenów |
o1 |
4 miliardy tokenów |
o4-mini |
50 miliardów tokenów |
o3 |
5 miliardów tokenów |
gpt-4.1 |
30 miliardów tokenów |
gpt-4.1-mini |
150 miliardów tokenów |
gpt-4.1-nano |
550 miliardów tokenów |
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Przetestuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Aby uzyskać szczegółowe zalecenia, przykłady kodu ponawiania z narastającym opóźnieniem oraz przewodnik rozwiązywania problemów z błędem 429, zobacz Manage Azure OpenAI in Microsoft Foundry Models quota.
Zwiększanie limitu przydziału
Prześlij formularz wniosku o zwiększenie limitu przydziału, aby poprosić o zwiększenie limitu przydziału dla modeli Foundry sprzedawanych przez platformę Azure, modeli Azure OpenAI i modeli Anthropic. Z wyjątkiem modeli Anthropic modeli od partnerów i społeczności nie obsługują zwiększenia limitu przydziału.
Żądania zwiększenia limitu przydziału są przetwarzane w kolejności, w której są odbierane, a priorytet jest kierowany do klientów, którzy aktywnie korzystają z istniejącej alokacji przydziału. Żądania, które nie spełniają tego warunku, mogą zostać odrzucone.
Regionalne limity pojemności przydziału
Możesz wyświetlić dostępność przydziału w danym regionie dla swojej subskrypcji w portalu Foundry.
Aby programowo sprawdzić limit przydziału i pojemność, zobacz Programowe sprawdzanie limitu przydziału i pojemności w przewodniku zarządzania przydziałami. W tej sekcji omówiono dwa uzupełniające interfejsy API REST: interfejs API użycia do sprawdzania użycia pod kątem limitów oraz interfejs API pojemności modelu na potrzeby sprawdzania dostępnej pojemności wdrożenia według modelu i regionu.
Uwaga
Obecnie zarówno portal Foundry, jak i interfejsy API pojemności zwracają informacje o limitach przydziału i pojemności dla modeli, które są wycofane i nie są już dostępne dla nowych wdrożeń.
Powiązana zawartość
- Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń Azure OpenAI.
- Dowiedz się więcej na temat podstawowych modeli, które obsługują Azure OpenAI.