Limity przydziału i limity usługi Azure OpenAI

Artykuł
10/23/2024

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu	Wartość limitu
Zasoby openAI na region na subskrypcję platformy Azure	30
Domyślne limity przydziału DALL-E 2	2 współbieżne żądania
Domyślne limity przydziału DALL-E 3	2 jednostki pojemności (6 żądań na minutę)
Domyślne limity przydziału szeptu	3 żądania na minutę
Maksymalna liczba tokenów monitu na żądanie	Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalna liczba wdrożeń w warstwie Standardowa na zasób	32
Maksymalne dostosowane wdrożenia modelu	5
Łączna liczba zadań szkoleniowych na zasób	100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób	1
Maksymalna liczba zadań szkoleniowych w kolejce	20
Maksymalna liczba plików na zasób (dostrajanie)	50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie)	1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone)	720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok)	2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane)	16 MB
Maksymalna liczba lub dane wejściowe w tablicy z `/embeddings`	2048
Maksymalna liczba komunikatów `/chat/completions`	2048
Maksymalna liczba `/chat/completions` funkcji	128
Maksymalna liczba `/chat completions` narzędzi	128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie	100 000
Maksymalna liczba plików na asystenta/wątek	10 000 w przypadku korzystania z interfejsu API lub programu AI Studio. 20 w przypadku korzystania z programu Azure OpenAI Studio.
Maksymalny rozmiar pliku asystentów i dostrajanie	512 MB
Maksymalny rozmiar wszystkich przekazanych plików asystentów	100 GB
Limit tokenów asystentów	Limit tokenu 2 000 000
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji)	10
Domyślne tokeny maksymalne GPT-4 i GPT-4 `vision-preview` `turbo-2024-04-09`	16 Zwiększ wartość parametru, `max_tokens` aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096.
Maksymalna liczba nagłówków niestandardowych w żądaniach^{interfejsu API 1}	10

¹ Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Zauważyliśmy, że niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, innego niż zmniejszenie woluminu nagłówka. W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.

Regionalne limity przydziału

Region (Region)	o1-mini	o1	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	gpt-4o	gpt-4o-mini	GPT-35-Turbo	GPT-35-Turbo-Poinstruuj	o1-mini — GlobalStandard	o1 — GlobalStandard	gpt-4o — GlobalStandard	gpt-4o-mini - GlobalStandard	GPT-4-Turbo - GlobalStandard	GPT-4o — Global-Batch	GPT-4o-mini — Global-Batch	GPT-4 — Global-Batch	GPT-4-Turbo — Global-Batch	gpt-35-turbo - Global-Batch	Osadzanie tekstu-Ada-002	osadzanie tekstu — 3 małe	osadzanie tekstu —3 — duże	GPT-4o - dostrajanie	GPT-4o-mini - finetune	GPT-4 - grzywna	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - dostrajanie	GPT-35-Turbo-1106 - grzywna	GPT-35-Turbo-0125 - grzywna
australiaeast	-	-	40 K	80 K	80 K	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
canadaeast	-	-	40 K	80 K	80 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	240 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
eastus2	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	250 K	-	-	-	-	-	-	250 K	250 K	250 K
francecentral	-	-	20 tys.	60 K	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-	-
germanywestcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	-	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	350 K	350 K	-	-	-	-	-	-	-	-	-	-
koreacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
northcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	250 K	500 K	100 tys.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	-	-	150 K	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
polandcentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
southcentralus	1 M	600 K	-	-	80 K	-	1 M	2 M	240 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
southindia	-	-	-	-	150 K	-	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
hiszpaniacentral	-	-	-	-	-	-	-	-	-	-	-	-	30 M	50 M	2 M	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-
swedencentral	1 M	600 K	40 K	80 K	150 K	30 K	1 M	2 M	300 K	240 K	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	350 K	250 K	500 K	100 tys.	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	-	-	40 K	80 K	-	30 K	-	-	300 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-	-	-	-
szwajcariawest	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	-	-	80 K	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	-	-	-	-	240 K	-	-	-	30 M	50 M	2 M	-	-	-	-	-	240 K	-	-	-	-	-	-	-	-	-	-	-	-
westus	1 M	600 K	-	-	80 K	30 K	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	5 B	15 B	150 M	300 M	10 B	350 K	-	-	-	-	-	-	-	-	-	-	-	-
westus3	1 M	600 K	-	-	80 K	-	1 M	2 M	300 K	-	50 M	30 M	30 M	50 M	2 M	-	-	-	-	-	350 K	-	350 K	-	-	-	-	-	-	-	-	-	-

Globalne limity partii

Nazwa limitu	Wartość limitu
Maksymalna liczba plików na zasób	500
Maksymalny rozmiar pliku wejściowego	200 MB
Maksymalna liczba żądań na plik	100 000

Globalny limit przydziału partii

W tabeli przedstawiono limit przydziału partii. Wartości przydziału dla globalnej partii są reprezentowane pod względem tokenów w kolejce. Po przesłaniu pliku do przetwarzania wsadowego liczba tokenów znajdujących się w pliku jest liczone. Dopóki zadanie wsadowe nie osiągnie stanu terminalu, te tokeny będą liczone względem całkowitego limitu tokenu w kolejce.

Model	Umowa Enterprise Agreement	Wartość domyślna	Miesięczne subskrypcje oparte na kartach kredytowych	Subskrypcje MSDN	Azure for Students, bezpłatne wersje próbne
`gpt-4o`	5 B	200 M	50 M	90 K	Nie dotyczy
`gpt-4o-mini`	15 B	1 B	50 M	90 K	Nie dotyczy
`gpt-4-turbo`	300 M	80 M	40 M	90 K	Nie dotyczy
`gpt-4`	150 M	30 M	5 M	100 tys.	Nie dotyczy
`gpt-35-turbo`	10 B	1 B	100 M	2 M	50 tys.

B = miliard | M = milion | K = tysiąc

O1-preview i o1-mini limity szybkości

Ważne

Współczynnik rpm/TPM dla limitu przydziału z modelami serii o1 działa inaczej niż starsze modele uzupełniania czatu:

Starsze modele rozmów: 1 jednostka pojemności = 6 obr./min i 1000 modułów TPM.
o1-preview: 1 jednostka pojemności = 1 obr./min i 6000 TPM.
o1-mini: 1 jednostka pojemności = 1 obr./min na 10 000 TPM.

Jest to szczególnie ważne w przypadku wdrażania modelu programowego, ponieważ ta zmiana współczynnika obr./modułu TPM może spowodować przypadkową alokację przydziału, jeśli nadal przyjmuje się współczynnik 1:1000, po którym następują starsze modele uzupełniania czatu.

Istnieje znany problem z interfejsem API limitu przydziału/użycia, w którym zakłada, że stary stosunek dotyczy nowych modeli serii o1. Interfejs API zwraca prawidłową podstawową liczbę pojemności, ale nie stosuje poprawnego współczynnika dla dokładnego obliczenia modułu TPM.

o1-preview i o1-mini globalny standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`o1-preview`	Umowa Enterprise Agreement	30 M	5 K
`o1-mini`	Umowa Enterprise Agreement	50 M	5 K
`o1-preview`	Wartość domyślna	3 M	500
`o1-mini`	Wartość domyślna	5 M	500

o1-preview i o1-mini standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`o1-preview`	Umowa Enterprise Agreement	600 K	100
`o1-mini`	Umowa Enterprise Agreement	1 M	100
`o1-preview`	Wartość domyślna	300 K	50
`o1-mini`	Wartość domyślna	500 K	50

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4oi gpt-4o-mini(gpt-4turbo-2024-04-09) mają warstwy limitów szybkości z wyższymi limitami dla niektórych typów klientów.

gpt-4o i GPT-4 Turbo globalny standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	30 M	180 K
`gpt-4o-mini`	Umowa Enterprise Agreement	50 M	300 K
`gpt-4` (turbo-2024-04-09)	Umowa Enterprise Agreement	2 M	12 K
`gpt-4o`	Wartość domyślna	450 K	2,7 K
`gpt-4o-mini`	Wartość domyślna	2 M	12 K
`gpt-4` (turbo-2024-04-09)	Wartość domyślna	450 K	2,7 K

M = milion | K = tysiąc

gpt-4o standard strefy danych

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	10 M	60 K
`gpt-4o-mini`	Umowa Enterprise Agreement	20 mln	120 K
`gpt-4o`	Wartość domyślna	300 K	1,8 K
`gpt-4o-mini`	Wartość domyślna	1 M	6 K

M = milion | K = tysiąc

gpt-4o standard

Model	Warstwa	Limit przydziału w tokenach na minutę (TPM)	Żądania na minutę
`gpt-4o`	Umowa Enterprise Agreement	1 M	6 K
`gpt-4o-mini`	Umowa Enterprise Agreement	2 M	12 K
`gpt-4o`	Wartość domyślna	150 K	900
`gpt-4o-mini`	Wartość domyślna	450 K	2,7 K

M = milion | K = tysiąc

Warstwy użycia

Globalne wdrożenia standardowe używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Podobnie standardowe wdrożenia strefy danych umożliwiają korzystanie z globalnej infrastruktury platformy Azure w celu dynamicznego kierowania ruchu do centrum danych w strefie danych zdefiniowanej przez firmę Microsoft z najlepszą dostępnością dla każdego żądania. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.

Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.

Uwaga

Warstwy użycia mają zastosowanie tylko do standardowych, standardowych i globalnych standardowych typów wdrożeń. Warstwy użycia nie mają zastosowania do globalnych wdrożeń wsadowych i aprowizowanych przepływności.

Globalny standard GPT-4o, standard strefy danych i standard

Model	Warstwy użycia miesięcznie
`gpt-4o`	12 Miliardów tokenów
`gpt-4o-mini`	85 Miliardów tokenów

Standard GPT-4

Model	Warstwy użycia miesięcznie
`gpt-4` + `gpt-4-32k` (wszystkie wersje)	6 miliardów

Inne typy ofert

Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.

Warstwa	Limit przydziału w tokenach na minutę (TPM)
Azure for Students, bezpłatne wersje próbne	1 K (wszystkie modele)
Subskrypcje MSDN	Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K
Miesięczne subskrypcje oparte na kartach kredytowych ¹	Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K

¹ Dotyczy to obecnie typu oferty 0003P

W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

Zaimplementuj logikę ponawiania prób w aplikacji.
Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
Testuj różne wzorce zwiększania obciążenia.
Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia domyślnych przydziałów i limitów

Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure AI Studio. Należy pamiętać, że ze względu na przytłaczające zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i zostaną wypełnione w kolejności ich odebrania. Priorytet zostanie przyznany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.

Udostępnij za pośrednictwem

Limity przydziału i limity usługi Azure OpenAI

Dokumentacja limitów przydziałów i limitów

Regionalne limity przydziału

Globalne limity partii

Globalny limit przydziału partii

O1-preview i o1-mini limity szybkości

o1-preview i o1-mini globalny standard

o1-preview i o1-mini standard

gpt-4o i GPT-4 Turbo limity szybkości

gpt-4o i GPT-4 Turbo globalny standard

gpt-4o standard strefy danych

gpt-4o standard

Warstwy użycia

Globalny standard GPT-4o, standard strefy danych i standard

Standard GPT-4

Inne typy ofert

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Jak zażądać zwiększenia domyślnych przydziałów i limitów

Następne kroki

Opinia

Dodatkowe zasoby