Limity przydziału i limity usługi Azure OpenAI

Artykuł
04/19/2024

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu	Wartość limitu
Zasoby openAI na region na subskrypcję platformy Azure	30
Domyślne limity przydziału DALL-E 2	2 współbieżne żądania
Domyślne limity przydziału DALL-E 3	2 jednostki pojemności (6 żądań na minutę)
Maksymalna liczba tokenów monitu na żądanie	Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalne dostosowane wdrożenia modelu	5
Łączna liczba zadań szkoleniowych na zasób	100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób	1
Maksymalna liczba zadań szkoleniowych w kolejce	20
Maksymalna liczba plików na zasób (dostrajanie)	50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie)	1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone)	720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok)	2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane)	16 MB
Maksymalna liczba lub dane wejściowe w tablicy z `/embeddings`	2048
Maksymalna liczba komunikatów `/chat/completions`	2048
Maksymalna liczba `/chat/completions` funkcji	128
Maksymalna liczba `/chat completions` narzędzi	128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie	100 000
Maksymalna liczba plików na asystenta/wątek	20
Maksymalny rozmiar pliku asystentów i dostrajanie	512 MB
Limit tokenów asystentów	Limit tokenu 2 000 000

Regionalne limity przydziału

Domyślny limit przydziału dla modeli różni się w zależności od modelu i regionu. Domyślne limity przydziału mogą ulec zmianie.

Limit przydziału dla wdrożeń standardowych jest opisany w zakresie tokenów na minutę (TPM).

Region (Region)	GPT-4	GPT-4-32K	GPT-4-Turbo	GPT-4-Turbo-V	GPT-35-Turbo	GPT-35-Turbo-Poinstruuj	Osadzanie tekstu-Ada-002	osadzanie tekstu — 3 małe	osadzanie tekstu —3 — duże	Babbage-002	Babbage-002 - finetune	Davinci-002	Davinci-002 - finetune	GPT-35-Turbo - dostrajanie	GPT-35-Turbo-1106 - grzywna	GPT-35-Turbo-0125 - grzywna
australiaeast	40 K	80 K	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
brazilsouth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
canadaeast	40 K	80 K	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	-	-	-
eastus	-	-	80 K	-	240 K	240 K	240 K	350 K	350 K	-	-	-	-	-	-	-
eastus2	-	-	80 K	-	300 K	-	350 K	350 K	350 K	-	-	-	-	250 K	250 K	250 K
francecentral	20 tys.	60 K	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
japaneast	-	-	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
northcentralus	-	-	80 K	-	300 K	-	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
norwayeast	-	-	150 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southafricanorth	-	-	-	-	-	-	350 K	-	-	-	-	-	-	-	-	-
southcentralus	-	-	80 K	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
southindia	-	-	150 K	-	300 K	-	350 K	-	-	-	-	-	-	-	-	-
swedencentral	40 K	80 K	150 K	30 K	300 K	240 K	350 K	-	-	240 K	250 K	240 K	250 K	250 K	250 K	250 K
switzerlandnorth	40 K	80 K	-	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
szwajcariawest	-	-	-	-	-	-	-	-	-	-	250 K	-	250 K	250 K	250 K	250 K
uksouth	-	-	80 K	-	240 K	-	350 K	-	-	-	-	-	-	-	-	-
westeurope	-	-	-	-	240 K	-	240 K	-	-	-	-	-	-	-	-	-
westus	-	-	80 K	30 K	300 K	-	350 K	-	-	-	-	-	-	-	-	-
westus3	-	-	80 K	-	-	-	350 K	-	-	-	-	-	-	-	-	-

1 K = 1000 tokenów na minutę (TPM). Relacja między modułem TPM a żądaniami na minutę (RPM) jest obecnie zdefiniowana jako 6 obr./min na 1000 modułów TPM.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

Zaimplementuj logikę ponawiania prób w aplikacji.
Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
Testuj różne wzorce zwiększania obciążenia.
Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia domyślnych przydziałów i limitów

Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure OpenAI Studio. Należy pamiętać, że ze względu na przytłaczające zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i zostaną wypełnione w kolejności ich odebrania. Priorytet zostanie przyznany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.