Limity przydziału i limity usługi Azure OpenAI

Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.

Dokumentacja limitów przydziałów i limitów

Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:

Nazwa limitu Wartość limitu
Zasoby openAI na region na subskrypcję platformy Azure 30
Domyślne limity przydziału DALL-E 2 2 współbieżne żądania
Domyślne limity przydziału DALL-E 3 2 jednostki pojemności (6 żądań na minutę)
Maksymalna liczba tokenów monitu na żądanie Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service
Maksymalne dostosowane wdrożenia modelu 5
Łączna liczba zadań szkoleniowych na zasób 100
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób 1
Maksymalna liczba zadań szkoleniowych w kolejce 20
Maksymalna liczba plików na zasób (dostrajanie) 50
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) 1 GB
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) 720 godzin
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) 2 miliardy
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) 16 MB
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings 2048
Maksymalna liczba komunikatów /chat/completions 2048
Maksymalna liczba /chat/completions funkcji 128
Maksymalna liczba /chat completions narzędzi 128
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie 100 000
Maksymalna liczba plików na asystenta/wątek 20
Maksymalny rozmiar pliku asystentów i dostrajanie 512 MB
Limit tokenów asystentów Limit tokenu 2 000 000

Regionalne limity przydziału

Domyślny limit przydziału dla modeli różni się w zależności od modelu i regionu. Domyślne limity przydziału mogą ulec zmianie.

Limit przydziału dla wdrożeń standardowych jest opisany w zakresie tokenów na minutę (TPM).

Region (Region) GPT-4 GPT-4-32K GPT-4-Turbo GPT-4-Turbo-V GPT-35-Turbo GPT-35-Turbo-Poinstruuj Osadzanie tekstu-Ada-002 osadzanie tekstu — 3 małe osadzanie tekstu —3 — duże Babbage-002 Babbage-002 - finetune Davinci-002 Davinci-002 - finetune GPT-35-Turbo - dostrajanie GPT-35-Turbo-1106 - grzywna GPT-35-Turbo-0125 - grzywna
australiaeast 40 K 80 K 80 K 30 K 300 K - 350 K - - - - - - - - -
brazilsouth - - - - - - 350 K - - - - - - - - -
canadaeast 40 K 80 K 80 K - 300 K - 350 K 350 K 350 K - - - - - - -
eastus - - 80 K - 240 K 240 K 240 K 350 K 350 K - - - - - - -
eastus2 - - 80 K - 300 K - 350 K 350 K 350 K - - - - 250 K 250 K 250 K
francecentral 20 tys. 60 K 80 K - 240 K - 240 K - - - - - - - - -
japaneast - - - 30 K 300 K - 350 K - - - - - - - - -
northcentralus - - 80 K - 300 K - 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
norwayeast - - 150 K - - - 350 K - - - - - - - - -
southafricanorth - - - - - - 350 K - - - - - - - - -
southcentralus - - 80 K - 240 K - 240 K - - - - - - - - -
southindia - - 150 K - 300 K - 350 K - - - - - - - - -
swedencentral 40 K 80 K 150 K 30 K 300 K 240 K 350 K - - 240 K 250 K 240 K 250 K 250 K 250 K 250 K
switzerlandnorth 40 K 80 K - 30 K 300 K - 350 K - - - - - - - - -
szwajcariawest - - - - - - - - - - 250 K - 250 K 250 K 250 K 250 K
uksouth - - 80 K - 240 K - 350 K - - - - - - - - -
westeurope - - - - 240 K - 240 K - - - - - - - - -
westus - - 80 K 30 K 300 K - 350 K - - - - - - - - -
westus3 - - 80 K - - - 350 K - - - - - - - - -

1 K = 1000 tokenów na minutę (TPM). Relacja między modułem TPM a żądaniami na minutę (RPM) jest obecnie zdefiniowana jako 6 obr./min na 1000 modułów TPM.

Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości

Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:

  • Zaimplementuj logikę ponawiania prób w aplikacji.
  • Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
  • Testuj różne wzorce zwiększania obciążenia.
  • Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.

Jak zażądać zwiększenia domyślnych przydziałów i limitów

Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure OpenAI Studio. Należy pamiętać, że ze względu na przytłaczające zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i zostaną wypełnione w kolejności ich odebrania. Priorytet zostanie przyznany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.

W przypadku innych limitów szybkości prześlij żądanie obsługi.

Następne kroki

Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.