Limity przydziału i limity usługi Azure OpenAI
Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:
Nazwa limitu | Wartość limitu |
---|---|
Zasoby openAI na region na subskrypcję platformy Azure | 30 |
Domyślne limity przydziału DALL-E 2 | 2 współbieżne żądania |
Domyślne limity przydziału DALL-E 3 | 2 jednostki pojemności (6 żądań na minutę) |
Maksymalna liczba tokenów monitu na żądanie | Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service |
Maksymalne dostosowane wdrożenia modelu | 5 |
Łączna liczba zadań szkoleniowych na zasób | 100 |
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób | 1 |
Maksymalna liczba zadań szkoleniowych w kolejce | 20 |
Maksymalna liczba plików na zasób (dostrajanie) | 50 |
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) | 1 GB |
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) | 720 godzin |
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) | 2 miliardy |
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) | 16 MB |
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings |
2048 |
Maksymalna liczba komunikatów /chat/completions |
2048 |
Maksymalna liczba /chat/completions funkcji |
128 |
Maksymalna liczba /chat completions narzędzi |
128 |
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie | 100 000 |
Maksymalna liczba plików na asystenta/wątek | 20 |
Maksymalny rozmiar pliku asystentów i dostrajanie | 512 MB |
Limit tokenów asystentów | Limit tokenu 2 000 000 |
Regionalne limity przydziału
Domyślny limit przydziału dla modeli różni się w zależności od modelu i regionu. Domyślne limity przydziału mogą ulec zmianie.
Limit przydziału dla wdrożeń standardowych jest opisany w zakresie tokenów na minutę (TPM).
Region (Region) | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | GPT-35-Turbo | GPT-35-Turbo-Poinstruuj | Osadzanie tekstu-Ada-002 | osadzanie tekstu — 3 małe | osadzanie tekstu —3 — duże | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - dostrajanie | GPT-35-Turbo-1106 - grzywna | GPT-35-Turbo-0125 - grzywna |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | 250 K |
francecentral | 20 tys. | 60 K | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
norwayeast | - | - | 150 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 300 K | 240 K | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
szwajcariawest | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | 250 K |
uksouth | - | - | 80 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | 240 K | - | 240 K | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 300 K | - | 350 K | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | - | - | 350 K | - | - | - | - | - | - | - | - | - |
1 K = 1000 tokenów na minutę (TPM). Relacja między modułem TPM a żądaniami na minutę (RPM) jest obecnie zdefiniowana jako 6 obr./min na 1000 modułów TPM.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Testuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Jak zażądać zwiększenia domyślnych przydziałów i limitów
Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure OpenAI Studio. Należy pamiętać, że ze względu na przytłaczające zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i zostaną wypełnione w kolejności ich odebrania. Priorytet zostanie przyznany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.
W przypadku innych limitów szybkości prześlij żądanie obsługi.
Następne kroki
Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.