Limity przydziału i limity usługi Azure OpenAI
Ten artykuł zawiera krótkie informacje i szczegółowy opis przydziałów i limitów dla usługi Azure OpenAI w usługach Azure AI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi Azure OpenAI:
Nazwa limitu | Wartość limitu |
---|---|
Zasoby openAI na region na subskrypcję platformy Azure | 30 |
Domyślne limity przydziału DALL-E 2 | 2 współbieżne żądania |
Domyślne limity przydziału DALL-E 3 | 2 jednostki pojemności (6 żądań na minutę) |
Domyślne limity przydziału szeptu | 3 żądania na minutę |
Maksymalna liczba tokenów monitu na żądanie | Różni się w zależności od modelu. Aby uzyskać więcej informacji, zobacz Modele usługi Azure OpenAI Service |
Maksymalne dostosowane wdrożenia modelu | 5 |
Łączna liczba zadań szkoleniowych na zasób | 100 |
Maksymalna liczba równoczesnych uruchomionych zadań szkoleniowych na zasób | 1 |
Maksymalna liczba zadań szkoleniowych w kolejce | 20 |
Maksymalna liczba plików na zasób (dostrajanie) | 50 |
Całkowity rozmiar wszystkich plików na zasób (dostrajanie) | 1 GB |
Maksymalny czas zadania trenowania (zadanie zakończy się niepowodzeniem, jeśli zostanie przekroczone) | 720 godzin |
Maksymalny rozmiar zadania trenowania (tokeny w pliku trenowania) x (liczba epok) | 2 miliardy |
Maksymalny rozmiar wszystkich plików na przekazywanie (Azure OpenAI na dane) | 16 MB |
Maksymalna liczba lub dane wejściowe w tablicy z /embeddings |
2048 |
Maksymalna liczba komunikatów /chat/completions |
2048 |
Maksymalna liczba /chat/completions funkcji |
128 |
Maksymalna liczba /chat completions narzędzi |
128 |
Maksymalna liczba aprowizowanych jednostek przepływności na wdrożenie | 100 000 |
Maksymalna liczba plików na asystenta/wątek | 10 000 w przypadku korzystania z interfejsu API lub programu AI Studio. 20 w przypadku korzystania z programu Azure OpenAI Studio. |
Maksymalny rozmiar pliku asystentów i dostrajanie | 512 MB |
Limit tokenów asystentów | Limit tokenu 2 000 000 |
Maksymalna liczba obrazów GPT-4o na żądanie (liczba obrazów w tablicy wiadomości/historii konwersacji) | 10 |
Domyślne tokeny maksymalne GPT-4 i GPT-4 vision-preview turbo-2024-04-09 |
16 Zwiększ wartość parametru, max_tokens aby uniknąć obcięć odpowiedzi. Maksymalna liczba tokenów GPT-4o domyślnie to 4096. |
Regionalne limity przydziału
Region (Region) | GPT-4 | GPT-4-32K | GPT-4-Turbo | GPT-4-Turbo-V | gpt-4o | gpt-4o — GlobalStandard | GPT-35-Turbo | GPT-35-Turbo-Poinstruuj | Osadzanie tekstu-Ada-002 | osadzanie tekstu — 3 małe | osadzanie tekstu —3 — duże | Babbage-002 | Babbage-002 - finetune | Davinci-002 | Davinci-002 - finetune | GPT-35-Turbo - dostrajanie | GPT-35-Turbo-1106 - grzywna | GPT-4 - grzywna | GPT-35-Turbo-0125 - grzywna |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
australiaeast | 40 K | 80 K | 80 K | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
brazilsouth | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
canadaeast | 40 K | 80 K | 80 K | - | - | 450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | 240 K | 240 K | 350 K | 350 K | - | - | - | - | - | - | - | - |
eastus2 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | 350 K | 350 K | - | - | - | - | 250 K | 250 K | - | 250 K |
francecentral | 20 tys. | 60 K | 80 K | - | - | 450 K 30 M |
240 K | - | 240 K | - | 350 K | - | - | - | - | - | - | - | - |
germanywestcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
japaneast | - | - | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
koreacentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
northcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 tys. | 250 K |
norwayeast | - | - | 150 K | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
polandcentral | - | - | - | - | - | 450 K 30 M |
- | - | - | - | - | - | - | - | - | - | - | - | - |
southafricanorth | - | - | - | - | - | 450 K 30 M |
- | - | 350 K | - | - | - | - | - | - | - | - | - | - |
southcentralus | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
southindia | - | - | 150 K | - | - | 450 K 30 M |
300 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
swedencentral | 40 K | 80 K | 150 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | 240 K | 350 K | - | 350 K | 240 K | 250 K | 240 K | 250 K | 250 K | 250 K | 100 tys. | 250 K |
switzerlandnorth | 40 K | 80 K | - | 30 K | - | 450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
szwajcariawest | - | - | - | - | - | - | - | - | - | - | - | - | 250 K | - | 250 K | 250 K | 250 K | - | 250 K |
uksouth | - | - | 80 K | - | - | 450 K 30 M |
240 K | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
westeurope | - | - | - | - | - | 450 K 30 M |
240 K | - | 240 K | - | - | - | - | - | - | - | - | - | - |
westus | - | - | 80 K | 30 K | 150 K 1 M |
450 K 30 M |
300 K | - | 350 K | - | - | - | - | - | - | - | - | - | - |
westus3 | - | - | 80 K | - | 150 K 1 M |
450 K 30 M |
- | - | 350 K | - | 350 K | - | - | - | - | - | - | - | - |
limity szybkości gpt-4o
gpt-4o
wprowadza warstwy limitu szybkości z wyższymi limitami dla niektórych typów klientów.
gpt-4o globalny standard
Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|
Umowa Enterprise Agreement | 30 M | 180 K |
Wartość domyślna | 450 K | 2,7 K |
M = milion | K = tysiąc
gpt-4o standard
Warstwa | Limit przydziału w tokenach na minutę (TPM) | Żądania na minutę |
---|---|---|
Umowa Enterprise Agreement | 1 M | 6 K |
Wartość domyślna | 150 K | 900 |
M = milion | K = tysiąc
Warstwy użycia
Wdrożenia globalne w warstwie Standardowa używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć większą zmienność opóźnienia odpowiedzi.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
GPT-4o globalny standard i standardowa
Model | Warstwy użycia miesięcznie |
---|---|
GPT-4o |
1,5 miliarda tokenów |
Inne typy ofert
Jeśli subskrypcja platformy Azure jest połączona z niektórymi typami ofert, maksymalne wartości przydziału są niższe niż wartości wskazane w powyższych tabelach.
Warstwa | Limit przydziału w tokenach na minutę (TPM) |
---|---|
Azure for Students, bezpłatne wersje próbne | 1 K (wszystkie modele) |
Subskrypcje MSDN | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
Miesięczne subskrypcje oparte na kartach kredytowych 1 | Seria GPT 3.5 Turbo: 30 K Seria GPT-4: 8 K |
1 Dotyczy to obecnie typu oferty 0003P
W witrynie Azure Portal możesz wyświetlić typ oferty skojarzony z subskrypcją, przechodząc do subskrypcji i sprawdzając okienko przeglądu subskrypcji. Typ oferty odpowiada polu planu w przeglądzie subskrypcji.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
- Zaimplementuj logikę ponawiania prób w aplikacji.
- Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
- Testuj różne wzorce zwiększania obciążenia.
- Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Jak zażądać zwiększenia domyślnych przydziałów i limitów
Żądania zwiększenia limitu przydziału można przesłać na stronie Limity przydziału programu Azure OpenAI Studio. Należy pamiętać, że ze względu na przytłaczające zapotrzebowanie żądania zwiększenia limitu przydziału są akceptowane i zostaną wypełnione w kolejności ich odebrania. Priorytet zostanie przyznany klientom, którzy generują ruch korzystający z istniejącej alokacji przydziału, a żądanie może zostać odrzucone, jeśli ten warunek nie zostanie spełniony.
W przypadku innych limitów szybkości prześlij żądanie obsługi.
Następne kroki
Dowiedz się, jak zarządzać limitem przydziału dla wdrożeń usługi Azure OpenAI. Dowiedz się więcej o modelach bazowych, które zasilają usługę Azure OpenAI.
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla