Limity przydziału i limity wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI
Artykuł
Ten artykuł zawiera krótkie informacje i szczegółowy opis limitów przydziałów i limitów wnioskowania modelu sztucznej inteligencji platformy Azure w usługach azure AI. Aby uzyskać limity przydziału i limity specyficzne dla usługi Azure OpenAI, zobacz Limity przydziału i limity w usłudze Azure OpenAI.
Dokumentacja limitów przydziałów i limitów
Poniższe sekcje zawierają szybki przewodnik po domyślnych limitach przydziałów i limitach, które mają zastosowanie do usługi wnioskowania modelu AI platformy Azure w usługach Azure AI:
Limity zasobów
Nazwa limitu
Wartość limitu
Zasoby usług azure AI na region na subskrypcję platformy Azure
Maksymalna liczba nagłówków niestandardowych w żądaniachinterfejsu API 1
10
1 Nasze bieżące interfejsy API umożliwiają maksymalnie 10 nagłówków niestandardowych, które są przekazywane przez potok i zwracane. Zauważyliśmy, że niektórzy klienci przekraczają teraz tę liczbę nagłówków, co powoduje błędy HTTP 431. Nie ma rozwiązania dla tego błędu, innego niż zmniejszenie woluminu nagłówka.
W przyszłych wersjach interfejsu API nie będziemy już przekazywać nagłówków niestandardowych. Zalecamy, aby klienci nie polegali na nagłówkach niestandardowych w przyszłych architekturach systemu.
Warstwy użycia
Wdrożenia globalne w warstwie Standardowa używają globalnej infrastruktury platformy Azure, dynamicznie rozsyłają ruch klientów do centrum danych z najlepszą dostępnością dla żądań wnioskowania klienta. Umożliwia to bardziej spójne opóźnienie dla klientów o niskim lub średnim poziomie ruchu. Klienci z wysokim trwałym poziomem użycia mogą zobaczyć więcej wariabilności w przypadku opóźnień odpowiedzi.
Limit użycia określa poziom użycia powyżej którego klienci mogą zobaczyć większą zmienność opóźnienia odpowiedzi. Użycie klienta jest definiowane na model i to łączna liczba tokenów używanych we wszystkich wdrożeniach we wszystkich subskrypcjach we wszystkich regionach dla danej dzierżawy.
Ogólne najlepsze rozwiązania dotyczące pozostania w granicach limitów szybkości
Aby zminimalizować problemy związane z limitami szybkości, warto użyć następujących technik:
Zaimplementuj logikę ponawiania prób w aplikacji.
Unikaj gwałtownych zmian w obciążeniu. Stopniowo zwiększaj obciążenie.
Testuj różne wzorce zwiększania obciążenia.
Zwiększ przydział przypisany do wdrożenia. W razie potrzeby przenieś przydział z innego wdrożenia.
Żądanie zwiększa się do domyślnych przydziałów i limitów
Żądania zwiększenia limitu przydziału można przesyłać i oceniać na żądanie.
Prześlij żądanie obsługi.