Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga / Notatka
Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).
🔍 Zapoznaj się z dokumentacją rozwiązania Microsoft Foundry (nową), aby dowiedzieć się więcej o nowym portalu.
Ważna
Przetwarzanie priorytetowe jest dostępne w wersji próbnej i wyłącznie na zaproszenie. Zarejestruj się tutaj , aby otrzymywać powiadomienia, gdy stanie się ona szerzej dostępna.
Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.
Przetwarzanie priorytetowe zapewnia wydajność o niskich opóźnieniach dzięki elastyczności modelu płatności 'pay-as-you-go'. Działa na modelu tokenów typu płatność za rzeczywiste użycie, oferując szybkie czasy reakcji bez długoterminowych zobowiązań. W tym artykule włączysz przetwarzanie priorytetów we wdrożeniu modelu, sprawdzisz, która warstwa usługi przetworzyła żądania i monitorowała skojarzone koszty.
Wymagania wstępne
- Subskrypcja platformy Azure — utwórz bezpłatnie.
- Projekt Microsoft Foundry z modelem wdrożeniowym typu
GlobalStandardlubDataZoneStandardwdrożonym. - Akceptacja do wersji zapoznawczej przetwarzania priorytetowego. Zarejestruj się tutaj aby otrzymywać powiadomienia, gdy przetwarzanie priorytetowe będzie szerzej dostępne.
- Wersja interfejsu API
2025-10-01-previewlub nowsza.
Przegląd
Korzyści
- Przewidywalne małe opóźnienie: szybsze, bardziej spójne generowanie tokenów.
- Łatwa w użyciu elastyczność: Podobnie jak w przypadku standardowego przetwarzania w modelu płatności zgodnie z rzeczywistym użyciem, można uzyskać dostęp do przetwarzania priorytetowego na elastycznej zasadzie płatności zgodnie z rzeczywistym użyciem, zamiast wymagać wstępnej aprowizacji i rezerwacji.
Kluczowe przypadki użycia
- Spójne, małe opóźnienia w przypadku dynamicznych środowisk użytkownika.
- Prostota opłat za faktyczne użycie bez długoterminowych zobowiązań.
- Ruch w godzinach pracy lub o dużym natężeniu, który korzysta ze skalowalnej, kosztowo efektywnej wydajności. Opcjonalnie można połączyć przetwarzanie priorytetowe z aprowizowaną jednostką przepływności (PTU) w celu zapewnienia stałej wydajności i optymalizacji kosztów.
Limity
Limit rampy: Szybkie zwiększenie liczby tokenów przetwarzania priorytetowego na minutę może prowadzić do osiągnięcia ograniczeń prędkości zwiększania. Jeśli przekroczysz limit tempa wzrostu, usługa może wysłać dodatkowy ruch do standardowego przetwarzania.
Kwota: Przetwarzanie priorytetowe używa tej samej kwoty co przetwarzanie standardowe. Oznacza to, że wdrożenie z włączonym przetwarzaniem priorytetowym zużywa przydzielony limit z istniejącej standardowej alokacji.
Obsługa przetwarzania priorytetowego
Globalna dostępność modelu standardowego
| Region | gpt-4.1, 2025-04-14 |
|---|---|
| eastus 2 | ✅ |
| swedencentral | ✅ |
| westus3 | ✅ |
Uwaga / Notatka
Dostępność modelu i regionu może być rozszerzana w okresie obowiązywania wersji zapoznawczej. Sprawdź tę stronę pod kątem aktualizacji.
Znane problemy
Przetwarzanie priorytetowe ma obecnie następujące ograniczenia, a poprawki są w toku.
Długi limit kontekstu dla biblioteki gpt-4.1: Usługa nie obsługuje żądań przekraczających 128 000 tokenów i zwraca błąd HTTP 400.
Brak obsługi przeniesienia PTU: Usługa nie obsługuje jeszcze przeniesienia PTU do wdrożenia z włączeniem przetwarzania priorytetowego. Jeśli potrzebujesz zachowania przepełnienia, zaimplementuj własną logikę, na przykład przy użyciu usługi Azure API Management.
Niepoprawna wartość service_tier podczas korzystania ze streamingu w interfejsie API odpowiedzi: Podczas streamingu odpowiedzi za pośrednictwem interfejsu API
service_tier, pole może niepoprawnie zwracać wartość "priorytet", nawet jeśli ograniczenia pojemności lub limity rampy spowodowały, że żądanie zostało obsłużone przez warstwę standardową. W takim przypadku oczekiwana wartośćservice_tierto "default".
Włącz przetwarzanie z priorytetem na poziomie wdrożenia
Możesz włączyć przetwarzanie priorytetów na poziomie wdrożenia i (opcjonalnie) na poziomie żądania.
W portalu Microsoft Foundry można włączyć przetwarzanie priorytetów podczas konfigurowania wdrożenia. Włącz przełącznik Przetwarzanie priorytetów (wersja zapoznawcza) na stronie szczegółów wdrożenia podczas tworzenia wdrożenia lub zaktualizuj ustawienie, edytując szczegóły wdrożenia wdrożonego modelu.
Uwaga / Notatka
Jeśli wolisz użyć kodu w celu włączenia przetwarzania priorytetów na poziomie wdrożenia, możesz to zrobić za pośrednictwem interfejsu API REST do wdrożenia, ustawiając service_tier atrybut w następujący sposób: "properties" : {"service_tier" : "priority"}. Dozwolone wartości atrybutu service_tier to default i priority.
default oznacza standardowe przetwarzanie, a jednocześnie priority umożliwia przetwarzanie priorytetowe.
Po skonfigurowaniu wdrożenia modelu do korzystania z przetwarzania priorytetowego można rozpocząć wysyłanie żądań do modelu.
Zobacz metryki użycia
Miarę wykorzystania zasobu można wyświetlić w sekcji Azure Monitor w witrynie Azure Portal.
Aby wyświetlić liczbę żądań przetwarzanych przez standardowe przetwarzanie w porównaniu z przetwarzaniem priorytetowym, podzieloną przez warstwę usługi (standard lub priorytet), która znajdowała się w oryginalnym żądaniu:
- Zaloguj się do https://portal.azure.com.
- Przejdź do zasobu usługi Azure OpenAI i wybierz opcję Metryki z lewej nawigacji.
- Na stronie metryk dodaj metrykę Żądania usługi Azure OpenAI . Możesz również wybrać inne metryki, takie jak opóźnienie usługi Azure OpenAI, użycie usługi Azure OpenAI i inne.
- Wybierz pozycję Dodaj filtr , aby wybrać standardowe wdrożenie, dla którego zostały przetworzone żądania przetwarzania priorytetów.
- Wybierz pozycję Zastosuj dzielenie , aby podzielić wartości według parametrów ServiceTierRequest i ServiceTierResponse.
Aby uzyskać więcej informacji na temat monitorowania wdrożeń, zobacz Monitorowanie usługi Azure OpenAI.
Monitorowanie kosztów
Na stronie analizy kosztów w witrynie Azure Portal można zobaczyć podział kosztów dla żądań priorytetowych i standardowych, filtrując według nazwy wdrożenia i tagów rozliczeń w następujący sposób:
- Przejdź do strony analizy kosztów w witrynie Azure Portal.
- (Opcjonalnie) Filtruj według zasobu.
- Aby filtrować według nazwy wdrożenia: Dodaj filtr dla tagu rozliczeniowego>, wybierz wdrożenie jako wartość, a następnie wybierz nazwę wdrożenia.
Aby uzyskać informacje na temat cen przetwarzania priorytetów, zobacz Omówienie cennika usługi Azure OpenAI.
Włączanie przetwarzania priorytetu na poziomie żądania
Włączanie przetwarzania priorytetu na poziomie żądania jest opcjonalne. Interfejs API uzupełniania czatu i interfejs API odpowiedzi mają opcjonalny atrybut service_tier określający typ przetwarzania, który ma być używany podczas obsługi żądania. W poniższym przykładzie pokazano, jak ustawić wartość service_tier na priority w żądaniu odpowiedzi.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Użyj atrybutu service_tier , aby zastąpić ustawienie na poziomie wdrożenia.
service_tier może przyjmować wartości auto, defaulti priority.
Jeśli atrybut nie zostanie ustawiony, wartość domyślna to
auto.service_tier = autooznacza, że żądanie używa warstwy usługi skonfigurowanej we wdrożeniu.service_tier = defaultoznacza, że żądanie używa standardowych cen i wydajności dla wybranego modelu.service_tier = priorityoznacza, że żądanie używa warstwy usługi przetwarzania priorytetowego.
W poniższej tabeli podsumowano, która warstwa usługi przetwarza żądania na podstawie ustawień na poziomie wdrożenia i na poziomie żądania dla programu service_tier.
| Ustawienie na poziomie implementacji | Ustawienie na poziomie żądania | Żądanie przetworzone przez warstwę usługi |
|---|---|---|
| domyślny | auto, wartość domyślna | Standard |
| domyślny | priority | Priorytetowe przetwarzanie |
| priority | auto, priorytet | Priorytetowe przetwarzanie |
| priority | domyślny | Standard |
Docelowe opóźnienie
| Temat | gpt-4.1, 2025-04-14 |
|---|---|
| Wartość docelowa opóźnienia | 99% > 80 tokenów na sekundę* |
* Obliczone jako latencja żądania p50 co 5 minut.
Limity szybkości rampy
Aby zapewnić spójną wysoką wydajność dla wszystkich klientów, jednocześnie zapewniając elastyczne ceny na żądanie, przetwarzanie priorytetów wymusza zwiększenie limitów szybkości. Obecnie limit szybkości rampy jest definiowany jako zwiększenie ruchu o ponad 50% tokenów na minutę w mniej niż 15 minut.
Warunki degradacji
Jeśli wydajność przetwarzania priorytetu spadnie, a ruch klienta zwiększa się zbyt szybko, usługa może obniżyć poziom niektórych żądań priorytetowych do standardowego przetwarzania. Żądania przetwarzane przez standardową warstwę usługi są rozliczane według standardowych stawek. Te żądania nie kwalifikują się do docelowego czasu przetwarzania priorytetowego. Żądania przetwarzane przez warstwę standardową usługi obejmują odpowiedź service_tier = default.
Wskazówka
Jeśli rutynowo napotykasz limity szybkości zwiększania szybkości, rozważ zakup jednostki PTU zamiast lub oprócz przetwarzania priorytetowego.
Rozwiązywanie problemów
| Problematyka | Przyczyna | Rezolucja |
|---|---|---|
| Błąd HTTP 400 w przypadku długich monitów | Gpt-4.1 nie obsługuje żądań przekraczających 128 000 tokenów w przetwarzaniu priorytetowym. | Zachowaj łączną liczbę tokenów żądań poniżej 128 000. Podziel długie polecenia na mniejsze części. |
| Żądania zredukowano do warstwy standardowej | Ruch zwiększał się o ponad 50% tokenów na minutę w czasie krótszym niż 15 minut, osiągając limit tempa wzrostu. | Stopniowo zwiększaj ruch. Rozważ zakup jednostki PTU w celu uzyskania stałej pojemności. |
| Przepełnienie PTU nie działa | Przetwarzanie priorytetowe nie obsługuje jeszcze przejścia PTU do wdrożenia z obsługą przetwarzania priorytetowego. | Zaimplementuj niestandardową logikę rozlania, na przykład przy użyciu usługi Azure API Management. |
service_tier zwraca nieprawidłową wartość podczas przesyłania strumieniowego |
Podczas strumieniowania za pośrednictwem interfejsu API odpowiedzi, service_tier może zgłaszać "priority", nawet jeśli żądanie zostało obsłużone przez standardową warstwę. |
Sprawdź rekordy rozliczeniowe, aby potwierdzić, która warstwa rzeczywiście przetworzyła żądanie. |
Obsługa interfejsu API
| Wersja interfejsu API | |
|---|---|
| Najnowsza obsługiwana wersja zapoznawcza interfejsu API: | 2025-10-01-preview |