Włączanie przetwarzania priorytetów dla modeli microsoft Foundry (wersja zapoznawcza) (wersja klasyczna)

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).

🔍 Zapoznaj się z dokumentacją rozwiązania Microsoft Foundry (nową), aby dowiedzieć się więcej o nowym portalu.

Ważna

Przetwarzanie priorytetowe jest dostępne w wersji próbnej i wyłącznie na zaproszenie. Zarejestruj się tutaj , aby otrzymywać powiadomienia, gdy stanie się ona szerzej dostępna.

Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Przetwarzanie priorytetowe zapewnia wydajność o niskich opóźnieniach dzięki elastyczności modelu płatności 'pay-as-you-go'. Działa na modelu tokenów typu płatność za rzeczywiste użycie, oferując szybkie czasy reakcji bez długoterminowych zobowiązań. W tym artykule włączysz przetwarzanie priorytetów we wdrożeniu modelu, sprawdzisz, która warstwa usługi przetworzyła żądania i monitorowała skojarzone koszty.

Wymagania wstępne

Subskrypcja platformy Azure — utwórz bezpłatnie.
Projekt Microsoft Foundry z modelem wdrożeniowym typu GlobalStandard lub DataZoneStandard wdrożonym.
Akceptacja do wersji zapoznawczej przetwarzania priorytetowego. Zarejestruj się tutaj aby otrzymywać powiadomienia, gdy przetwarzanie priorytetowe będzie szerzej dostępne.
Wersja interfejsu API 2025-10-01-preview lub nowsza.

Przegląd

Korzyści

Przewidywalne małe opóźnienie: szybsze, bardziej spójne generowanie tokenów.
Łatwa w użyciu elastyczność: Podobnie jak w przypadku standardowego przetwarzania w modelu płatności zgodnie z rzeczywistym użyciem, można uzyskać dostęp do przetwarzania priorytetowego na elastycznej zasadzie płatności zgodnie z rzeczywistym użyciem, zamiast wymagać wstępnej aprowizacji i rezerwacji.

Kluczowe przypadki użycia

Spójne, małe opóźnienia w przypadku dynamicznych środowisk użytkownika.
Prostota opłat za faktyczne użycie bez długoterminowych zobowiązań.
Ruch w godzinach pracy lub o dużym natężeniu, który korzysta ze skalowalnej, kosztowo efektywnej wydajności. Opcjonalnie można połączyć przetwarzanie priorytetowe z aprowizowaną jednostką przepływności (PTU) w celu zapewnienia stałej wydajności i optymalizacji kosztów.

Limity

Limit rampy: Szybkie zwiększenie liczby tokenów przetwarzania priorytetowego na minutę może prowadzić do osiągnięcia ograniczeń prędkości zwiększania. Jeśli przekroczysz limit tempa wzrostu, usługa może wysłać dodatkowy ruch do standardowego przetwarzania.
Kwota: Przetwarzanie priorytetowe używa tej samej kwoty co przetwarzanie standardowe. Oznacza to, że wdrożenie z włączonym przetwarzaniem priorytetowym zużywa przydzielony limit z istniejącej standardowej alokacji.

Globalna dostępność modelu standardowego

Region	gpt-4.1, 2025-04-14
eastus 2	✅
swedencentral	✅
westus3	✅

Uwaga / Notatka

Dostępność modelu i regionu może być rozszerzana w okresie obowiązywania wersji zapoznawczej. Sprawdź tę stronę pod kątem aktualizacji.

Znane problemy

Przetwarzanie priorytetowe ma obecnie następujące ograniczenia, a poprawki są w toku.

Długi limit kontekstu dla biblioteki gpt-4.1: Usługa nie obsługuje żądań przekraczających 128 000 tokenów i zwraca błąd HTTP 400.
Brak obsługi przeniesienia PTU: Usługa nie obsługuje jeszcze przeniesienia PTU do wdrożenia z włączeniem przetwarzania priorytetowego. Jeśli potrzebujesz zachowania przepełnienia, zaimplementuj własną logikę, na przykład przy użyciu usługi Azure API Management.
Niepoprawna wartość service_tier podczas korzystania ze streamingu w interfejsie API odpowiedzi: Podczas streamingu odpowiedzi za pośrednictwem interfejsu API service_tier, pole może niepoprawnie zwracać wartość "priorytet", nawet jeśli ograniczenia pojemności lub limity rampy spowodowały, że żądanie zostało obsłużone przez warstwę standardową. W takim przypadku oczekiwana wartość service_tier to "default".

Włącz przetwarzanie z priorytetem na poziomie wdrożenia

Możesz włączyć przetwarzanie priorytetów na poziomie wdrożenia i (opcjonalnie) na poziomie żądania.

W portalu Microsoft Foundry można włączyć przetwarzanie priorytetów podczas konfigurowania wdrożenia. Włącz przełącznik Przetwarzanie priorytetów (wersja zapoznawcza) na stronie szczegółów wdrożenia podczas tworzenia wdrożenia lub zaktualizuj ustawienie, edytując szczegóły wdrożenia wdrożonego modelu.

Uwaga / Notatka

Jeśli wolisz użyć kodu w celu włączenia przetwarzania priorytetów na poziomie wdrożenia, możesz to zrobić za pośrednictwem interfejsu API REST do wdrożenia, ustawiając service_tier atrybut w następujący sposób: "properties" : {"service_tier" : "priority"}. Dozwolone wartości atrybutu service_tier to default i priority. default oznacza standardowe przetwarzanie, a jednocześnie priority umożliwia przetwarzanie priorytetowe.

Po skonfigurowaniu wdrożenia modelu do korzystania z przetwarzania priorytetowego można rozpocząć wysyłanie żądań do modelu.

Zobacz metryki użycia

Miarę wykorzystania zasobu można wyświetlić w sekcji Azure Monitor w witrynie Azure Portal.

Aby wyświetlić liczbę żądań przetwarzanych przez standardowe przetwarzanie w porównaniu z przetwarzaniem priorytetowym, podzieloną przez warstwę usługi (standard lub priorytet), która znajdowała się w oryginalnym żądaniu:

Zaloguj się do https://portal.azure.com.
Przejdź do zasobu usługi Azure OpenAI i wybierz opcję Metryki z lewej nawigacji.
Na stronie metryk dodaj metrykę Żądania usługi Azure OpenAI . Możesz również wybrać inne metryki, takie jak opóźnienie usługi Azure OpenAI, użycie usługi Azure OpenAI i inne.
Wybierz pozycję Dodaj filtr , aby wybrać standardowe wdrożenie, dla którego zostały przetworzone żądania przetwarzania priorytetów.
Wybierz pozycję Zastosuj dzielenie , aby podzielić wartości według parametrów ServiceTierRequest i ServiceTierResponse.

Aby uzyskać więcej informacji na temat monitorowania wdrożeń, zobacz Monitorowanie usługi Azure OpenAI.

Monitorowanie kosztów

Na stronie analizy kosztów w witrynie Azure Portal można zobaczyć podział kosztów dla żądań priorytetowych i standardowych, filtrując według nazwy wdrożenia i tagów rozliczeń w następujący sposób:

Przejdź do strony analizy kosztów w witrynie Azure Portal.
(Opcjonalnie) Filtruj według zasobu.
Aby filtrować według nazwy wdrożenia: Dodaj filtr dla tagu rozliczeniowego>, wybierz wdrożenie jako wartość, a następnie wybierz nazwę wdrożenia.

Aby uzyskać informacje na temat cen przetwarzania priorytetów, zobacz Omówienie cennika usługi Azure OpenAI.

Włączanie przetwarzania priorytetu na poziomie żądania

Włączanie przetwarzania priorytetu na poziomie żądania jest opcjonalne. Interfejs API uzupełniania czatu i interfejs API odpowiedzi mają opcjonalny atrybut service_tier określający typ przetwarzania, który ma być używany podczas obsługi żądania. W poniższym przykładzie pokazano, jak ustawić wartość service_tier na priority w żądaniu odpowiedzi.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Użyj atrybutu service_tier , aby zastąpić ustawienie na poziomie wdrożenia. service_tier może przyjmować wartości auto, defaulti priority.

Jeśli atrybut nie zostanie ustawiony, wartość domyślna to auto.
service_tier = auto oznacza, że żądanie używa warstwy usługi skonfigurowanej we wdrożeniu.
service_tier = default oznacza, że żądanie używa standardowych cen i wydajności dla wybranego modelu.
service_tier = priority oznacza, że żądanie używa warstwy usługi przetwarzania priorytetowego.

W poniższej tabeli podsumowano, która warstwa usługi przetwarza żądania na podstawie ustawień na poziomie wdrożenia i na poziomie żądania dla programu service_tier.

Ustawienie na poziomie implementacji	Ustawienie na poziomie żądania	Żądanie przetworzone przez warstwę usługi
domyślny	auto, wartość domyślna	Standard
domyślny	priority	Priorytetowe przetwarzanie
priority	auto, priorytet	Priorytetowe przetwarzanie
priority	domyślny	Standard

Docelowe opóźnienie

Temat	gpt-4.1, 2025-04-14
Wartość docelowa opóźnienia	99% > 80 tokenów na sekundę*

* Obliczone jako latencja żądania p50 co 5 minut.

Limity szybkości rampy

Aby zapewnić spójną wysoką wydajność dla wszystkich klientów, jednocześnie zapewniając elastyczne ceny na żądanie, przetwarzanie priorytetów wymusza zwiększenie limitów szybkości. Obecnie limit szybkości rampy jest definiowany jako zwiększenie ruchu o ponad 50% tokenów na minutę w mniej niż 15 minut.

Warunki degradacji

Jeśli wydajność przetwarzania priorytetu spadnie, a ruch klienta zwiększa się zbyt szybko, usługa może obniżyć poziom niektórych żądań priorytetowych do standardowego przetwarzania. Żądania przetwarzane przez standardową warstwę usługi są rozliczane według standardowych stawek. Te żądania nie kwalifikują się do docelowego czasu przetwarzania priorytetowego. Żądania przetwarzane przez warstwę standardową usługi obejmują odpowiedź service_tier = default.

Wskazówka

Jeśli rutynowo napotykasz limity szybkości zwiększania szybkości, rozważ zakup jednostki PTU zamiast lub oprócz przetwarzania priorytetowego.

Rozwiązywanie problemów

Problematyka	Przyczyna	Rezolucja
Błąd HTTP 400 w przypadku długich monitów	Gpt-4.1 nie obsługuje żądań przekraczających 128 000 tokenów w przetwarzaniu priorytetowym.	Zachowaj łączną liczbę tokenów żądań poniżej 128 000. Podziel długie polecenia na mniejsze części.
Żądania zredukowano do warstwy standardowej	Ruch zwiększał się o ponad 50% tokenów na minutę w czasie krótszym niż 15 minut, osiągając limit tempa wzrostu.	Stopniowo zwiększaj ruch. Rozważ zakup jednostki PTU w celu uzyskania stałej pojemności.
Przepełnienie PTU nie działa	Przetwarzanie priorytetowe nie obsługuje jeszcze przejścia PTU do wdrożenia z obsługą przetwarzania priorytetowego.	Zaimplementuj niestandardową logikę rozlania, na przykład przy użyciu usługi Azure API Management.
`service_tier` zwraca nieprawidłową wartość podczas przesyłania strumieniowego	Podczas strumieniowania za pośrednictwem interfejsu API odpowiedzi, `service_tier` może zgłaszać `"priority"`, nawet jeśli żądanie zostało obsłużone przez standardową warstwę.	Sprawdź rekordy rozliczeniowe, aby potwierdzić, która warstwa rzeczywiście przetworzyła żądanie.

Obsługa interfejsu API

	Wersja interfejsu API
Najnowsza obsługiwana wersja zapoznawcza interfejsu API:	`2025-10-01-preview`

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-02-28

Udostępnij przez

Globalna dostępność modelu standardowego

Dostępność modelu standardowego strefy danych

Udostępnij przez

Włączanie przetwarzania priorytetów dla modeli microsoft Foundry (wersja zapoznawcza) (wersja klasyczna)

Wymagania wstępne

Przegląd

Korzyści

Kluczowe przypadki użycia

Limity

Obsługa przetwarzania priorytetowego

Globalna dostępność modelu standardowego

Znane problemy

Włącz przetwarzanie z priorytetem na poziomie wdrożenia

Zobacz metryki użycia

Monitorowanie kosztów

Włączanie przetwarzania priorytetu na poziomie żądania

Docelowe opóźnienie

Limity szybkości rampy

Rozwiązywanie problemów

Obsługa interfejsu API

Treści powiązane

Sprzężenie zwrotne

Dodatkowe źródła