Dela via


Aktivera prioritetsbearbetning för Microsoft Foundry-modeller (förhandsversion)

Viktigt!

Prioritetsbearbetning är i förhandsgranskning och endast tillgänglig via inbjudan. Registrera dig här för att meddelas när det blir mer allmänt tillgängligt.

Den här förhandsversionen tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Prioritetsbearbetning ger prestanda med låg latens med flexibiliteten att betala per användning. Den fungerar enligt en betala per användning-tokenmodell som erbjuder snabba svarstider utan långsiktiga avtalsåtaganden. I den här artikeln aktiverar du prioritetsbearbetning för en modelldistribution, kontrollerar vilken tjänstnivå som bearbetat dina begäranden och övervakar associerade kostnader.

Förutsättningar

  • En Azure-prenumeration – Skapa en kostnadsfritt.
  • Ett Microsoft Foundry-projekt med en modell av distributionstypen GlobalStandard eller DataZoneStandard distribuerad.
  • Antagning till förhandsversionen av prioriterad bearbetning. Registrera dig här för att meddelas när prioritetsbearbetning blir mer allmänt tillgänglig.
  • API-version 2025-10-01-preview eller senare.

Översikt

Fördelar

  • Förutsägbar låg svarstid: Snabbare, mer konsekvent tokengenerering.
  • Lättanvänd flexibilitet: Precis som standardbearbetning med användningsbaserad betalning får du tillgång till prioritetsbearbetning med flexibel användningsbaserad betalning i stället för att kräva etablering och reservationer i förväg.

Viktiga användningsfall

  • Konsekvent, låg svarstid för dynamiska användarupplevelser.
  • Betala efter användning utan långsiktiga åtaganden.
  • Arbetstimmar eller ojämn trafik som drar nytta av skalbar och kostnadseffektiv prestanda. Du kan också kombinera prioritetsbearbetning med Tilldelade genomflödesenheter (PTU) för jämn kapacitet och kostnadsoptimering.

Begränsningar

  • Rampgräns: Snabba ökningar av dina token för prioritetsbearbetning per minut kan leda till att ramphastighetsgränserna nårs. Om du överskrider gränsen för ramphastighet kan tjänsten skicka extra trafik till standardbearbetningen i stället.

  • Kvot: Prioritetsbearbetning använder samma kvot som standardbearbetning. Det innebär att din distribution med prioritetsbearbetning aktiverat förbrukar kvoten från din befintliga standardallokering.

Stöd för prioritetsbearbetning

Global standardmodelltillgänglighet

Region gpt-4.1, 2025-04-14
eastus 2
swedencentral
westus3

Anmärkning

Modell- och regiontillgängligheten kan utökas under förhandsgranskningsperioden. Kontrollera om det finns uppdateringar på den här sidan.

Kända problemområden

Prioritetsbearbetning har för närvarande dessa begränsningar och korrigeringar pågår:

  • Lång kontextgräns för gpt-4.1: Tjänsten stöder inte begäranden som överskrider 128 000 token och returnerar ett HTTP 400-fel.

  • Inget stöd för PTU-spillning: Tjänsten har ännu inte stöd för PTU-spridning till en prioritetsbearbetningsaktiverad distribution. Om du behöver spillover-beteende implementerar du din egen logik, till exempel med hjälp av Azure API Management.

  • Felaktigt service_tier-värde när du använder streaming i svars-API:et: När svar streamas genom svars-API:et, kan fältet service_tier felaktigt returnera "prioritet", även om kapacitetsbegränsningar eller rampgränser orsakade att begäran hanterades av standardnivån. I det här fallet är det förväntade värdet för service_tier "standard".

Aktivera prioritetsbearbetning på distributionsnivå

Du kan aktivera prioritetsbearbetning på distributionsnivå och (valfritt) på begärandenivå.

I Microsoft Foundry-portalen kan du aktivera prioritetsbearbetning under distributionskonfigurationen. Aktivera växlingsknappen Prioritetsbearbetning (förhandsversion) på sidan distributionsinformation när du skapar distributionen eller uppdaterar inställningen för en distribuerad modell genom att redigera distributionsinformationen.

Skärmbild som visar hur du aktiverar prioritetsbearbetning under modelldistributionen i Foundry-portalen.

Anmärkning

Om du föredrar att använda kod för att aktivera prioritetsbearbetning på distributionsnivå kan du göra det via REST-API:et för distribution genom att ange service_tier attributet enligt följande: "properties" : {"service_tier" : "priority"}. Tillåtna värden för attributet service_tier är default och priority. default innebär standardbearbetning, medan priority möjliggör prioritetsbearbetning.

När en modelldistribution har konfigurerats för att använda prioritetsbearbetning kan du börja skicka begäranden till modellen.

Visa användningsstatistik

Du kan visa användningsmåttet för din resurs i avsnittet Azure Monitor i Azure-portalen.

Om du vill visa mängden begäranden som bearbetas av standardbearbetning jämfört med prioritetsbearbetning, delas du upp efter tjänstnivån (standard eller prioritet) som fanns i den ursprungliga begäran:

  1. Logga in på https://portal.azure.com.
  2. Gå till din Azure OpenAI-resurs och välj alternativet Mått i det vänstra navigeringsfältet.
  3. På sidan mått lägger du till måttet Azure OpenAI-begäranden . Du kan också välja andra mått som Azure OpenAI-svarstid, Azure OpenAI-användning och andra.
  4. Välj Lägg till filter för att välja den standarddistribution för vilken begäranden om prioritetsbearbetning bearbetades.
  5. Välj Använd delning för att dela upp värdena efter ServiceTierRequest och ServiceTierResponse.

Skärmbild av användningen av prioritetsbearbetning på resursens måttsida i Azure-portalen.

Mer information om hur du övervakar dina distributioner finns i Övervaka Azure OpenAI.

Övervaka kostnader

Du kan se en uppdelning av kostnader för prioritets- och standardbegäranden på azure-portalens kostnadsanalyssida genom att filtrera efter distributionsnamn och faktureringstaggar på följande sätt:

  1. Gå till sidan kostnadsanalys i Azure-portalen.
  2. (Valfritt) Filtrera efter resurs.
  3. Filtrera efter distributionsnamn: Lägg till ett filter för faktureringstagg> och välj distribution som värde och välj sedan distributionsnamnet.

Skärmbild av användningen av prioritetsbearbetning på resursens kostnadsanalyssida i Azure-portalen.

Information om priser för prioritetsbearbetning finns i prisöversikten för Azure OpenAI Service.

Aktivera prioritetsbearbetning på begäransnivå

Det är valfritt att aktivera prioritetsbearbetning på begärandenivå. Både API:et för chattavslut och svars-API:et har ett valfritt attribut service_tier som anger vilken bearbetningstyp som ska användas när en begäran skickas. I följande exempel visas hur du anger service_tier till priority i en svarsbegäran.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

service_tier Använd attributet för att åsidosätta inställningen på distributionsnivå. service_tier kan ta värdena auto, defaultoch priority.

  • Om du inte anger attributet är det standardvärdet auto.

  • service_tier = auto innebär att begäran använder den tjänstnivå som konfigurerats i distributionen.

  • service_tier = default innebär att begäran använder standardpriser och prestanda för den valda modellen.

  • service_tier = priority innebär att begäran använder tjänstnivån för prioritetsbearbetning.

I följande tabell sammanfattas vilken tjänstnivå som bearbetar dina begäranden baserat på inställningarna på distributionsnivå och begärandenivå för service_tier.

Inställning på distributionsnivå Inställning på begäransnivå Begäran bearbetad efter tjänstnivå
default auto, standardinställning Norm
default priority Prioriterad behandling
priority automatisk, prioritet Prioriterad behandling
priority default Norm

Mål för svarstid

Ämne gpt-4.1, 2025-04-14
Målvärde för svarstid 99% > 80 token per sekund*

* Beräknas som p50-fördröjning på begäran var femte minut.

Hastighetsbegränsningar för ramper

För att säkerställa konsekvent höga prestanda för alla kunder, och samtidigt tillhandahålla flexibel prissättning på begäran, tillämpar prioritetsbehandling ramphastighetsgränser. För närvarande definieras gränsen för ökningstakt som att öka trafiken med fler än 50 % tokens per minut på mindre än 15 minuter.

Nedgraderingsvillkor

Om prestanda för prioritetsbearbetning försämras och en kunds trafik ökar för snabbt kan tjänsten nedgradera vissa prioritetsbegäranden till standardbearbetning. Tjänsten fakturerar begäranden som bearbetas av standardtjänstnivån till standardpriser. Dessa begäranden är inte berättigade till prioritetsbearbetningens svarstidsmål. Begäranden som bearbetas av standardservicenivån omfattar service_tier = default i svaret.

Tips/Råd

Om du rutinmässigt stöter på begränsningar för ramphastighet bör du överväga att köpa en PTU i stället för eller utöver prioriterad bearbetning.

Felsökning

Problematik Orsak Lösning / Beslut
HTTP 400-fel vid långa inmatningar gpt-4.1 stöder inte begäranden som överskrider 128 000 token i prioritetsbearbetning. Behåll totalt antal begärandetoken under 128 000. Dela upp långa prompter i mindre begäranden.
Begäranden nedgraderade till standardnivå Trafiken ökade med mer än 50% tokens per minut på mindre än 15 minuter och nådde ramptaktgränsen. Öka trafiken gradvis. Överväg att köpa PTU för stabil kapacitet.
PTU-spillover fungerar inte Prioritetsbearbetning har ännu inte stöd för PTU-överflöd till en distribution med aktiverad prioritetsbearbetning. Implementera anpassad spillover-logik, till exempel med hjälp av Azure API Management.
service_tier returnerar felaktigt värde under direktuppspelning Vid direktuppspelning genom svars-API:et service_tier kan det rapporteras "priority" även när begäran hanterades av standardnivån. Kontrollera faktureringsposterna för att bekräfta vilken nivå som faktiskt bearbetat begäran.

API-stöd

API-version
Den senaste versionen av förhandsversionen av API:et som stöds: 2025-10-01-preview