Share via


Prioriteitsverwerking inschakelen voor Microsoft Foundry-modellen

Prioriteitsverwerking biedt prestaties met lage latentie met de flexibiliteit van betalen per gebruik. In dit artikel schakelt u prioriteitsverwerking in voor een modelimplementatie, controleert u welke servicelaag uw aanvragen heeft verwerkt en controleert u de bijbehorende kosten.

Vereiste voorwaarden

  • Een Azure-abonnement - Maak er gratis een.
  • Een Microsoft Foundry-project met een model van het implementatietype GlobalStandard of DataZoneStandard geïmplementeerd.
  • API-versie 2025-12-01 of hoger.

Belangrijke use cases

  • Consistente, lage latentie voor responsieve gebruikerservaringen.
  • Eenvoudig betalen per gebruik zonder langetermijnverplichtingen.
  • Verkeer tijdens kantooruren of piekverkeer dat profiteert van schaalbare, kostenefficiënte prestaties. U kunt eventueel prioriteitsverwerking combineren met ingerichte doorvoereenheden (PTU) voor een stabiele capaciteit en kostenoptimalisatie.

Latentiedoel

Model Latentiedoelwaarde2
gpt-5.4, 2026-03-051 99% > 50 tokens per seconde
gpt-5.2, 2025-12-11 99% > 50 tokens per seconde
gpt-5.1, 2025-11-13 99% > 50 tokens per seconde
gpt-4.1, 2025-04-141 99% > 80 tokens per seconde

1 Lange contextaanvragen (dat wil gezegd, aanvragen die worden geschat op meer dan 128.000 prompttokens) worden gedowngraded naar de standaardverwerking en er worden kosten in rekening gebracht tegen het tarief van de standaardlaag.

2 Berekend als p50 aanvraaglatentie per 5 minuten.

Ondersteuning voor prioriteitsverwerking

Wereldwijde beschikbaarheid van standaardmodellen

Region gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
centralus
southcentralus

Opmerking

De beschikbaarheid van modellen en regio's wordt naar verwachting in de komende dagen uitgebreid. Controleer deze pagina op updates. Zie deze pagina voor prijsinformatie.

Prioriteitsverwerking op implementatieniveau inschakelen

U kunt prioriteitsverwerking inschakelen op implementatieniveau en (optioneel) op aanvraagniveau.

Opmerking

Prioriteitsverwerking kan worden ingeschakeld in algemene standaard- of datazonestandaardimplementaties (VS). Prioriteitsverwerking maakt gebruik van hetzelfde quotum als standaardverwerking.

Schakel in de Microsoft Foundry-portal de wisselknop Prioriteitsverwerking in op de pagina met implementatiedetails bij het maken van de implementatie of het bijwerken van de instelling van een geïmplementeerd model door de implementatiedetails te bewerken.

Schermopname van het inschakelen van prioriteitsverwerking tijdens de modelimplementatie in de Foundry-portal.

Opmerking

Als u liever code gebruikt om prioriteitsverwerking op implementatieniveau in te schakelen, kunt u dit doen via de REST API voor implementatie door het service_tier kenmerk als volgt in te stellen: "properties" : {"service_tier" : "priority"} Toegestane waarden voor het service_tier kenmerk zijn default en priority. default impliceert standaardverwerking, terwijl priority prioriteitsverwerking is ingeschakeld.

Zodra een modelimplementatie is geconfigureerd voor het gebruik van prioriteitsverwerking, kunt u aanvragen verzenden naar het model.

Metrische gegevens over het gebruik weergeven

U kunt de gebruiksmeting voor uw resource bekijken in de sectie Azure Controleren in de Azure portal.

Als u het aantal aanvragen wilt weergeven dat verwerkt wordt via standaardverwerking of prioriteitsverwerking, verdeelt u dit per serviceniveau (standaard of prioriteit) dat zich in de oorspronkelijke aanvraag bevond.

  1. Meld u aan bij https://portal.azure.com.
  2. Ga naar uw Azure OpenAI-resource en selecteer de optie Metrics in de linkernavigatiebalk.
  3. Voeg op de pagina met metrische gegevens de metriek Azure OpenAI-aanvragen toe. U kunt ook andere metrische gegevens selecteren, zoals Azure OpenAI-latentie, Azure OpenAI-gebruik en andere.
  4. Selecteer Filter toevoegen om de standaardimplementatie te selecteren waarvoor aanvragen voor prioriteitsverwerking zijn verwerkt.
  5. Selecteer Splitsen toepassen om de waarden te splitsen op ServiceTierRequest en ServiceTierResponse.

Schermopname van het prioriteitsverwerkingsgebruik op de resource-metriekpagina in de Azure-portal.

Zie Monitor Azure OpenAI voor meer informatie over het bewaken van uw implementaties.

Kosten controleren

U ziet een uitsplitsing van de kosten voor prioriteits- en standaardaanvragen op de pagina kostenanalyse van de Azure portal door als volgt te filteren op de implementatienaam en factureringstags:

  1. Ga naar de pagina kostenanalyse in de Azure portal.
  2. (Optioneel) Filteren op bron.
  3. Als u wilt filteren op implementatienaam: Voeg een filter toe voor de implementatietag> selecteer de implementatie als waarde en kies vervolgens uw implementatienaam.

Schermopname van het gebruik van prioriteitsverwerking op de kostenanalysepagina van de resource in de Azure-portal.

Zie het Azure OpenAI Service prijsoverzicht voor informatie over prijzen voor prioriteitsverwerking.

Prioriteitsverwerking op aanvraagniveau inschakelen

Het inschakelen van prioriteitsverwerking op aanvraagniveau is optioneel. Zowel de API voor voltooiing van de chat als de antwoord-API hebben een optioneel kenmerk service_tier dat het verwerkingstype aangeeft dat moet worden gebruikt bij het leveren van een aanvraag. In het volgende voorbeeld wordt getoond hoe u service_tier instelt op priority in een reactie-aanvraag.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Gebruik het service_tier kenmerk om de instelling op implementatieniveau te overschrijven. service_tier kan de waarden auto, defaulten priority.

  • Als u het kenmerk niet instelt, wordt het standaard ingesteld op auto.

  • service_tier = auto betekent dat de aanvraag gebruikmaakt van de servicelaag die is geconfigureerd in de implementatie.

  • service_tier = default betekent dat de aanvraag gebruikmaakt van de standaardprijzen en prestaties voor het geselecteerde model.

  • service_tier = priority betekent dat de aanvraag gebruikmaakt van de servicelaag prioriteitsverwerking.

De volgende tabel bevat een overzicht van welke servicelaag uw aanvragen verwerkt op basis van de instellingen op implementatie- en aanvraagniveau voor service_tier.

Instelling op implementatieniveau Instelling op aanvraagniveau Aanvraag verwerkt per servicelaag
default auto, standaard Standaard
default priority Prioriteitsverwerking
priority auto, prioriteit Prioriteitsverwerking
priority default Standaard

Beperkingen

  • De service biedt momenteel geen ondersteuning voor regionale standaardimplementaties en eu-gegevenszonestandaardimplementaties.

  • Tijdens deze scenario's kan de service bepaalde prioriteitsaanvragen opnieuw routeren naar standaardverwerking*:

    • Als snelle toename van uw prioriteitsverwerkingstokens per minuut leidt tot het bereiken van rampsnelheidslimieten. Op dit moment wordt de limiet voor de hellingsnelheid gedefinieerd als het verhogen van het verkeer met meer dan 50% tokens per minuut in minder dan 15 minuten.
    • Tijdens perioden van piekaanvragen voor prioriteitsverwerking.
    • Lange contextaanvragen die worden verzonden naar bepaalde modellen die worden vermeld in de tabel Latentiedoel.

    Aanbeveling

    Als u regelmatig limieten voor de stijgsnelheid ondervindt, kunt u overwegen PTU te kopen in plaats van of als aanvulling op prioriteitsverwerking.

    * De service factureert aanvragen verwerkt door de standaard-servicelaag tegen standaardtarieven. Aanvragen die door de standard-servicelaag worden verwerkt, worden opgenomen service_tier = default in het antwoord, terwijl aanvragen die worden verwerkt door de prioriteitsverwerkingslaag, worden opgenomen service_tier = priority in het antwoord.

Probleemoplossingsproces

Probleem Oorzaak Resolutie / Besluit
Aanvragen die zijn verlaagd naar het standaardniveau Een van deze situaties:
- Het verkeer nam met meer dan 50% toe in het aantal tokens per minuut binnen 15 minuten, waardoor de limiet voor de groeisnelheid werd bereikt.
- Aanvragen die worden verzonden tijdens piekperiodes voor prioriteitsverwerking.
- Lange contextaanvragen die worden verzonden naar bepaalde modellen die worden vermeld in de doeltabel Latentie.
- Verhoog het verkeer geleidelijk als u limieten voor snelheidsstijging tegenkomt.
- Overweeg PTU te kopen voor een stabiele capaciteit.