Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Prioriteitsverwerking biedt prestaties met lage latentie met de flexibiliteit van betalen per gebruik. In dit artikel schakelt u prioriteitsverwerking in voor een modelimplementatie, controleert u welke servicelaag uw aanvragen heeft verwerkt en controleert u de bijbehorende kosten.
Vereiste voorwaarden
- Een Azure-abonnement - Maak er gratis een.
- Een Microsoft Foundry-project met een model van het implementatietype
GlobalStandardofDataZoneStandardgeïmplementeerd. - API-versie
2025-12-01of hoger.
Belangrijke use cases
- Consistente, lage latentie voor responsieve gebruikerservaringen.
- Eenvoudig betalen per gebruik zonder langetermijnverplichtingen.
- Verkeer tijdens kantooruren of piekverkeer dat profiteert van schaalbare, kostenefficiënte prestaties. U kunt eventueel prioriteitsverwerking combineren met ingerichte doorvoereenheden (PTU) voor een stabiele capaciteit en kostenoptimalisatie.
Latentiedoel
| Model | Latentiedoelwaarde2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 tokens per seconde |
| gpt-5.2, 2025-12-11 | 99% > 50 tokens per seconde |
| gpt-5.1, 2025-11-13 | 99% > 50 tokens per seconde |
| gpt-4.1, 2025-04-141 | 99% > 80 tokens per seconde |
1 Lange contextaanvragen (dat wil gezegd, aanvragen die worden geschat op meer dan 128.000 prompttokens) worden gedowngraded naar de standaardverwerking en er worden kosten in rekening gebracht tegen het tarief van de standaardlaag.
2 Berekend als p50 aanvraaglatentie per 5 minuten.
Ondersteuning voor prioriteitsverwerking
Wereldwijde beschikbaarheid van standaardmodellen
| Region | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|
| centralus | ❌ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ |
Opmerking
De beschikbaarheid van modellen en regio's wordt naar verwachting in de komende dagen uitgebreid. Controleer deze pagina op updates. Zie deze pagina voor prijsinformatie.
Prioriteitsverwerking op implementatieniveau inschakelen
U kunt prioriteitsverwerking inschakelen op implementatieniveau en (optioneel) op aanvraagniveau.
Opmerking
Prioriteitsverwerking kan worden ingeschakeld in algemene standaard- of datazonestandaardimplementaties (VS). Prioriteitsverwerking maakt gebruik van hetzelfde quotum als standaardverwerking.
Schakel in de Microsoft Foundry-portal de wisselknop Prioriteitsverwerking in op de pagina met implementatiedetails bij het maken van de implementatie of het bijwerken van de instelling van een geïmplementeerd model door de implementatiedetails te bewerken.
Opmerking
Als u liever code gebruikt om prioriteitsverwerking op implementatieniveau in te schakelen, kunt u dit doen via de REST API voor implementatie door het service_tier kenmerk als volgt in te stellen: "properties" : {"service_tier" : "priority"} Toegestane waarden voor het service_tier kenmerk zijn default en priority.
default impliceert standaardverwerking, terwijl priority prioriteitsverwerking is ingeschakeld.
Zodra een modelimplementatie is geconfigureerd voor het gebruik van prioriteitsverwerking, kunt u aanvragen verzenden naar het model.
Metrische gegevens over het gebruik weergeven
U kunt de gebruiksmeting voor uw resource bekijken in de sectie Azure Controleren in de Azure portal.
Als u het aantal aanvragen wilt weergeven dat verwerkt wordt via standaardverwerking of prioriteitsverwerking, verdeelt u dit per serviceniveau (standaard of prioriteit) dat zich in de oorspronkelijke aanvraag bevond.
- Meld u aan bij https://portal.azure.com.
- Ga naar uw Azure OpenAI-resource en selecteer de optie Metrics in de linkernavigatiebalk.
- Voeg op de pagina met metrische gegevens de metriek Azure OpenAI-aanvragen toe. U kunt ook andere metrische gegevens selecteren, zoals Azure OpenAI-latentie, Azure OpenAI-gebruik en andere.
- Selecteer Filter toevoegen om de standaardimplementatie te selecteren waarvoor aanvragen voor prioriteitsverwerking zijn verwerkt.
- Selecteer Splitsen toepassen om de waarden te splitsen op ServiceTierRequest en ServiceTierResponse.
Zie Monitor Azure OpenAI voor meer informatie over het bewaken van uw implementaties.
Kosten controleren
U ziet een uitsplitsing van de kosten voor prioriteits- en standaardaanvragen op de pagina kostenanalyse van de Azure portal door als volgt te filteren op de implementatienaam en factureringstags:
- Ga naar de pagina kostenanalyse in de Azure portal.
- (Optioneel) Filteren op bron.
- Als u wilt filteren op implementatienaam: Voeg een filter toe voor de implementatietag> selecteer de implementatie als waarde en kies vervolgens uw implementatienaam.
Zie het Azure OpenAI Service prijsoverzicht voor informatie over prijzen voor prioriteitsverwerking.
Prioriteitsverwerking op aanvraagniveau inschakelen
Het inschakelen van prioriteitsverwerking op aanvraagniveau is optioneel. Zowel de API voor voltooiing van de chat als de antwoord-API hebben een optioneel kenmerk service_tier dat het verwerkingstype aangeeft dat moet worden gebruikt bij het leveren van een aanvraag. In het volgende voorbeeld wordt getoond hoe u service_tier instelt op priority in een reactie-aanvraag.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Gebruik het service_tier kenmerk om de instelling op implementatieniveau te overschrijven.
service_tier kan de waarden auto, defaulten priority.
Als u het kenmerk niet instelt, wordt het standaard ingesteld op
auto.service_tier = autobetekent dat de aanvraag gebruikmaakt van de servicelaag die is geconfigureerd in de implementatie.service_tier = defaultbetekent dat de aanvraag gebruikmaakt van de standaardprijzen en prestaties voor het geselecteerde model.service_tier = prioritybetekent dat de aanvraag gebruikmaakt van de servicelaag prioriteitsverwerking.
De volgende tabel bevat een overzicht van welke servicelaag uw aanvragen verwerkt op basis van de instellingen op implementatie- en aanvraagniveau voor service_tier.
| Instelling op implementatieniveau | Instelling op aanvraagniveau | Aanvraag verwerkt per servicelaag |
|---|---|---|
| default | auto, standaard | Standaard |
| default | priority | Prioriteitsverwerking |
| priority | auto, prioriteit | Prioriteitsverwerking |
| priority | default | Standaard |
Beperkingen
De service biedt momenteel geen ondersteuning voor regionale standaardimplementaties en eu-gegevenszonestandaardimplementaties.
Tijdens deze scenario's kan de service bepaalde prioriteitsaanvragen opnieuw routeren naar standaardverwerking*:
- Als snelle toename van uw prioriteitsverwerkingstokens per minuut leidt tot het bereiken van rampsnelheidslimieten. Op dit moment wordt de limiet voor de hellingsnelheid gedefinieerd als het verhogen van het verkeer met meer dan 50% tokens per minuut in minder dan 15 minuten.
- Tijdens perioden van piekaanvragen voor prioriteitsverwerking.
- Lange contextaanvragen die worden verzonden naar bepaalde modellen die worden vermeld in de tabel Latentiedoel.
Aanbeveling
Als u regelmatig limieten voor de stijgsnelheid ondervindt, kunt u overwegen PTU te kopen in plaats van of als aanvulling op prioriteitsverwerking.
* De service factureert aanvragen verwerkt door de standaard-servicelaag tegen standaardtarieven. Aanvragen die door de standard-servicelaag worden verwerkt, worden opgenomen
service_tier = defaultin het antwoord, terwijl aanvragen die worden verwerkt door de prioriteitsverwerkingslaag, worden opgenomenservice_tier = priorityin het antwoord.
Probleemoplossingsproces
| Probleem | Oorzaak | Resolutie / Besluit |
|---|---|---|
| Aanvragen die zijn verlaagd naar het standaardniveau | Een van deze situaties: - Het verkeer nam met meer dan 50% toe in het aantal tokens per minuut binnen 15 minuten, waardoor de limiet voor de groeisnelheid werd bereikt. - Aanvragen die worden verzonden tijdens piekperiodes voor prioriteitsverwerking. - Lange contextaanvragen die worden verzonden naar bepaalde modellen die worden vermeld in de doeltabel Latentie. |
- Verhoog het verkeer geleidelijk als u limieten voor snelheidsstijging tegenkomt. - Overweeg PTU te kopen voor een stabiele capaciteit. |