Verkeer beheren met overloop voor ingerichte implementaties (preview)

2025-07-02

Spillover beheert verkeersschommelingen voor toegewezen implementaties door overschrijdingsverkeer te routeren naar een corresponderende standaardimplementatie. Uitbreiding is een optionele mogelijkheid die kan worden geconfigureerd voor alle verzoeken binnen een bepaalde implementatie of afzonderlijk per verzoek kan worden beheerd. Wanneer overloop is ingeschakeld, verzendt Azure OpenAI in Azure AI Foundry-modellen eventuele overschrijdingsverkeer van uw ingerichte implementatie naar een standaardimplementatie voor verwerking.

Vereiste voorwaarden

Een wereldwijd ingerichte implementatie of een in een gegevenszone ingerichte implementatie die als uw primaire implementatie moet worden gebruikt.
Een globale of standaardimplementatie voor een gegevenszone die u kunt gebruiken als uw overloopimplementatie.
De ingerichte en standaardimplementaties moeten zich in dezelfde Azure OpenAI-resource bevinden om in aanmerking te komen voor overloop.
Het gegevensverwerkingsniveau van uw standaardimplementatie moet overeenkomen met uw ingerichte implementatie (een globale ingerichte implementatie moet bijvoorbeeld worden gebruikt met een wereldwijde standaardoverloopimplementatie).

Wanneer overloop inschakelen voor ingerichte implementaties

Om het gebruik van uw toegewezen implementatie te maximaliseren, is het raadzaam om uitwijking in te schakelen voor alle toegewezen implementaties in de wereldwijde en datazone. Met overloopcapaciteit kunnen bursts of schommelingen in het netwerkverkeer automatisch door de service worden beheerd. Deze mogelijkheid vermindert het risico op onderbrekingen wanneer een ingerichte implementatie volledig wordt gebruikt. Overloop kan ook per aanvraag worden geconfigureerd om flexibiliteit te bieden in verschillende scenario's en workloads.

Wanneer wordt overloop van kracht?

Wanneer overloop is ingeschakeld voor een implementatie of geconfigureerd voor een bepaalde deductieaanvraag, wordt spillover gestart wanneer een niet-200-antwoordcode wordt ontvangen voor een bepaalde deductieaanvraag. Wanneer een aanvraag resulteert in een niet-200-antwoordcode, verzendt Azure OpenAI automatisch de aanvraag van uw ingevulde implementatie naar uw standaardimplementatie voor verwerking. Zelfs als een subset aanvragen naar de standaardimplementatie wordt doorgestuurd, geeft de service prioriteit aan het verzenden van aanvragen naar de ingerichte implementatie voordat eventuele overschrijdingsaanvragen naar de standaardimplementatie worden verzonden.

Wat is de invloed van overloop op de kosten?

Aangezien overloop gebruikmaakt van een combinatie van ingerichte en standaardimplementaties voor het beheren van verkeersschommelingen, omvat facturering voor overloop twee onderdelen:

Voor aanvragen die door uw ingerichte implementatie worden verwerkt, zijn alleen de kosten voor de implementatie per uur van toepassing. Er worden geen extra kosten gemaakt voor deze aanvragen.
Voor aanvragen die naar uw standaardimplementatie worden doorgestuurd, wordt de aanvraag gefactureerd op het bijbehorende invoertoken, in de cache opgeslagen token en uitvoertokensnelheden voor de opgegeven modelversie en het implementatietype.

Overloop inschakelen

De overloopmogelijkheid kan worden ingeschakeld voor alle aanvragen voor een ingerichte implementatie met behulp van een implementatie-eigenschap of kan per aanvraag worden beheerd met behulp van aanvraagheaders. In de volgende sectie wordt uitgelegd hoe u lekkage configureert voor elk van deze scenario's.

Overloop inschakelen voor alle aanvragen voor een ingerichte implementatie

Als u overloop wilt inschakelen voor alle aanvragen voor een ingerichte implementatie, stelt u de implementatie-eigenschap spilloverDeploymentName in op het standaardimplementatiedoel voor overloopaanvragen. Deze eigenschap kan worden ingesteld tijdens het maken van een nieuwe ingerichte implementatie of kan worden toegevoegd aan een bestaande ingerichte implementatie. De spilloverDeploymentName eigenschap moet worden ingesteld op de naam van een standaardimplementatie binnen dezelfde Azure OpenAI-resource als uw ingerichte implementatie.

curl -X PUT https://management.azure.com/subscriptions/00000000-0000-0000-0000-000000000000/resourceGroups/resource-group-temp/providers/Microsoft.CognitiveServices/accounts/docs-openai-test-001/deployments/spillover-ptu-deployment?api-version=2024-10-01 \
  -H "Content-Type: application/json" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"sku":{"name":"GlobalProvisionedManaged","capacity":100},"properties": {"spilloverDeploymentName": "spillover-standard-deployment", "model":{"format": "OpenAI","name": "gpt-4o-mini","version": "2024-07-18"}}}'

Overloop inschakelen voor selectiedeductieaanvragen

Als u overloop selectief per verzoek wilt inschakelen, stelt u de header van de x-ms-spillover-deployment inference-aanvraag in op het standaardimplementatiedoel voor overloopverzoeken. Als de x-ms-spillover-deployment header niet is ingesteld op een specifieke aanvraag, wordt overloop gestart in het geval van een antwoord anders dan 200. Het gebruik of weglaten van deze header biedt de flexibiliteit om te bepalen wanneer overloop wel of niet moet worden gestart voor een specifieke workload of een specifiek scenario.

curl $AZURE_OPENAI_ENDPOINT/openai/deployments/spillover-ptu-deployment/chat/completions?api-version=2025-02-01-preview \
  -H "Content-Type: application/json" \
  -H "x-ms-spillover-deployment: spillover-standard-deployment" \
  -H 'Authorization: Bearer YOUR_AUTH_TOKEN' \
  -d '{"messages":[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Does Azure OpenAI support customer managed keys?"},{"role": "assistant", "content": "Yes, customer managed keys are supported by Azure OpenAI."},{"role": "user", "content": "Do other Azure services support this too?"}]}'

Opmerking

Als de overloopmogelijkheid is ingeschakeld voor de implementatie met behulp van de spilloverDeploymentName eigenschap en ook is ingeschakeld op aanvraagniveau met behulp van de x-ms-spillover-deployment header, wordt het systeem standaard ingesteld op de instelling van de implementatie-eigenschap. Als u ervoor wilt zorgen dat overloop alleen per aanvraag is ingeschakeld, stelt u de spilloverDeploymentName eigenschap niet in voor de ingerichte implementatie en vertrouwt u alleen op de x-ms-spillover-deployment header per aanvraag.

Hoe kan ik mijn overloopgebruik monitoren?

Omdat de overloopmogelijkheid afhankelijk is van een combinatie van ingerichte en standaardimplementaties voor het beheren van verkeersoverschrijdingen, kan bewaking worden uitgevoerd op het implementatieniveau voor elke implementatie. Als u wilt zien hoeveel aanvragen zijn verwerkt voor de primaire ingerichte implementatie ten opzichte van de standaardimplementatie voor overloop, past u de splitsfunctie toe in metrische gegevens van Azure Monitor om de aanvragen weer te geven die door elke implementatie en hun respectieve statuscodes zijn verwerkt. Op dezelfde manier kan de splitsingsfunctie worden gebruikt om te zien hoeveel tokens zijn verwerkt op de primaire ingerichte implementatie ten opzichte van de standaardimplementatie voor overloop voor een bepaalde periode. Raadpleeg de documentatie van Monitor Azure OpenAI voor meer informatie over waarneembaarheid in Azure OpenAI.

In de volgende grafiek met metrische gegevens van Azure Monitor ziet u een voorbeeld van het splitsen van aanvragen tussen de primaire ingerichte implementatie en de standaardimplementatie voor overloop wanneer overloop wordt gestart. Zoals wordt weergegeven in de grafiek, is er voor elke aanvraag met een niet-200-responscode voor de ingerichte implementatie ('gpt-4o-ptu') een overeenkomstige aanvraag met een 200-responscode voor de overloopstandaardimplementatie ("gpt-4o-paygo-spillover"), die aangeeft dat deze overschrijdingsaanvragen zijn doorgestuurd naar de standaardimplementatie voor overloop voor een geslaagde verwerking. Azure Monitor-grafiek met overloopaanvragen van een ingerichte implementatie naar een standaardimplementatie.