Beräkna, begära och distribuera etablerade dataflödesenheter

100 XP

12 minuter

När du börjar med Azure OpenAI rekommenderar vi att du använder standarddistributionstypen under de inledande faserna och testfaserna. Du bör dock överväga att byta från betala per token till etablerat dataflöde när du har väldefinierade, förutsägbara dataflödeskrav. Vanligtvis känner du till dina krav när programmet är redo för produktion eller redan har distribuerats i produktion och du förstår den förväntade trafiken. På så sätt kan du exakt prognostisera den kapacitet som krävs och undvika oväntad fakturering.

I allmänhet är prompttoken billigare att bearbeta än lika många genererade token. Det innebär också att fördelningen av dessa anropsformer är viktig i det övergripande dataflödet. Trafikmönster med en bred distribution som omfattar vissa mycket stora anrop kan uppleva lägre dataflöde per PTU än en smalare fördelning med samma genomsnittliga storlek på prompt- och slutförandetoken.

Använda kapacitetskalkylatorn i Azure OpenAI Studio

Att fastställa rätt antal PTU:er som du behöver för din arbetsbelastning är ett viktigt steg för att optimera prestanda och kostnader. Du kan använda Kapacitetskalkylatorn för Azure OpenAI för att beräkna det antal PTU:er som krävs för att uppfylla arbetsbelastningens behov.

När du använder Kapacitetskalkylatorn för Azure OpenAI är det viktigt att du förstår vilka data du behöver tillhandahålla. Förutom att välja Azure OpenAI-modellen och dess version måste du ange följande data:

Högsta antal anrop per minut: Det maximala antalet anrop per minut som du förväntar dig ska skickas till modellen.
Token i ett promptanrop: Antalet token i prompten för varje anrop till modellen. Samtal med större prompter använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde. För arbetsbelastningar med stor varians rekommenderar vi därför att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.
Token i modellsvar: Antalet token som genereras från varje anrop till modellen. Anrop med större generationsstorlekar använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde. För arbetsbelastningar med stor varians rekommenderar vi därför att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.

När du har fyllt i nödvändig information väljer du Beräkna i utdatakolumnen.

Värdena i utdatakolumnen är de uppskattade värdena för PTU-enheter som krävs för de angivna arbetsbelastningsindata. Det första utdatavärdet representerar de uppskattade PTU-enheter som krävs för arbetsbelastningen, avrundade till närmaste PTU-skalningssteg. Det andra utdatavärdet representerar de råa uppskattade PTU-enheter som krävs för arbetsbelastningen. Tokensummorna beräknas med hjälp av följande ekvation:

Totalt = Högsta antal anrop per minut × (token i promptanrop + token i modellsvar)

Azure OpenAI Etablerade köpalternativ

Etablerade distributioner faktureras som standard per timme. Kunder kan få ytterligare besparingar genom att köpa etablerade reservationer.

Timmodellen är användbar för kortsiktiga distributionsbehov, till exempel validering av nya modeller eller förvärv av kapacitet för ett hackathon.  Rabatterna som tillhandahålls av azure OpenAI-tjänstens etablerade reservationer är dock betydande och de flesta kunder med konsekvent långsiktig användning kommer att hitta en reserverad modell som ett bättre värdeförslag.

Distributioner av etablerat dataflöde debiteras per timme ($/PTU/timme), baserat på antalet PTU:er som har distribuerats.  Till exempel debiteras en 300 PTU-distribution timpriset multiplicerat med 300.  Alla priser för Azure OpenAI är tillgängliga i priskalkylatorn för Azure.

Azure OpenAI-tjänstkvot

Med Azure OpenAI:s kvot kan du tilldela hastighetsgränser till dina distributioner, upp till en global gräns som kallas din kvot.

För standarddistributioner tilldelas en kvot till din prenumeration per region, per modell, i enheter med token per minut (TPM). När du registrerar en prenumeration på Azure OpenAI får du standardkvoten för de flesta tillgängliga modeller. Sedan tilldelar du TPM till varje distribution när den skapas, och den tillgängliga kvoten för den modellen minskas med det beloppet. Du kan fortsätta att skapa distributioner och tilldela dem TPM tills du når din kvotgräns. När det händer kan du bara skapa nya distributioner av den modellen genom att minska TPM som tilldelats till andra distributioner av samma modell (vilket frigör TPM för användning) eller genom att begära och godkännas för en modellkvotökning i önskad region.

För etablerade distributioner beviljar Azure OpenAI en kvot till en prenumeration regionalt och begränsar det totala antalet PTU:er som kan distribueras i den regionen i alla modeller och versioner.

För att skapa en ny distribution krävs en tillgänglig (oanvänd) kvot för att täcka den önskade storleken på distributionen. En prenumeration har till exempel följande kvot i USA, södra centrala:

Total PTU-kvot = 500 PTUs
Distributioner:
- 100 PTUs: GPT-4o, 2024-05-13
- 100 PTUs: GPT-4, 0613

I det här scenariot anses 200 PTUs för kvot användas och 300 PTU:er är tillgängliga för användning för att skapa nya distributioner.

Ett standardantal etablerade och globala etablerade kvoter tilldelas till alla prenumerationer i flera regioner. Du kan granska den tillgängliga kvoten i en region genom att gå till bladet Kvoter i Azure OpenAI Studio och välja önskad prenumeration och region.

Följande skärmbild visar till exempel en kvotgräns på 500 PTUs i USA, västra för den valda prenumerationen. Observera att du kan observera lägre värden för tillgängliga standardkvoter.

PTU-kvoten är som standard tillgänglig i många regioner. Om det krävs ytterligare en kvot kan kunderna begära den med hjälp av länken Förfrågningskvot bredvid kvotobjektet Etablerad hanterad dataflödesenhet i Azure OpenAI Studio. Formuläret gör det möjligt för kunder att begära en ökning av PTU-kvoten för en angiven region. När begäran har godkänts får kunderna ett e-postmeddelande på den inkluderade adressen, vanligtvis inom två arbetsdagar.

Skapa en etablerad distribution – kapaciteten är tillgänglig

Du kan skapa PTU:er med hjälp av Azure OpenAI-resursobjekt i Azure. Du måste ha en Azure OpenAI-resurs i varje region där du tänker skapa en distribution. Använd Azure Portal för att skapa en resurs i en region med en tillgänglig kvot om det behövs. Observera att Azure OpenAI-resurser kan ha stöd för flera typer av Azure OpenAI-distributioner samtidigt. Det är inte nödvändigt att dedikera nya resurser för dina etablerade distributioner.

Om du vill skapa en etablerad distribution följer du anvisningarna i dialogrutan Distribuera modell och anger den information som krävs enligt beskrivningen i följande exempel.

En skärmbild av distributionssidan för Azure OpenAI Studio för en etablerad distribution.

Viktiga saker att tänka på när du skapar en etablerad distribution:

Distributionsdialogrutan innehåller en påminnelse om att du kan köpa en Azure-reservation för Azure OpenAI Provisioned för att få en betydande rabatt för ett termåtagande.
Ett meddelande visar det angivna timpriset för distributionen som skulle debiteras om distributionen inte omfattas av en reservation. Det här är ett listpris som inte innehåller några förhandlade rabatter för ditt företag.
Om du är osäker på kostnaderna avbryter du distributionen och fortsätter när du förstår betalningsmodellen och underliggande kostnader för etablerad distribution. Det här steget kan förhindra oväntade, höga avgifter på din betalningsfaktura.

Följande bild visar ett exempel på den prisbekräftelse som du kan granska.

En skärmbild som visar prisbekräftelsen för distributionen.

Skapa en etablerad distribution – kapaciteten är inte tillgänglig

På grund av den dynamiska karaktären hos kapacitetstillgänglighet är det möjligt att regionen för den valda resursen kanske inte har tjänstkapaciteten för att skapa distributionen av den angivna modellen, versionen och antalet PTU:er.

I det här fallet dirigerar Azure OpenAI Studio dig till andra regioner med tillgänglig kvot och kapacitet för att skapa en distribution av den önskade modellen. Om detta händer kan dialogrutan Distribuera modell visa information som visas i följande skärmbild.

En skärmbild av distributionssidan för Azure OpenAI Studio för en etablerad distribution utan tillgänglig kapacitet.

Viktiga saker att notera:

Ett meddelande visas som anger antalet PTU:er som du har i tillgänglig kvot och hur många du för närvarande kan distribuera just nu.
Om du väljer ett PTU-nummer som är större än tjänstkapaciteten visas ett meddelande som innehåller alternativ för att få mer kapacitet och ett alternativ för att välja en alternativ region. Om du väljer Visa andra regioner öppnas en dialogruta som visar de Azure OpenAI-resurser där du kan skapa en distribution, tillsammans med den maximala distributionen baserat på den tillgängliga kvoten och tjänstkapaciteten i varje region.

När du väljer en resurs och sedan väljer Växla resurs, kommer dialogrutan Distribuera modell att visa information om med hjälp av den valda resursen. Du kan sedan fortsätta att skapa distributionen i den nya regionen.

Mäta distributionsanvändningen

När du distribuerar ett angivet antal PTU:er gör Azure OpenAI ett visst antal inferensdataflöden tillgängliga för slutpunkten. Användningen av det här dataflödet är en komplex formel som baseras på modellen, anropsfrekvensen för modellversion, promptstorleken och generationsstorleken. För att förenkla den här beräkningen tillhandahåller Azure Monitor ett användningsmått. När användningen har ökat över 100 procent returnerar distributionen ett fel med begärandefrekvensen för stort undantag (kod 429) för alla nya anrop.

Den etablerade användningen definieras på följande sätt:

Användning av PTU-distribution = (PTU:er som förbrukats under tidsperioden) ÷ (PTU:er som distribuerats under tidsperioden)

Du hittar användningsmåttet i avsnittet Azure Monitor i resursen. Så här kommer du åt instrumentpanelerna för övervakning:

Logga in på Azure-portalen.
Gå till din Azure OpenAI-resurs och välj Mått i navigeringsfönstret.
På sidan Mått väljer du måttet Etablerad hanterad användning V2 .

Om du har fler än en distribution i resursen bör du också dela upp värdena per distribution genom att välja Tillämpa delning.

Du kan också använda färdiga instrumentpaneler för var och en av dina Azure OpenAI-resurser. Om du vill komma åt övervakningsinstrumentpanelerna loggar du in på Azure Portal och väljer översiktsfönstret för en av dina Azure OpenAI-resurser.

Instrumentpanelerna är grupperade i fyra kategorier:

HTTP-begäranden
Tokenbaserad användning
PTU-användning
Finjustering

Azure OpenAI samlar in samma typer av övervakningsdata som andra Azure-resurser. Du kan konfigurera Azure Monitor för att generera data i aktivitetsloggar, resursloggar, virtuella datorloggar och plattformsmått.

Plattformsmått och Azure Monitor-aktivitetsloggen samlas in och lagras automatiskt. Du kan dirigera dessa data till andra platser med hjälp av en diagnostikinställning. Azure Monitor-resursloggar samlas inte in och lagras inte förrän du skapar en diagnostikinställning som dirigerar loggarna till en eller flera platser. När du skapar en diagnostikinställning anger du vilka kategorier av loggar som ska samlas in.

Anteckning

Kom ihåg att användning av diagnostikinställningar och att skicka data till Azure Monitor-loggar har andra kostnader kopplade till sig.

Sammanfattning

I den här lektionen har du fått en förståelse för hur du beräknar, begär och distribuerar PTU i Azure OpenAI Service. Du har lärt dig hur du använder kapacitetskalkylatorn för att uppskatta PTU-användningen, hur du begär kvot och hur du skapar etablerade distributioner i Azure Portal. Till slut lärde du dig att mäta och övervaka distributionsanvändningen.

Nästa enhet: Välj och köp rätt Azure OpenAI Service-etablerad reservation

Föregående Nästa

Behöver du hjälp? Se vår felsökningsguide eller ge feedback genom att rapportera ett problem.