Dela via


Registrering av etablerade dataflödesenheter

Den här artikeln beskriver hur du registrerar dig för etablerade dataflödesenheter (PTU). När du har slutfört den första registreringen rekommenderar vi att du refererar till guiden för att komma igång med PTU.

När du ska använda etablerade dataflödesenheter (PTU)

Du bör överväga att byta från standarddistributioner till etablerade distributioner när du har väldefinierade, förutsägbara dataflödes- och svarstidskrav. Detta inträffar vanligtvis när programmet är redo för produktion eller redan har distribuerats i produktion och det finns en förståelse för den förväntade trafiken. Detta gör det möjligt för användare att korrekt prognostisera den kapacitet som krävs och undvika oväntad fakturering.

Vanliga PTU-scenarier

  • Ett program som är redo för produktion eller produktion.
  • Ett program som har förutsägbar kapacitet/användningsförväntningar.
  • Ett program har känsliga krav för realtid/svarstid.

Kommentar

I användningsfall för funktionsanrop och agent kan tokenanvändning vara variabel. Du bör förstå din förväntade TPM-användning (Token per minut) i detalj innan du migrerar arbetsbelastningar till PTU.

Storlek och uppskattning: etablerade distributioner

Att fastställa rätt mängd etablerat dataflöde, eller PTU:er, som du behöver för din arbetsbelastning är ett viktigt steg för att optimera prestanda och kostnader. Om du inte är bekant med de olika metoder som är tillgängliga för att uppskatta dataflödet på systemnivå läser du rekommendationerna för beräkning av dataflöde på systemnivå i vår dokumentation om prestanda och svarstider. I det här avsnittet beskrivs hur du använder Azure OpenAI-kapacitetskalkylatorer för att uppskatta antalet PTU:er som krävs för att stödja en viss arbetsbelastning.

Beräkna etablerade dataflödesenheter och kostnader

Om du vill få en snabb uppskattning för din arbetsbelastning med hjälp av TPM för indata och utdata använder du den inbyggda kapacitetshanteraren i avsnittet distributionsinformation på skärmen för distributionsdialog. Den inbyggda kapacitetshanteraren är en del av distributionsarbetsflödet för att effektivisera storleksändringen och allokeringen av kvoten till en PTU-distribution för en viss arbetsbelastning. Mer information om hur du identifierar och uppskattar TPM-data finns i rekommendationerna i vår dokumentation om prestanda och svarstider.

När du har fyllt i in- och utdata för TPM-data i den inbyggda kapacitetskalkylatorn väljer du knappen Beräkna för att visa PTU-allokeringsrekommenderingen.

Skärmbild av PTU-kapacitetskalkylatorn för distributionsarbetsflödet.

Om du vill beräkna etablerad kapacitet med hjälp av data på begäransnivå öppnar du kapacitetshanteraren i Azure AI Studio. Kapacitetskalkylatorn finns under Modellkvot>för delade resurser>Azure OpenAI Etablerad.

Alternativet Etablerad och kapacitetsplaneraren är endast tillgängliga i vissa regioner i fönstret Kvot. Om du inte ser det här alternativet om du anger kvotregionen till Sverige central blir det här alternativet tillgängligt. Ange följande parametrar baserat på din arbetsbelastning.

Indata beskrivning
Modell OpenAI-modell som du planerar att använda. Exempel: GPT-4
Version Version av den modell som du planerar att använda, till exempel 0614
Högsta antal anrop per minut Antalet anrop per minut som förväntas skickas till modellen
Token i promptanrop Antalet token i prompten för varje anrop till modellen. Samtal med större prompter använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.
Token i modellsvar Antalet token som genereras från varje anrop till modellen. Anrop med större generationsstorlekar använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.

När du har fyllt i nödvändig information väljer du knappen Beräkna i utdatakolumnen.

Värdena i utdatakolumnen är det uppskattade värdet för PTU-enheter som krävs för de angivna arbetsbelastningsindata. Det första utdatavärdet representerar de uppskattade PTU-enheter som krävs för arbetsbelastningen, avrundade till närmaste PTU-skalningssteg. Det andra utdatavärdet representerar de råa uppskattade PTU-enheter som krävs för arbetsbelastningen. Tokensummorna beräknas med hjälp av följande ekvation: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Skärmbild av kapacitetskalkylatorn

Kommentar

Kapacitetskalkylatorerna ger en uppskattning baserat på enkla indatakriterier. Det mest exakta sättet att fastställa din kapacitet är att jämföra en distribution med en representationsarbetsbelastning för ditt användningsfall.

Förstå inköpsmodellen för etablerat dataflöde

Azure OpenAI Provisioned och Global Provisioned köps på begäran varje timme baserat på antalet distribuerade PTU:er, med betydande termrabatt tillgänglig via köp av Azure-reservationer.

Timmodellen är användbar för kortsiktiga distributionsbehov, till exempel validering av nya modeller eller förvärv av kapacitet för ett hackathon.  Rabatterna som tillhandahålls av Azure-reservationen för Azure OpenAI Provisioned och Global Provisioned är dock betydande och de flesta kunder med konsekvent långsiktig användning kommer att hitta en reserverad modell som är ett bättre värdeförslag.

Kommentar

Azure OpenAI-etablerade kunder som registrerades före självbetjäningsuppdateringen i augusti använder en inköpsmodell som kallas åtagandemodellen. Dessa kunder kan fortsätta att använda den här äldre köpmodellen tillsammans med köpmodellen För varje timme/reservation. Åtagandemodellen är inte tillgänglig för nya kunder. Mer information om köpmodellen för åtagande och alternativ för samexistens och migrering finns i Azure OpenAI Provisioned August Update.

Förbrukning varje timme

Etablerade och globala etablerade distributioner debiteras per timme ($/PTU/hr) för antalet PTU:er som har distribuerats.  Till exempel debiteras en 300 PTU-distribution timpriset gånger 300.  Alla priser för Azure OpenAI är tillgängliga i priskalkylatorn för Azure.

Om det finns en distribution under en partiell timme får den en proportionell avgift baserat på antalet minuter som den distribuerades under timmen.  Till exempel får en distribution som finns i 15 minuter under en timme den 1/4:e timavgiften. 

Om distributionsstorleken ändras justeras kostnaderna för distributionen så att de matchar det nya antalet PTU:er.

Ett diagram som visar fakturering per timme.

Att betala för etablerade och globala etablerade distributioner per timme är idealiskt för kortsiktiga distributionsscenarier.  Till exempel: Prestandamätning av kvalitet och prestanda för nya modeller eller tillfälligt öka PTU-kapaciteten för att täcka ett evenemang, till exempel ett hackathon. 

Kunder som kräver långsiktig användning av etablerade och globala etablerade distributioner kan dock betala betydligt mindre per månad genom att köpa en termrabatt via en Azure-reservation enligt beskrivningen i nästa avsnitt.

Kommentar

Vi rekommenderar inte att du skalar produktionsdistributioner enligt inkommande trafik och betalar för dem enbart per timme. Det finns två skäl till detta:

  • Kostnadsbesparingarna som uppnås genom att köpa en Azure-reservation för Azure OpenAI Provisioned är betydande och det blir i många fall billigare att underhålla en distributionsstorlek för hela produktionsvolymen som betalas via en reservation än att skala distributionen med inkommande trafik.
  • Om du har en oanvänd etablerad kvot (PTUs) visas inte den kapaciteten som stöd för att öka distributionens storlek när det behövs. Kvoten begränsar det maximala antalet PTU:er som kan distribueras, men det är inte en kapacitetsgaranti. Etablerad kapacitet för varje region och modal ändras dynamiskt under dagen och kanske inte är tillgänglig när det behövs. Därför rekommenderar vi att du upprätthåller en permanent distribution för att täcka dina trafikbehov (betalas via en reservation).
  • Avgifterna för distributioner på en borttagen resurs fortsätter tills resursen rensas. Du kan förhindra detta genom att ta bort en resursdistribution innan du tar bort resursen. Mer information finns i Återställa eller rensa borttagna Azure AI-tjänstresurser.

Azure-reservationer för Azure OpenAI-etablerade distributioner

Rabatter utöver användningspriset per timme kan erhållas genom att köpa en Azure-reservation för Azure OpenAI Provisioned och Global Provisioned. En Azure-reservation är en mekanism för termrabatter som delas av många Azure-produkter. Till exempel Compute och Cosmos DB. För Azure OpenAI Provisioned och Global Provisioned ger reservationen rabatt för betalning för fast antal PTU:er under en månad eller ettårsperiod. 

  • Azure-reservationer köps via Azure Portal, inte Azure AI Studio Link till Azure-reservationsportalen.

  • Reservationer köps regionalt och kan omfångsbegränsas flexibelt för att täcka användning från en grupp med distributioner. Bland reservationsomfången finns:

    • Enskilda resursgrupper eller prenumerationer

    • En grupp med prenumerationer i en hanteringsgrupp

    • Alla prenumerationer i ett faktureringskonto

  • Nya reservationer kan köpas för att täcka samma omfång som befintliga reservationer, så att nya etablerade distributioner kan rabatteras. Omfånget för befintliga reservationer kan också uppdateras när som helst utan påföljd, till exempel för att täcka en ny prenumeration.

  • Reservationer kan avbrytas efter köpet, men krediterna är begränsade.

  • Om storleken på etablerade distributioner inom omfånget för en reservation överskrider reservationens storlek debiteras överskottet enligt timpriset. Om distributioner som till exempel uppgår till 250 PTU:er finns inom ramen för en 200 PTU-reservation debiteras 50 PTU:er per timme tills distributionsstorlekarna minskas till 200 PTU:er, eller så skapas en ny reservation för att täcka de återstående 50.

  • Reservationer garanterar ett rabatterat pris för den valda termen.  De reserverar inte kapacitet för tjänsten eller garanterar att den blir tillgänglig när en distribution skapas. Vi rekommenderar starkt att kunder skapar distributioner innan de köper en reservation för att förhindra att en reservation överköps.

Viktigt!

  • Kapacitetstillgängligheten för modelldistributioner är dynamisk och ändras ofta mellan regioner och modeller. Om du vill förhindra att du köper en reservation för fler PTUs än du kan använda skapar du distributioner först och köper sedan Azure-reservationen för att täcka de PTU:er som du har distribuerat. Den här bästa metoden säkerställer att du kan dra full nytta av reservationsrabatten och hindra dig från att köpa ett åtagande som du inte kan använda.

  • Kraven på Azure-roll- och klientprincip för att köpa en reservation skiljer sig från de som krävs för att skapa en distributions- eller Azure OpenAI-resurs. Kontrollera auktoriseringen för att köpa reservationer i förväg om du behöver göra det. Mer information finns i dokumentationen om Azure OpenAI-etablerade reservationer.

Viktigt: storlek på Azure OpenAI-etablerade reservationer

PTU-beloppen i reservationsköp är oberoende av PTU:er som allokerats i kvoten eller används i distributioner. Det går att köpa en reservation för fler PTUs än vad du har i kvoten, eller distribuera för önskad region, modell eller version. Krediterna för överköp av en reservation är begränsade och kunderna måste vidta åtgärder för att säkerställa att de behåller sina reservationsstorlekar i enlighet med sina distribuerade PTU:er.

Det bästa sättet är att alltid köpa en reservation när distributioner har skapats. Detta förhindrar köp av en reservation och tar sedan reda på att den kapacitet som krävs inte är tillgänglig för önskad region eller modell.

För att hjälpa kunder att köpa rätt reservationsbelopp. Det totala antalet PTU:er i en prenumeration och region som kan omfattas av en reservation visas på sidan Kvoter i Azure AI Studio. Se meddelandet "PTUs Available for reservation".

En skärmbild som visar tillgänglig PTU-kvot.

Hantera Azure-reservationer

När en reservation har skapats är det bästa praxis att övervaka den för att säkerställa att den tar emot den användning du förväntar dig. Detta kan göras via Azure-reservationsportalen eller Azure Monitor. Information om dessa ämnen och andra finns här:

Nästa steg