Dela via


Förstå kostnader som är associerade med tillhandahållna genomflödesenheter (PTU)

Använd den här artikeln om du vill lära dig mer om att beräkna och förstå kostnader som är associerade med PTU. En översikt över erbjudandet för etablerat dataflöde finns i Vad är etablerat dataflöde?. När du är redo att registrera dig för erbjudandet för reserverad genomströmning kan du läsa kom-igång-guiden.

Anmärkning

I användningsfall för funktionsanrop och agent kan tokenanvändning vara variabel. Du bör förstå din förväntade TPM-användning (Token per minut) i detalj innan du migrerar arbetsbelastningar till PTU.

Etablerade dataflödesenheter

Etablerade dataflödesenheter (PTUs) är generiska enheter för modellbearbetningskapacitet som du kan använda för att storleksanpassa etablerade distributioner för att uppnå det dataflöde som krävs för bearbetning av frågor och generering av slutföranden. Etablerade dataflödesenheter beviljas till en prenumeration som kvot. Varje kvot är specifik för en region och definierar det maximala antalet PTU:er som kan tilldelas till distributioner i den prenumerationen och regionen.

Förstå fakturering av tilldelad genomströmning

Azure AI Foundry Regional Provisioned Throughput, Data Zone Provisioned Throughput och Global Provisioned Throughput köps på begäran varje timme baserat på antalet distribuerade PTU:er, med betydande termrabatt tillgänglig via köp av Azure-reservationer.

Timmodellen är användbar för kortsiktiga distributionsbehov, till exempel validering av nya modeller eller förvärv av kapacitet för ett hackathon.  Rabatterna som tillhandahålls av Azure Reservation for Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned är dock betydande och de flesta kunder med konsekvent långsiktig användning tycker att en reserverad modell är ett bättre värdeförslag.

Anmärkning

Azure AI Foundry Provisioned-kunder som registrerades före självbetjäningsuppdateringen i augusti använder en inköpsmodell som kallas åtagandemodellen. Dessa kunder kan fortsätta att använda den här äldre köpmodellen tillsammans med timmodellen/reservationsmodellen. Åtagandemodellen är inte tillgänglig för nya kunder eller vissa nya modeller som introducerades efter augusti 2024. Mer information om köpmodellen för åtagande och alternativ för samexistens och migrering finns i Azure AI Foundry Provisioned August Update.

Modelloberoende kvot

Till skillnad från den TPM-kvot (Token per minut) som används av andra Azure AI Foundry-erbjudanden är PTU:er modelloberoende. PTU:erna kan användas för att distribuera modeller som stöds och säljas direkt av Microsoft i regionen.

Diagram över modelloberoende kvot med en pool med PTU:er tillgängliga för flera Azure OpenAI-modeller.

Kvoten för tilldelade distributioner visas i Azure AI Foundry som följande distributionstyper: global tilldelad, tilldelad datazon och regional tilldelad.

distributionstyp Kvotnamn
Regional tillhandahållen Regional enhet för provisionerad genomströmning
Global provisionerad Global tilldelad genomströmningsenhet
Etablerad datazon Datazon tilldelad genomströmningsenhet

Skärmbild av användargränssnittet för kvoter i Azure AI Foundry när det har tillhandahållits.

Förbrukning varje timme

Regionalt tilldelade, datazonstilldelade och globalt tilldelade distributioner debiteras en timtaxa ($/PTU/hr) för antalet distribuerade PTU:er.  Till exempel debiteras en 300 PTU-distribution timpriset gånger 300.  Alla priser för Azure AI Foundry-modellen är tillgängliga i Priskalkylatorn för Azure.

Om det finns en distribution under en partiell timme får den en proportionell avgift baserat på antalet minuter som den distribuerades under timmen.  Till exempel får en driftsättning som varar i 15 minuter under en timme en fjärdedel av timavgiften. 

Om distributionsstorleken ändras justeras kostnaderna för distributionen så att de matchar det nya antalet PTU:er.

Ett diagram som visar fakturering per timme.

Att betala för regional etablering, etablerad datazon och globala etablerade distributioner per timme är idealiskt för kortsiktiga distributionsscenarier.  Till exempel: Prestandamätning av kvalitet och prestanda för nya modeller eller tillfälligt öka PTU-kapaciteten för att täcka ett evenemang, till exempel ett hackathon. 

Kunder som kräver långsiktig användning av regional etablering, etablerad datazon och globala etablerade distributioner kan dock betala betydligt mindre per månad genom att köpa en termrabatt via Azure-reservationer som beskrivs senare i artikeln.

Viktigt!

Det rekommenderas inte att skala produktionsmiljöer baserat på inkommande trafik och betala för dem enbart per timme. Det finns två orsaker till detta:

  • Kostnadsbesparingarna som uppnås genom att köpa Azure-reservationer för Azure AI Foundry Provisioned Throughput, Data Zone Provisioned och Global Provisioned är betydande, och det blir i många fall billigare att underhålla en distributionsstorlek för full produktionsvolym som betalas via en reservation än att skala distributionen med inkommande trafik.
  • Att ha en oanvänd etablerad kvot (PTUs) garanterar inte att kapaciteten kommer att vara tillgänglig för att stödja en ökning av distributionens storlek när det behövs. Kvoten begränsar det maximala antalet PTU:er som kan distribueras, men det är ingen kapacitetsgaranti. Etablerad kapacitet för varje region och modell ändras dynamiskt under dagen och kanske inte är tillgänglig när det behövs. Därför rekommenderar vi att du upprätthåller en permanent installation för att täcka dina trafikbehov, vilket betalas genom en reservation. Avgifterna för distributioner på en borttagen resurs fortsätter tills resursen rensas. Du kan förhindra detta genom att ta bort en resursdistribution innan du tar bort resursen. Mer information finns i Återställa eller rensa borttagna Azure OpenAI-resurser.

Hur mycket dataflöde per PTU du får för varje modell

Mängden dataflöde (mätt i token per minut eller TPM) som en installation får per PTU är en funktion av in- och uttoken under en minut. För att generera utdatatoken krävs mer bearbetning än indatatoken.  Från och med GPT 4.1-modeller och senare matchar systemet det globala standardprisförhållandet mellan indata- och utdatatoken. Cachelagrade token subtraheras med 100% från användningen.

För räknas till exempel gpt-4.1:2025-04-141 utdatatoken som 4 indatatoken mot din användningsgräns som matchar prissättningen. Äldre modeller använder ett annat förhållande, och för en djupare förståelse av hur olika förhållanden mellan indata- och utdatatoken påverkar genomströmningen som din arbetsbelastning kräver, se kvotkalkylatorn för Azure AI Foundry PTU.

Ämne o4-mini gpt-4.1 gpt-4.1-mini gpt-4.1-nano o3 o3-mini o1 gpt-4o gpt-4o-mini DeepSeek-R1 DeepSeek-V3-0324 DeepSeek-R1-0528
Global och etablerad minsta distribution i datazonen 15 15 15 15 15 15 15 15 15 100 100 100
Global & datazonsetablerade skalningssteg 5 5 5 5 5 5 5 5 5 100 100 100
Regionalt etablerad minsta distribution 25 50 25 25 50 25 25 50 25 NA NA NA
Regionalt etablerad skalningsökning 25 50 25 25 50 25 50 50 25 NA NA NA
Indata-TPM per PTU 5,400 3 000 14,900 59 400 3 000 2,500 230 2,500 37,000 4 000 4 000 4 000
Målvärde för svarstid 99% > 66 token per sekund* 99% > 40 token per sekund* 99% > 50 token per sekund* 99% > 60 token per sekund* 99% > 40 token per sekund* 99% > 66 token per sekund* 99% > 25 token per sekund* 99% > 25 token per sekund* 99% > 33 token per sekund* 99% > 50 token per sekund* 99% > 50 token per sekund* 99% > 50 token per sekund*

* Beräknas som genomsnittlig svarstid för begäran per minut under månaden.

En fullständig lista finns i Azure AI Foundry-kalkylatorn.

Fastställa antalet PTU:er som behövs för en arbetsbelastning

Att fastställa rätt mängd etablerat dataflöde, eller PTU:er, som du behöver för din arbetsbelastning är ett viktigt steg för att optimera prestanda och kostnader.

PTU:er representerar en mängd modellbearbetningskapacitet. På samma sätt som din dator eller dina databaser förbrukar olika arbetsbelastningar eller begäranden till modellen olika mängder underliggande bearbetningskapacitet. Konverteringen från dataflödet måste till PTU:er kan approximeras med historiska tokenanvändningsdata eller anropsformuppskattningar (indatatoken, utdatatoken och begäranden per minut) enligt beskrivningen i vår dokumentation om prestanda och svarstid . För att förenkla den här processen kan du använda PTU-kvotkalkylatorn för Azure AI Foundry för att ändra storlek på specifika arbetsbelastningsformer.

Några övergripande överväganden:

  • Generationer kräver mer kapacitet än uppmaningar
  • För GPT-4o- och senare modeller anges TPM per PTU för in- och utdatatoken separat. För äldre modeller är större anrop progressivt dyrare att beräkna. Till exempel kräver 100 anrop av med en 1 000 token-promptstorlek mindre kapacitet än ett anrop med 100 000 token i prompten. Den här nivåindelningen innebär att fördelningen av dessa anropsformer är viktig i det övergripande dataflödet. Trafikmönster med en bred distribution som innehåller vissa stora anrop kan uppleva lägre dataflöde per PTU än en smalare fördelning med samma genomsnittliga storlek på prompt- och slutförandetoken.

Hämta PTU-kvot

Kunder måste begära kvot via länken Förfrågningskvot. Om fler kvoter krävs måste du också begära kvot via den här länken. Den här länken finns i kvothubben i hanteringscentret för Azure AI Foundry. Formuläret gör att kunden kan begära en ökning av den angivna PTU-kvoten för en viss region. Kunden får ett e-postmeddelande på den inkluderade adressen när begäran har godkänts, vanligtvis inom två arbetsdagar.

Per-Model PTU-minimum

Den minsta PTU-distribution, ökningar och bearbetningskapacitet som är associerad med varje enhet varierar beroende på modelltyp och version. Mer information finns i tabellen ovan.

Beräkna tilldelade genomströmningsenheter och kostnad

Om du vill få en snabb uppskattning för din arbetsbelastning med hjälp av TPM för indata och utdata använder du den inbyggda kapacitetshanteraren i avsnittet distributionsinformation på skärmen för distributionsdialog. Den inbyggda kapacitetshanteraren är en del av distributionsarbetsflödet för att effektivisera storleksändringen och allokeringen av kvoten till en PTU-distribution för en viss arbetsbelastning. Mer information om hur du identifierar och uppskattar TPM-data finns i rekommendationerna i vår dokumentation om prestanda och svarstider.

Om du vill använda kapacitetshanteraren går du till Azure AI Foundry Portal och väljer knappen Distributioner . Välj sedan Distribuera modell.

En skärmbild av skärmen för modelldistribution.

Välj en modell och klicka på Bekräfta. Välj en distributionstyp för provisionerad genomströmning. När du har fyllt i in- och utdata för TPM-data i den inbyggda kapacitetskalkylatorn väljer du knappen Beräkna för att visa PTU-allokeringsrekommenderingen.

En skärmbild av PTU-kapacitetskalkylatorn för distributionsarbetsflödet.

Om du vill uppskatta etablerad kapacitet med hjälp av data på begäransnivå öppnar du kapacitetshanteraren i Azure AI Foundry. Kapacitetskalkylatorn finns i Management Center>Quota>Provisioned Throughput.

Alternativet Etablerat dataflöde och kalkylatorn är endast tillgängliga i vissa regioner i fönstret Kvot, om du inte ser det här alternativet om du anger kvotregionen till Sverige central gör det här alternativet tillgängligt. Ange följande parametrar baserat på din arbetsbelastning.

Inmatning Beskrivning
Modell modell som du planerar att använda. Exempel: GPT-4
Utgåva Version av den modell som du planerar att använda, till exempel 0614
Högsta antal anrop per minut Antalet anrop per minut som förväntas skickas till modellen
Token i promptanrop Antalet tokens i prompten, vid varje anrop till modellen. Samtal med större uppmaningar förbrukar mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.
Token i modellsvar Antalet token som genereras från varje anrop till modellen. Anrop med större generationsstorlekar använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen.

När du har fyllt i nödvändig information väljer du knappen Beräkna i utdatakolumnen.

Värdena i utdatakolumnen är det uppskattade värdet för PTU-enheter som krävs för de angivna arbetsbelastningsindata. Det första utdatavärdet representerar de uppskattade mängder PTU-enheter som krävs för arbetsbelastningen och är avrundade till närmaste steg på PTU-skalan. Det andra utdatavärdet representerar de råa uppskattade PTU-enheter som krävs för arbetsbelastningen. Tokensummorna beräknas med hjälp av följande ekvation: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Skärmbild av kapacitetskalkylatorn

Anmärkning

Kapacitetskalkylatorerna ger en uppskattning baserat på enkla indatakriterier. Det mest exakta sättet att fastställa din kapacitet är att jämföra en distribution med en representationsarbetsbelastning för ditt användningsfall.

Azure-reservationer för Azure AI Foundry – tilldelad genomströmning

Rabatter utöver användningspriset per timme kan erhållas genom att köpa en Azure-reservation för Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned. En Azure-reservation är en mekanism för termrabatter som delas av många Azure-produkter. Till exempel Compute och Cosmos DB. För Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned ger reservationen rabatt i utbyte mot betalning för fast antal PTU:er under en månad eller ettårsperiod. 

  • Azure-reservationer köps via Azure-portalen, inte via Azure AI Foundry-portalen Länk till Azure-reservationsportalen.

  • Reservationer köps regionalt och kan omfångsbegränsas flexibelt för att täcka användning från en grupp med distributioner. Bland reservationsomfången finns:

    • Enskilda resursgrupper eller prenumerationer

    • En prenumerationgrupp inom en administratörsgrupp

    • Alla prenumerationer i ett faktureringskonto

  • Nya reservationer kan köpas för att täcka samma omfång som befintliga reservationer, så att nya etablerade distributioner kan rabatteras. Omfånget för befintliga reservationer kan också uppdateras när som helst utan påföljd, till exempel för att täcka en ny prenumeration.

  • Reservationer för globala distributioner, datazoner och regionala distributioner är inte utbytbara. Du måste köpa en separat reservation för varje distributionstyp.

  • Reservationer kan avbrytas efter köpet, men krediterna är begränsade.

  • Om storleken på tilldelade distributioner inom omfånget för en reservation överskrider reservationens storlek, debiteras överskottet enligt timpriset. Om distributioner som till exempel uppgår till 250 PTU:er finns inom ramen för en 200 PTU-reservation debiteras 50 PTU:er per timme tills distributionsstorlekarna minskas till 200 PTU:er, eller så skapas en ny reservation för att täcka de återstående 50.

  • Reservationer garanterar ett rabatterat pris för den valda termen.  De reserverar inte kapacitet för tjänsten eller garanterar att den blir tillgänglig när en distribution skapas. Vi rekommenderar starkt att kunder skapar distributioner innan de köper en reservation för att förhindra att en reservation överköps.

Viktigt!

  • Kapacitetstillgängligheten för modelldistributioner är dynamisk och ändras ofta mellan regioner och modeller. Om du vill förhindra att du köper en reservation för fler PTUs än du kan använda skapar du distributioner först och köper sedan Azure-reservationen för att täcka de PTU:er som du har distribuerat. Den här bästa metoden säkerställer att du kan dra full nytta av reservationsrabatten och hindra dig från att köpa ett åtagande som du inte kan använda.

  • Kraven på Azure-roll- och klientorganisationsprincip för att köpa en reservation skiljer sig från vad som krävs för att skapa en distributions- eller Azure AI Foundry-resurs. Kontrollera auktoriseringen för att köpa reservationer i förväg om du behöver göra det. Mer information finns i Azure AI Foundry Provisionerad Genomflödesreservation.

Viktigt: dimensionering av Azure AI Foundry förkonfigurerad genomströmning för bokning

Mängden PTU i reservationsköp är oberoende av PTU:er som har allokerats i kvoter eller används i utplaceringar. Det går att köpa en reservation för fler PTUs än vad du har i kvoten, eller distribuera för önskad region, modell eller version. Krediterna för överköp av en reservation är begränsade och kunderna måste vidta åtgärder för att säkerställa att de behåller sina reservationsstorlekar i enlighet med sina distribuerade PTU:er.

Det bästa sättet är att alltid köpa en reservation när distributioner har skapats. Detta förhindrar köp av en reservation och tar sedan reda på att den kapacitet som krävs inte är tillgänglig för önskad region eller modell.

Reservationer för globala distributioner, datazoner och regionala distributioner är inte utbytbara. Du måste köpa en separat reservation för varje distributionstyp.

För att hjälpa kunder att köpa rätt reservationsbelopp. Det totala antalet PTU:er i en prenumeration och region som kan omfattas av en reservation visas på sidan Kvoter i Azure AI Foundry. Se meddelandet "PTU:er tillgängliga för reservation".

En skärmbild som visar tillgänglig PTU-kvot.

Hantera Azure-reservationer

När en reservation har skapats är det en bra praxis att övervaka den för att säkerställa att den får den användning du förväntar dig. Detta kan göras via Azure-reservationsportalen eller Azure Monitor. Information om dessa artiklar och andra finns här:

Nästa steg