Share via


Onboarding van ingerichte doorvoereenheden

Dit artikel begeleidt u bij het onboardingproces voor ingerichte doorvoereenheden (PTU). Zodra u de eerste onboarding hebt voltooid, raden we u aan om te verwijzen naar de handleiding aan de slag met PTU.

Wanneer moet u ingerichte doorvoereenheden (PTU) gebruiken

Overweeg om over te schakelen van betalen per gebruik naar ingerichte doorvoer wanneer u goed gedefinieerde, voorspelbare doorvoervereisten hebt. Dit gebeurt meestal wanneer de toepassing gereed is voor productie of al in productie is geïmplementeerd en er een goed begrip is van het verwachte verkeer. Hierdoor kunnen gebruikers de vereiste capaciteit nauwkeurig voorspellen en onverwachte facturering voorkomen.

Typische PTU-scenario's

  • Een toepassing die gereed is voor productie of in productie.
  • Een toepassing met voorspelbare capaciteits-/gebruiks verwachtingen.
  • Een toepassing heeft realtime/latentiegevoelige vereisten.

Notitie

In gebruiksscenario's voor functie-aanroepen en agentgebruik kan het tokengebruik variabel zijn. U moet inzicht hebben in het verwachte TPM-gebruik (Tokens Per Minuut) voordat u workloads naar PTU migreert.

Grootte en schatting: ingericht en globaal ingericht

Het bepalen van de juiste hoeveelheid ingerichte doorvoer of PTU's die u nodig hebt voor uw workload is een essentiële stap voor het optimaliseren van de prestaties en kosten. In deze sectie wordt beschreven hoe u het azure OpenAI-hulpprogramma voor capaciteitsplanning gebruikt. Het hulpprogramma biedt u een schatting van de vereiste PTU om te voldoen aan de behoeften van uw workload.

Geschatte ingerichte doorvoer en kosten

Als u een snelle schatting wilt maken voor uw workload, opent u de capaciteitsplanner in Azure OpenAI Studio. De capaciteitsplanner bevindt zich onder Het quotum voor>gedeelde resources>dat Door Azure OpenAI is ingericht.

De optie Ingericht en de capaciteitsplanner zijn alleen beschikbaar in bepaalde regio's in het deelvenster Quotum, als u deze optie niet ziet als u de quotumregio instelt op Zweden - centraal , maakt u deze optie beschikbaar. Voer de volgende parameters in op basis van uw workload.

Invoer Beschrijving
Model OpenAI-model dat u van plan bent te gebruiken. Bijvoorbeeld: GPT-4
Versie Versie van het model dat u wilt gebruiken, bijvoorbeeld 0614
Piekgesprekken per minuut Het aantal oproepen per minuut dat naar verwachting naar het model wordt verzonden
Tokens in promptoproep Het aantal tokens in de prompt voor elke aanroep naar het model. Aanroepen met grotere prompts maken gebruik van meer van de PTU-implementatie. Op dit moment wordt uitgegaan van één promptwaarde, dus voor workloads met een brede variantie. We raden u aan uw implementatie te benchmarken voor uw verkeer om de meest nauwkeurige schatting te bepalen van de PTU die nodig is voor uw implementatie.
Tokens in modelantwoord Het aantal tokens dat wordt gegenereerd op basis van elke aanroep naar het model. Aanroepen met grotere generatiegrootten maken gebruik van meer van de PTU-implementatie. Op dit moment wordt uitgegaan van één promptwaarde, dus voor workloads met een brede variantie. We raden u aan uw implementatie te benchmarken voor uw verkeer om de meest nauwkeurige schatting te bepalen van de PTU die nodig is voor uw implementatie.

Nadat u de vereiste gegevens hebt ingevuld, selecteert u de knop Berekenen in de uitvoerkolom.

De waarden in de uitvoerkolom zijn de geschatte waarde van PTU-eenheden die vereist zijn voor de opgegeven workloadinvoer. De eerste uitvoerwaarde vertegenwoordigt de geschatte PTU-eenheden die nodig zijn voor de workload, afgerond op de dichtstbijzijnde PTU-schaalverhoging. De tweede uitvoerwaarde vertegenwoordigt de onbewerkte geschatte PTU-eenheden die nodig zijn voor de workload. De tokentotalen worden berekend met behulp van de volgende vergelijking: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Schermopname van de landingspagina van Azure OpenAI Studio.

Notitie

De capaciteitscalculator biedt een schatting op basis van eenvoudige invoercriteria. De meest nauwkeurige manier om uw capaciteit te bepalen, is door een implementatie te benchmarken met een representatieworkload voor uw use-case.

Inzicht in het aankoopmodel van Provisioned voor doorvoer

Azure OpenAI Ingericht en Global Provisiones worden op uurbasis op aanvraag aangeschaft op basis van het aantal geïmplementeerde PKU's, met aanzienlijke termijnkorting die beschikbaar is via de aankoop van Azure-reserveringen.

Het uurmodel is handig voor kortetermijnimplementatiebehoeften, zoals het valideren van nieuwe modellen of het verkrijgen van capaciteit voor een hackathon.  De kortingen die worden geboden door de Azure Reservation for Azure OpenAI Provisioned and Global Provisioned zijn echter aanzienlijk en de meeste klanten met consistent gebruik op lange termijn vinden een gereserveerd model om een betere waardepropositie te zijn.

Notitie

Azure OpenAI-ingerichte klanten die vóór de selfservice-update van augustus zijn geïmplementeerd, gebruiken een aankoopmodel met de naam het Commitment-model. Deze klanten kunnen dit oudere aankoopmodel blijven gebruiken naast het aankoopmodel per uur/reservering. Het Commitment-model is niet beschikbaar voor nieuwe klanten. Zie de update van Azure OpenAI ingericht voor augustus voor meer informatie over het aankoopmodel en de opties voor co-existentie en migratie.

Gebruik per uur

Ingerichte en wereldwijd ingerichte implementaties worden een uurtarief ($/PTU/hr) in rekening gebracht op het aantal PTU's dat is geïmplementeerd.  Een 300 PTU-implementatie wordt bijvoorbeeld in rekening gebracht voor het uurtarief van 300.  Alle Prijzen van Azure OpenAI zijn beschikbaar in de Azure-prijscalculator.

Als er een implementatie voor een gedeeltelijk uur bestaat, ontvangt deze een pro rato kosten op basis van het aantal minuten dat deze tijdens het uur is geïmplementeerd.  Een implementatie die gedurende 15 minuten gedurende een uur bestaat, ontvangt bijvoorbeeld 1/4e kosten per uur. 

Als de implementatiegrootte wordt gewijzigd, worden de kosten van de implementatie aangepast aan het nieuwe aantal PTU's.

Een diagram met facturering per uur.

Betalen voor ingerichte en wereldwijde ingerichte implementaties op uurbasis is ideaal voor scenario's voor korte implementaties.  Bijvoorbeeld: Kwaliteits- en prestatiebenchmarking van nieuwe modellen, of het tijdelijk verhogen van de PTU-capaciteit om een evenement zoals een hackathon te dekken. 

Klanten die langetermijngebruik van ingerichte en globale ingerichte implementaties vereisen, betalen echter mogelijk aanzienlijk minder per maand door een termijnkorting te kopen via een Azure-reservering, zoals beschreven in de volgende sectie.

Notitie

Het wordt niet aanbevolen om productie-implementaties te schalen op basis van inkomend verkeer en deze uitsluitend per uur te betalen. Hiervoor zijn twee redenen:

  • De kostenbesparingen die worden bereikt door het aanschaffen van een Azure-reservering voor Azure OpenAI ingericht, zijn aanzienlijk en het is in veel gevallen minder duur om een implementatiegrootte te onderhouden voor het volledige productievolume dat via een reservering wordt betaald dan het schalen van de implementatie met binnenkomend verkeer.
  • Als ongebruikt ingerichte quotum (PTU's) niet beschikbaar is, is deze capaciteit niet beschikbaar ter ondersteuning van het vergroten van de implementatie wanneer dat nodig is. Quotum beperkt het maximum aantal PTU's dat kan worden geïmplementeerd, maar het is geen capaciteitsgarantie. De ingerichte capaciteit voor elke regio en modaal wordt de hele dag dynamisch gewijzigd en is mogelijk niet beschikbaar wanneer dat nodig is. Als gevolg hiervan wordt aanbevolen om een permanente implementatie te onderhouden om uw verkeersbehoeften te dekken (betaald via een reservering).
  • De kosten voor implementaties op een verwijderde resource worden voortgezet totdat de resource is opgeschoond. U kunt dit voorkomen door de implementatie van een resource te verwijderen voordat u de resource verwijdert. Zie Azure AI-servicesresources herstellen of opschonen voor meer informatie.

Azure-reserveringen voor azure OpenAI ingericht en globaal ingericht

Kortingen boven op de gebruiksprijs per uur kunnen worden verkregen door een Azure-reservering aan te schaffen voor Azure OpenAI Ingericht en Globaal ingericht. Een Azure-reservering is een mechanisme voor termkorting dat wordt gedeeld door veel Azure-producten. Bijvoorbeeld Compute en Cosmos DB. Voor Azure OpenAI ingericht en globaal ingericht biedt de reservering een korting voor het doorvoeren van betaling voor een vast aantal PTU's voor een periode van één maand of één jaar. 

  • Azure-reserveringen worden aangeschaft via Azure Portal, niet via Azure OpenAI Studio Link naar de Azure-reserveringsportal.

  • Reserveringen worden regionaal aangeschaft en kunnen flexibel worden afgestemd op het gebruik van een groep implementaties. Reserveringsbereiken zijn onder andere:

    • Afzonderlijke resourcegroepen of abonnementen

    • Een groep abonnementen in een beheergroep

    • Alle abonnementen in een factureringsrekening

  • Nieuwe reserveringen kunnen worden aangeschaft om hetzelfde bereik te dekken als bestaande reserveringen, om korting op nieuwe ingerichte implementaties mogelijk te maken. Het bereik van bestaande reserveringen kan ook op elk gewenst moment worden bijgewerkt zonder boete, bijvoorbeeld om een nieuw abonnement te dekken.

  • Reserveringen kunnen na aankoop worden geannuleerd, maar tegoeden zijn beperkt.

  • Als de grootte van ingerichte implementaties binnen het bereik van een reservering het bedrag van de reservering overschrijdt, wordt het overschot in rekening gebracht tegen het uurtarief. Als er bijvoorbeeld implementaties van maximaal 250 PTU's bestaan binnen het bereik van een PTU-reservering van 200, worden 50 PTU's per uur in rekening gebracht totdat de implementatiegrootten worden teruggebracht tot 200 PTU's, of als er een nieuwe reservering wordt gemaakt om de resterende 50 te dekken.

  • Reserveringen garanderen een kortingsprijs voor de geselecteerde termijn.  Ze reserveren geen capaciteit voor de service of garanderen dat deze beschikbaar is wanneer een implementatie wordt gemaakt. Het wordt ten zeerste aanbevolen dat klanten implementaties maken voordat ze een reservering kopen om te voorkomen dat een reservering te veel wordt gekocht.

Belangrijk

  • De beschikbaarheid van capaciteit voor modelimplementaties is dynamisch en verandert vaak in regio's en modellen. Als u wilt voorkomen dat u een reservering koopt voor meer PPU's dan u kunt gebruiken, maakt u eerst implementaties en koopt u vervolgens de Azure-reservering om de PTU's te dekken die u hebt geïmplementeerd. Deze best practice zorgt ervoor dat u volledig kunt profiteren van de reserveringskorting en kunt voorkomen dat u een termijntoezegging koopt die u niet kunt gebruiken.

  • De azure-rol- en tenantbeleidsvereisten voor het aanschaffen van een reservering verschillen van de vereisten voor het maken van een implementatie of Azure OpenAI-resource. Controleer de autorisatie om reserveringen aan te schaffen voordat u dit nodig hebt. Zie de documentatie voor ingerichte azure OpenAI-reserveringen voor meer informatie.

Belangrijk: De grootte van Azure OpenAI inrichten en globale ingerichte reserveringen

De PTU-bedragen in reserveringsaankopen zijn onafhankelijk van PTU's die zijn toegewezen in quotum of worden gebruikt in implementaties. Het is mogelijk om een reservering aan te schaffen voor meer PTU's dan u hebt in quotum of om te implementeren voor de gewenste regio, het gewenste model of de gewenste versie. Tegoed voor over-aankoop van een reservering is beperkt en klanten moeten stappen ondernemen om ervoor te zorgen dat ze hun reserveringsgrootten behouden in overeenstemming met hun geïmplementeerde PTU's.

De aanbevolen procedure is om altijd een reservering te kopen nadat implementaties zijn gemaakt. Hiermee voorkomt u dat u een reservering aanschaft en vervolgens erachter komt dat de vereiste capaciteit niet beschikbaar is voor de gewenste regio of het gewenste model.

Om klanten te helpen bij het kopen van de juiste reserveringsbedragen. Het totale aantal PTU's in een abonnement en regio dat kan worden gedekt door een reservering, worden weergegeven op de pagina Quota van Azure OpenAI Studio. Zie het bericht 'PTU's beschikbaar voor reservering'.

Een schermopname van het beschikbare PTU-quotum.

Azure-reserveringen beheren

Nadat een reservering is gemaakt, is het een best practice om ervoor te zorgen dat deze het gebruik ontvangt dat u verwacht. Dit kan worden gedaan via de Azure Reservation Portal of Azure Monitor. Meer informatie over deze onderwerpen en anderen vindt u hier:

Volgende stappen