Onboarding van ingerichte doorvoereenheden

Artikel
30/01/2025

Dit artikel begeleidt u bij het onboardingproces voor ingerichte doorvoereenheden (PTU). Zodra u de eerste onboarding hebt voltooid, raden we u aan om te verwijzen naar de handleiding aan de slag met PTU.

Wanneer moet u ingerichte doorvoereenheden (PTU) gebruiken

Overweeg over te schakelen van standaardimplementaties naar ingerichte implementaties wanneer u goed gedefinieerde, voorspelbare doorvoer- en latentievereisten hebt. Dit gebeurt meestal wanneer de toepassing gereed is voor productie of al in productie is geïmplementeerd en er een goed begrip is van het verwachte verkeer. Hierdoor kunnen gebruikers de vereiste capaciteit nauwkeurig voorspellen en onverwachte facturering voorkomen.

Typische PTU-scenario's

Een toepassing die gereed is voor productie of in productie.
Een toepassing met voorspelbare capaciteits-/gebruiks verwachtingen.
Een toepassing heeft realtime/latentiegevoelige vereisten.

Notitie

In gebruiksscenario's voor functie-aanroepen en agentgebruik kan het tokengebruik variabel zijn. U moet inzicht hebben in het verwachte TPM-gebruik (Tokens Per Minuut) voordat u workloads naar PTU migreert.

Grootte en schatting: ingerichte implementaties

Het bepalen van de juiste hoeveelheid ingerichte doorvoer of PTU's die u nodig hebt voor uw workload is een essentiële stap voor het optimaliseren van de prestaties en kosten. Als u niet bekend bent met de verschillende methoden die beschikbaar zijn voor het schatten van doorvoer op systeemniveau, raadpleegt u de aanbevelingen voor de schatting van de doorvoer op systeemniveau in onze documentatie over prestaties en latentie. In deze sectie wordt beschreven hoe u Azure OpenAI-capaciteitscalculators gebruikt om het aantal PTU's te schatten dat nodig is om een bepaalde workload te ondersteunen.

Geschatte ingerichte doorvoereenheden en kosten

Als u een snelle schatting wilt maken voor uw workload met behulp van TPM voor invoer en uitvoer, maakt u gebruik van de ingebouwde capaciteitsplanner in het gedeelte met implementatiedetails van het dialoogvenster voor implementatie. De ingebouwde capaciteitsplanner maakt deel uit van de implementatiewerkstroom om de grootte en toewijzing van quota aan een PTU-implementatie voor een bepaalde workload te stroomlijnen. Raadpleeg de aanbevelingen in onze documentatie over prestaties en latentie voor meer informatie over het identificeren en schatten van TPM-gegevens.

Nadat u de TPM-invoer- en uitvoergegevens hebt ingevuld in de ingebouwde capaciteitscalculator, selecteert u de knop Berekenen om de aanbeveling voor PTU-toewijzing weer te geven.

Schermopname van de PTU-capaciteitscalculator voor de implementatiewerkstroom.

Als u een schatting wilt maken van de ingerichte capaciteit met behulp van gegevens op aanvraagniveau, opent u de capaciteitsplanner in Azure AI Foundry. De capaciteitscalculator bevindt zich onder Het modelquotum>voor gedeelde resources>die door Azure OpenAI zijn ingericht.

De optie Ingericht en de capaciteitsplanner zijn alleen beschikbaar in bepaalde regio's in het deelvenster Quotum, als u deze optie niet ziet als u de quotumregio instelt op Zweden - centraal , maakt u deze optie beschikbaar. Voer de volgende parameters in op basis van uw workload.

Invoer	Beschrijving
Model	OpenAI-model dat u van plan bent te gebruiken. Bijvoorbeeld: GPT-4
Versie	Versie van het model dat u wilt gebruiken, bijvoorbeeld 0614
Piekgesprekken per minuut	Het aantal oproepen per minuut dat naar verwachting naar het model wordt verzonden
Tokens in promptoproep	Het aantal tokens in de prompt voor elke aanroep naar het model. Aanroepen met grotere prompts maken gebruik van meer van de PTU-implementatie. Op dit moment wordt uitgegaan van één promptwaarde, dus voor workloads met een brede variantie. We raden u aan uw implementatie te benchmarken voor uw verkeer om de meest nauwkeurige schatting te bepalen van de PTU die nodig is voor uw implementatie.
Tokens in modelantwoord	Het aantal tokens dat wordt gegenereerd op basis van elke aanroep naar het model. Aanroepen met grotere generatiegrootten maken gebruik van meer van de PTU-implementatie. Op dit moment wordt uitgegaan van één promptwaarde, dus voor workloads met een brede variantie. We raden u aan uw implementatie te benchmarken voor uw verkeer om de meest nauwkeurige schatting te bepalen van de PTU die nodig is voor uw implementatie.

Nadat u de vereiste gegevens hebt ingevuld, selecteert u de knop Berekenen in de uitvoerkolom.

De waarden in de uitvoerkolom zijn de geschatte waarde van PTU-eenheden die vereist zijn voor de opgegeven workloadinvoer. De eerste uitvoerwaarde vertegenwoordigt de geschatte PTU-eenheden die nodig zijn voor de workload, afgerond op de dichtstbijzijnde PTU-schaalverhoging. De tweede uitvoerwaarde vertegenwoordigt de onbewerkte geschatte PTU-eenheden die nodig zijn voor de workload. De tokentotalen worden berekend met behulp van de volgende vergelijking: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Notitie

De capaciteitscalculators bieden een schatting op basis van eenvoudige invoercriteria. De meest nauwkeurige manier om uw capaciteit te bepalen, is door een implementatie te benchmarken met een representatieworkload voor uw use-case.

Inzicht in het ingerichte aankoopmodel voor doorvoer

Azure OpenAI Ingericht, Ingerichte gegevenszone en Global Provisioned worden op elk uur op aanvraag aangeschaft op basis van het aantal geïmplementeerde PTU's, met aanzienlijke termijnkorting die beschikbaar is via de aankoop van Azure-reserveringen.

Het uurmodel is handig voor kortetermijnimplementatiebehoeften, zoals het valideren van nieuwe modellen of het verkrijgen van capaciteit voor een hackathon.  De kortingen die worden geboden door azure Reservation for Azure OpenAI Provisioned, Data Zone Provisioned en Global Provisioned zijn echter aanzienlijk en de meeste klanten met consistent gebruik op lange termijn vinden een gereserveerd model om een betere waardepropositie te zijn.

Notitie

Azure OpenAI-ingerichte klanten die vóór de selfservice-update van augustus zijn geïmplementeerd, gebruiken een aankoopmodel met de naam het Commitment-model. Deze klanten kunnen dit oudere aankoopmodel blijven gebruiken naast het aankoopmodel per uur/reservering. Het Commitment-model is niet beschikbaar voor nieuwe klanten of nieuwe modellen die na augustus 2024 zijn geïntroduceerd. Zie de update van Azure OpenAI ingericht voor augustus voor meer informatie over het aankoopmodel en de opties voor co-existentie en migratie.

Gebruik per uur

Ingerichte, ingerichte gegevenszone en globale ingerichte implementaties worden een uurtarief ($/PTU/hr) in rekening gebracht op het aantal PTU's dat is geïmplementeerd.  Een 300 PTU-implementatie wordt bijvoorbeeld in rekening gebracht voor het uurtarief van 300.  Alle Prijzen van Azure OpenAI zijn beschikbaar in de Azure-prijscalculator.

Als er een implementatie voor een gedeeltelijk uur bestaat, ontvangt deze een pro rato kosten op basis van het aantal minuten dat deze tijdens het uur is geïmplementeerd.  Een implementatie die gedurende 15 minuten gedurende een uur bestaat, ontvangt bijvoorbeeld 1/4e kosten per uur. 

Als de implementatiegrootte wordt gewijzigd, worden de kosten van de implementatie aangepast aan het nieuwe aantal PTU's.

Betalen voor ingerichte, ingerichte en wereldwijde ingerichte implementaties per uur is ideaal voor implementatiescenario's op korte termijn.  Bijvoorbeeld: Kwaliteits- en prestatiebenchmarking van nieuwe modellen, of het tijdelijk verhogen van de PTU-capaciteit om een evenement zoals een hackathon te dekken. 

Klanten die langetermijngebruik van ingerichte, ingerichte en globale ingerichte implementaties met een gegevenszone vereisen, kunnen echter aanzienlijk minder per maand betalen door een termijnkorting te kopen via Azure-reserveringen, zoals beschreven in de volgende sectie.

Notitie

Het wordt niet aanbevolen om productie-implementaties te schalen op basis van inkomend verkeer en deze uitsluitend per uur te betalen. Hiervoor zijn twee redenen:

De kostenbesparingen die worden bereikt door het aanschaffen van Azure-reserveringen voor Azure OpenAI Ingericht, Data Zone Provisioned en Global Provisioned zijn aanzienlijk. In veel gevallen is het minder duur om een implementatiegrootte te behouden voor het volledige productievolume dat via een reservering wordt betaald dan het schalen van de implementatie met binnenkomend verkeer.
Het niet-gebruikte ingerichte quotum (PTU's) garandeert niet dat de capaciteit beschikbaar is ter ondersteuning van een toename van de implementatie wanneer dat nodig is. Quotum beperkt het maximum aantal PTU's dat kan worden geïmplementeerd, maar het is geen capaciteitsgarantie. De ingerichte capaciteit voor elke regio en elk model wordt de hele dag dynamisch gewijzigd en is mogelijk niet beschikbaar wanneer dat nodig is. Als gevolg hiervan wordt aanbevolen om een permanente implementatie te onderhouden om uw verkeersbehoeften te dekken (betaald via een reservering).
De kosten voor implementaties op een verwijderde resource worden voortgezet totdat de resource is opgeschoond. U kunt dit voorkomen door de implementatie van een resource te verwijderen voordat u de resource verwijdert. Zie Azure AI-servicesresources herstellen of opschonen voor meer informatie.

Azure-reserveringen voor door Azure OpenAI ingerichte implementaties

Kortingen boven op de gebruiksprijs per uur kunnen worden verkregen door een Azure-reservering aan te schaffen voor Azure OpenAI Ingericht, Data Zone Provisioned en Global Provisioned. Een Azure-reservering is een mechanisme voor termkorting dat wordt gedeeld door veel Azure-producten. Bijvoorbeeld Compute en Cosmos DB. Voor Azure OpenAI Ingericht, Data Zone Provisioned en Global Provisioned biedt de reservering een korting in ruil voor betaling voor vast aantal PTU's voor een periode van één maand of één jaar. 

Azure-reserveringen worden aangeschaft via De Azure-portal, niet via azure AI Foundry Portal Link naar azure-reserveringsportal.
Reserveringen worden regionaal aangeschaft en kunnen flexibel worden afgestemd op het gebruik van een groep implementaties. Reserveringsbereiken zijn onder andere:
- Afzonderlijke resourcegroepen of abonnementen
- Een groep abonnementen in een beheergroep
- Alle abonnementen in een factureringsrekening
Nieuwe reserveringen kunnen worden aangeschaft om hetzelfde bereik te dekken als bestaande reserveringen, om korting op nieuwe ingerichte implementaties mogelijk te maken. Het bereik van bestaande reserveringen kan ook op elk gewenst moment worden bijgewerkt zonder boete, bijvoorbeeld om een nieuw abonnement te dekken.
Reserveringen voor globale implementaties, gegevenszones en regionale implementaties zijn niet uitwisselbaar. U moet een afzonderlijke reservering aanschaffen voor elk implementatietype.
Reserveringen kunnen na aankoop worden geannuleerd, maar tegoeden zijn beperkt.
Als de grootte van ingerichte implementaties binnen het bereik van een reservering het bedrag van de reservering overschrijdt, wordt het overschot in rekening gebracht tegen het uurtarief. Als er bijvoorbeeld implementaties van maximaal 250 PTU's bestaan binnen het bereik van een PTU-reservering van 200, worden 50 PTU's per uur in rekening gebracht totdat de implementatiegrootten worden teruggebracht tot 200 PTU's, of als er een nieuwe reservering wordt gemaakt om de resterende 50 te dekken.
Reserveringen garanderen een kortingsprijs voor de geselecteerde termijn.  Ze reserveren geen capaciteit voor de service of garanderen dat deze beschikbaar is wanneer een implementatie wordt gemaakt. Het wordt ten zeerste aanbevolen dat klanten implementaties maken voordat ze een reservering kopen om te voorkomen dat een reservering te veel wordt gekocht.

Belangrijk

De beschikbaarheid van capaciteit voor modelimplementaties is dynamisch en verandert vaak in regio's en modellen. Als u wilt voorkomen dat u een reservering koopt voor meer PPU's dan u kunt gebruiken, maakt u eerst implementaties en koopt u vervolgens de Azure-reservering om de PTU's te dekken die u hebt geïmplementeerd. Deze best practice zorgt ervoor dat u volledig kunt profiteren van de reserveringskorting en kunt voorkomen dat u een termijntoezegging koopt die u niet kunt gebruiken.
De azure-rol- en tenantbeleidsvereisten voor het aanschaffen van een reservering verschillen van de vereisten voor het maken van een implementatie of Azure OpenAI-resource. Controleer de autorisatie om reserveringen aan te schaffen voordat u dit nodig hebt. Zie de documentatie voor ingerichte azure OpenAI-reserveringen voor meer informatie.

Belangrijk: het aanpassen van de grootte van ingerichte Azure OpenAI-reserveringen

De PTU-bedragen in reserveringsaankopen zijn onafhankelijk van PTU's die zijn toegewezen in quotum of worden gebruikt in implementaties. Het is mogelijk om een reservering aan te schaffen voor meer PTU's dan u hebt in quotum of om te implementeren voor de gewenste regio, het gewenste model of de gewenste versie. Tegoed voor over-aankoop van een reservering is beperkt en klanten moeten stappen ondernemen om ervoor te zorgen dat ze hun reserveringsgrootten behouden in overeenstemming met hun geïmplementeerde PTU's.

De aanbevolen procedure is om altijd een reservering te kopen nadat implementaties zijn gemaakt. Hiermee voorkomt u dat u een reservering aanschaft en vervolgens erachter komt dat de vereiste capaciteit niet beschikbaar is voor de gewenste regio of het gewenste model.

Reserveringen voor globale implementaties, gegevenszones en regionale implementaties zijn niet uitwisselbaar. U moet een afzonderlijke reservering aanschaffen voor elk implementatietype.

Om klanten te helpen bij het kopen van de juiste reserveringsbedragen. Het totale aantal PTU's in een abonnement en regio dat kan worden gedekt door een reservering, worden weergegeven op de pagina Quota van Azure AI Foundry. Zie het bericht 'PTU's beschikbaar voor reservering'.

Azure-reserveringen beheren

Nadat een reservering is gemaakt, is het een best practice om ervoor te zorgen dat deze het gebruik ontvangt dat u verwacht. Dit kan worden gedaan via de Azure Reservation Portal of Azure Monitor. Meer informatie over deze artikelen en anderen vindt u hier:

Volgende stappen

Aanvullende resources

Documentatie

Ingerichte doorvoer van Azure OpenAI Service - Azure AI services

Meer informatie over ingerichte doorvoer en Azure OpenAI.
Quickstart: Aan de slag met ingerichte implementaties met De Azure OpenAI-service - Azure OpenAI Service

Stapsgewijze instructies voor het aan de slag gaan met ingerichte implementaties in Azure OpenAI Service.
Azure OpenAI ingericht in augustus 2024 - Azure OpenAI

Meer informatie over de verbeteringen in ingerichte doorvoer
Overgang naar ingerichte openAI-implementatiereserveringen - Microsoft Cost Management

Meer informatie over het overstappen op ingerichte implementatiereserveringen van Azure OpenAI Service, inclusief nieuwe algemene opties en opties voor gegevenszones.
Azure OpenAI ingericht in december 2024 - Azure OpenAI

Meer informatie over nieuwe ingerichte SKU's en commerciële wijzigingen voor ingerichte aanbiedingen
Prestaties en latentie van Azure OpenAI-service - Azure OpenAI

Meer informatie over prestaties en latentie met Azure OpenAI
Kosten beheren voor Azure OpenAI Service - Azure AI services

Meer informatie over het plannen en beheren van kosten voor Azure OpenAI met behulp van kostenanalyse in Azure Portal.
Kosten besparen met ingerichte reserveringen van Microsoft Azure OpenAI Service - Microsoft Cost Management

Bespaar kosten met ingerichte Reserveringen van Microsoft Azure OpenAI Service door een reservering vast te leggen voor uw ingerichte doorvoereenheden.

Training

Module

Uitgaven en prestaties optimaliseren met ingerichte reserveringen van Azure OpenAI Service - Training

In deze module maakt u kennis met ingerichte implementaties in Azure OpenAI-services.

Certificering

Microsoft Certified: Basisprincipes van Azure AI - Certifications

Demonstreert fundamentele AI-concepten met betrekking tot de ontwikkeling van software en services van Microsoft Azure om AI-oplossingen te maken.

Share via

Onboarding van ingerichte doorvoereenheden

Wanneer moet u ingerichte doorvoereenheden (PTU) gebruiken

Typische PTU-scenario's

Grootte en schatting: ingerichte implementaties

Geschatte ingerichte doorvoereenheden en kosten

Inzicht in het ingerichte aankoopmodel voor doorvoer

Gebruik per uur

Azure-reserveringen voor door Azure OpenAI ingerichte implementaties

Belangrijk: het aanpassen van de grootte van ingerichte Azure OpenAI-reserveringen

Volgende stappen

Feedback

Aanvullende resources