Azure OpenAI-implementatietypen
Azure OpenAI biedt klanten keuzes in de hostingstructuur die past bij hun bedrijfs- en gebruikspatronen. De service biedt twee hoofdtypen implementatie: standaard en ingericht. Standard wordt aangeboden met een globale implementatieoptie, waarbij verkeer wereldwijd wordt gerouteerd om een hogere doorvoer te bieden. Alle implementaties kunnen exact dezelfde deductiebewerkingen uitvoeren, maar de facturering, schaal en prestaties verschillen aanzienlijk. Als onderdeel van uw oplossingsontwerp moet u twee belangrijke beslissingen nemen:
- Gegevenslocatiebehoeften: globale versus regionale resources
- Oproepvolume: standaard versus ingericht
Globale versus regionale implementatietypen
Voor standaardimplementaties hebt u een optie van twee typen configuraties binnen uw resource: globaal of regionaal. Globale standaard is het aanbevolen uitgangspunt voor ontwikkeling en experimenten. Globale implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Bij wereldwijde implementaties zijn er hogere initiële doorvoerlimieten, hoewel uw latentie kan variëren op hoog gebruiksniveau. Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.
Onze wereldwijde implementaties zijn de eerste locatie voor alle nieuwe modellen en functies. Klanten met zeer grote doorvoervereisten moeten rekening houden met ons ingerichte implementatieaanbod.
Implementatietypen
Azure OpenAI biedt drie typen implementaties. Deze bieden een gevarieerd niveau van mogelijkheden die afwegingen bieden: doorvoer, SLA's en prijs. Hieronder ziet u een overzicht van de opties, gevolgd door een diepere beschrijving van elk van deze opties.
Biedt | Global-Standard1 | Standaard | Ingericht |
---|---|---|---|
Meest geschikt voor | Toepassingen waarvoor geen gegevenslocatie is vereist. Aanbevolen uitgangspunt voor klanten. | Voor klanten met vereisten voor gegevenslocatie. Geoptimaliseerd voor laag tot gemiddeld volume. | Realtime scoren voor een groot consistent volume. Omvat de hoogste toezeggingen en limieten. |
Hoe werkt het? | Verkeer kan overal ter wereld worden gerouteerd | ||
Aan de slag | Modelimplementatie | Modelimplementatie | Ingerichte onboarding |
Kosten | Basislijn | Regionale prijzen | Kan kostenbesparingen ervaren voor consistent gebruik |
Wat u krijgt | Eenvoudige toegang tot alle nieuwe modellen met de hoogste standaardlimieten voor betalen per oproep. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien |
Eenvoudige toegang met SLA op beschikbaarheid. Geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren. |
Regionale toegang met zeer hoge en voorspelbare doorvoer. De doorvoer per PTU bepalen met behulp van de opgegeven capaciteitscalculator |
Wat je niet krijgt | ❌Garanties voor gegevenslocatie | ❌Hoog volume met consistente lage latentie | ❌Flexibiliteit voor betalen per gesprek |
Latentie per aanroep | Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld | Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld | Geoptimaliseerd voor realtime. |
SKU-naam in code | GlobalStandard |
Standard |
ProvisionedManaged |
Factureringsmodel | Betalen per token | Betalen per token | Maandelijkse toezeggingen |
1 Global-Standard-implementatietype is momenteel beschikbaar als preview-versie.
Ingericht
Met ingerichte implementaties kunt u de hoeveelheid doorvoer opgeven die u nodig hebt in een implementatie. De service wijst vervolgens de benodigde modelverwerkingscapaciteit toe en zorgt ervoor dat deze gereed is voor u. Doorvoer wordt gedefinieerd in termen van ingerichte doorvoereenheden (PTU). Dit is een genormaliseerde manier om de doorvoer voor uw implementatie weer te geven. Elk modelversiepaar vereist verschillende hoeveelheden PTU om per PTU te implementeren en verschillende hoeveelheden doorvoer per PTU te bieden. Meer informatie vindt u in het artikel Ingerichte doorvoerconcepten.
Standaard
Standaardimplementaties bieden een factureringsmodel voor betalen per aanroep op het gekozen model. Biedt de snelste manier om aan de slag te gaan, omdat u alleen betaalt voor wat u verbruikt. Modellen die beschikbaar zijn in elke regio en de doorvoer kunnen worden beperkt.
Standaardimplementaties zijn geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.
Algemene standaard (preview)
Globale implementaties zijn beschikbaar in dezelfde Azure OpenAI-resources als niet-globale aanbiedingen, maar bieden u de mogelijkheid om de globale infrastructuur van Azure te gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale standaard biedt het hoogste standaardquotum voor nieuwe modellen en elimineert de noodzaak om taken te verdelen over meerdere resources.
Het implementatietype is geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren. De drempelwaarde wordt per model ingesteld. Zie de pagina quota voor meer informatie.
Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.
Toegang tot globale implementaties in uw abonnement uitschakelen
Met Azure Policy kunt u organisatiestandaarden afdwingen en compliance op schaal beoordelen. Via het compliancedashboard biedt het een geaggregeerde weergave om de algehele status van de omgeving te evalueren, met de mogelijkheid om in te zoomen op de granulariteit per resource, per beleid. Hiermee kunt u ook zorgen voor compliance van uw resources via bulkherstel voor bestaande resources en automatisch herstel voor nieuwe resources. Meer informatie over Azure Policy en specifieke ingebouwde besturingselementen voor AI-services.
U kunt het volgende beleid gebruiken om de toegang tot globale standaardimplementaties van Azure OpenAI uit te schakelen.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Modellen implementeren
Raadpleeg de handleiding voor het maken van resources voor meer informatie over het maken van resources en het implementeren van modellen.
Zie ook
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor