Azure OpenAI-implementatietypen

Artikel
10/16/2024

Azure OpenAI biedt klanten keuzes in de hostingstructuur die past bij hun bedrijfs- en gebruikspatronen. De service biedt twee hoofdtypen implementatie: standaard en ingericht. Standard wordt aangeboden met een globale implementatieoptie, waarbij verkeer wereldwijd wordt gerouteerd om een hogere doorvoer te bieden. Ingericht wordt ook aangeboden met een globale implementatieoptie, zodat klanten ingerichte doorvoereenheden kunnen aanschaffen en implementeren in de wereldwijde Infrastructuur van Azure. Alle implementaties kunnen exact dezelfde deductiebewerkingen uitvoeren, maar de facturering, schaal en prestaties verschillen aanzienlijk. Als onderdeel van uw oplossingsontwerp moet u twee belangrijke beslissingen nemen:

Gegevenslocatiebehoeften: globale versus regionale resources
Oproepvolume: standaard versus ingericht

Globale versus regionale implementatietypen

Voor standaardimplementaties en ingerichte implementaties hebt u een optie van twee typen configuraties binnen uw resource: globaal of regionaal. Globale standaard is het aanbevolen uitgangspunt.

Globale implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Dit betekent dat u de hoogste initiële doorvoerlimieten en de beste model beschikbaarheid krijgt met Global, terwijl u nog steeds onze SLA voor uptime en lage latentie levert. Voor workloads met een hoog volume boven de opgegeven gebruikslagen op standard en globale standaard kan er een grotere latentievariatie optreden. Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.

Onze wereldwijde implementaties zijn de eerste locatie voor alle nieuwe modellen en functies. Klanten met zeer grote doorvoervereisten moeten rekening houden met ons ingerichte implementatieaanbod.

Implementatietypen

Azure OpenAI biedt drie typen implementaties. Deze bieden een gevarieerd niveau van mogelijkheden die afwegingen bieden: doorvoer, SLA's en prijs. Hieronder ziet u een overzicht van de opties, gevolgd door een diepere beschrijving van elk van deze opties.

Offer	Global-Batch	Global-Standard	Globaal ingericht	Standaard	Ingericht
Meest geschikt voor	Offline scoren Workloads die niet latentiegevoelig zijn en die in uren kunnen worden voltooid. Voor gebruiksvoorbeelden die geen vereisten voor gegevensverwerking hebben.	Aanbevolen uitgangspunt voor klanten. Global Standard heeft het hogere standaardquotum en een groter aantal modellen dat beschikbaar is dan Standard.	Realtime scoren voor een groot consistent volume. Omvat de hoogste toezeggingen en limieten. Voor gebruiksvoorbeelden die geen vereisten voor gegevenslocatie hebben.	Voor klanten met vereisten voor gegevenslocatie. Geoptimaliseerd voor laag tot gemiddeld volume.	Realtime scoren voor een groot consistent volume. Omvat de hoogste toezeggingen en limieten. Voor use cases met vereisten voor gegevenslocatie
Hoe werkt het?	Offlineverwerking via bestanden	Verkeer kan overal ter wereld worden gerouteerd	Verkeer kan overal ter wereld worden gerouteerd
Aan de slag	Global-Batch	Modelimplementatie	Ingerichte onboarding	Modelimplementatie	Ingerichte onboarding
Kosten	Minst dure optie 50% minder kosten vergeleken met de prijzen van Global Standard. Toegang tot alle nieuwe modellen met grotere quotumtoewijzingen.	Prijzen voor wereldwijde implementatie	Kan kostenbesparingen ervaren voor consistent gebruik	Regionale prijzen	Kan kostenbesparingen ervaren voor consistent gebruik
Wat u krijgt	Aanzienlijke korting vergeleken met Global Standard	Eenvoudige toegang tot alle nieuwe modellen met de hoogste standaardlimieten voor betalen per oproep. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien	Toegang tot een hoge en voorspelbare doorvoer in de wereldwijde Infrastructuur van Azure. Bepaal de doorvoer per PTU met behulp van de opgegeven capaciteitscalculator.	Eenvoudige toegang met SLA op beschikbaarheid. Geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.	Regionale toegang met zeer hoge en voorspelbare doorvoer. De doorvoer per PTU bepalen met behulp van de opgegeven capaciteitscalculator
Wat je niet krijgt	❌Realtime gespreksprestaties ❌Garantie voor gegevensverwerking Gegevens die in rust zijn opgeslagen, blijven in de aangewezen Azure-geografie, terwijl gegevens kunnen worden verwerkt voor deductie op elke Azure OpenAI-locatie. Meer informatie over gegevenslocatie	❌Garantie voor gegevensverwerking Gegevens die in rust zijn opgeslagen, blijven in de aangewezen Azure-geografie, terwijl gegevens kunnen worden verwerkt voor deductie op elke Azure OpenAI-locatie. Meer informatie over gegevenslocatie	❌Flexibiliteit voor betalen per gesprek ❌Garantie voor gegevensverwerking Gegevens die in rust zijn opgeslagen, blijven in de aangewezen Azure-geografie, terwijl gegevens kunnen worden verwerkt voor deductie op elke Azure OpenAI-locatie. Meer informatie over gegevenslocatie	❌Hoog volume met consistente lage latentie	❌Flexibiliteit voor betalen per gesprek
Latentie per aanroep	Niet van toepassing (asynchroon proces op basis van bestanden)	Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld	Geoptimaliseerd voor realtime bellen en hoog volumegebruik.	Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld	Geoptimaliseerd voor realtime bellen en hoog volumegebruik.
SKU-naam in code	`GlobalBatch`	`GlobalStandard`	`GlobalProvisionedManaged`	`Standard`	`ProvisionedManaged`
Factureringsmodel	Betalen per token	Betalen per token	Facturering per uur met optionele aankoop van maandelijkse of jaarlijkse reserveringen	Betalen per token	Facturering per uur met optionele aankoop van maandelijkse of jaarlijkse reserveringen

Ingericht

Met ingerichte implementaties kunt u de hoeveelheid doorvoer opgeven die u nodig hebt in een implementatie. De service wijst vervolgens de benodigde modelverwerkingscapaciteit toe en zorgt ervoor dat deze gereed is voor u. Doorvoer wordt gedefinieerd in termen van ingerichte doorvoereenheden (PTU). Dit is een genormaliseerde manier om de doorvoer voor uw implementatie weer te geven. Elk modelversiepaar vereist verschillende hoeveelheden PTU om per PTU te implementeren en verschillende hoeveelheden doorvoer per PTU te bieden. Meer informatie vindt u in het artikel Ingerichte doorvoerconcepten.

Standaard

Standaardimplementaties bieden een factureringsmodel voor betalen per aanroep op het gekozen model. Biedt de snelste manier om aan de slag te gaan, omdat u alleen betaalt voor wat u verbruikt. Modellen die beschikbaar zijn in elke regio en de doorvoer kunnen worden beperkt.

Standaardimplementaties zijn geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.

Algemene standaard

Belangrijk

Gegevens die in rust zijn opgeslagen, blijven in de aangewezen Azure-geografie, terwijl gegevens kunnen worden verwerkt voor deductie op elke Azure OpenAI-locatie. Meer informatie over gegevenslocatie.

Globale implementaties zijn beschikbaar in dezelfde Azure OpenAI-resources als niet-globale implementatietypen, maar u kunt de globale infrastructuur van Azure gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale standaard biedt het hoogste standaardquotum en elimineert de noodzaak om taken over meerdere resources te verdelen.

Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren. De drempelwaarde wordt per model ingesteld. Zie de pagina quota voor meer informatie. Voor toepassingen waarvoor de variantie van de lagere latentie bij een groot workloadgebruik is vereist, raden we u aan ingerichte doorvoer aan te schaffen.

Globaal ingericht

Belangrijk

Globale implementaties zijn beschikbaar in dezelfde Azure OpenAI-resources als niet-globale implementatietypen, maar u kunt de globale infrastructuur van Azure gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale ingerichte implementaties bieden gereserveerde modelverwerkingscapaciteit voor hoge en voorspelbare doorvoer met behulp van de globale Azure-infrastructuur.

Globale batch

Belangrijk

Globale batch is ontworpen voor het efficiënt verwerken van grootschalige en grote hoeveelheden verwerkingstaken. Asynchrone groepen aanvragen verwerken met een afzonderlijk quotum, met 24-uurs doeltijd, tegen 50% lagere kosten dan de algemene standaard. Met batchverwerking, in plaats van één aanvraag tegelijk te verzenden, verzendt u een groot aantal aanvragen in één bestand. Globale batchaanvragen hebben een afzonderlijk ge enqueued tokenquotum om onderbrekingen van uw onlineworkloads te voorkomen.

Enkele belangrijke gebruiksvoorbeelden:

Grootschalige gegevensverwerking: analyseer snel uitgebreide gegevenssets parallel.
Inhoudsgeneratie: Maak grote hoeveelheden tekst, zoals productbeschrijvingen of artikelen.
Documentbeoordeling en samenvatting: Automatiseer de beoordeling en samenvatting van lange documenten.
Automatisering van klantondersteuning: meerdere query's tegelijk verwerken voor snellere antwoorden.
Gegevensextractie en analyse: gegevens extraheren en analyseren uit grote hoeveelheden ongestructureerde gegevens.
NLP-taken (Natural Language Processing): voer taken uit zoals sentimentanalyse of vertaling op grote gegevenssets.
Marketing en personalisatie: genereer gepersonaliseerde inhoud en aanbevelingen op schaal.

Toegang tot globale implementaties in uw abonnement uitschakelen

Met Azure Policy kunt u organisatiestandaarden afdwingen en compliance op schaal beoordelen. Via het compliancedashboard biedt het een geaggregeerde weergave om de algehele status van de omgeving te evalueren, met de mogelijkheid om in te zoomen op de granulariteit per resource, per beleid. Hiermee kunt u ook zorgen voor compliance van uw resources via bulkherstel voor bestaande resources en automatisch herstel voor nieuwe resources. Meer informatie over Azure Policy en specifieke ingebouwde besturingselementen voor AI-services.

U kunt het volgende beleid gebruiken om de toegang tot globale standaardimplementaties van Azure OpenAI uit te schakelen. Als u de toegang tot wereldwijd ingerichte azure- of globale batchimplementaties wilt uitschakelen, vervangt u deze door GlobalStandard GlobalProvisionedManaged of GlobalBatch voor de beoogde SKU-naam.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Modellen implementeren

Raadpleeg de handleiding voor het maken van resources voor meer informatie over het maken van resources en het implementeren van modellen.

Delen via

Azure OpenAI-implementatietypen

Globale versus regionale implementatietypen

Implementatietypen

Ingericht

Standaard

Algemene standaard

Globaal ingericht

Globale batch

Toegang tot globale implementaties in uw abonnement uitschakelen

Modellen implementeren

Zie ook

Feedback

Aanvullende resources