Delen via


Azure OpenAI-implementatietypen

Azure OpenAI biedt klanten keuzes in de hostingstructuur die past bij hun bedrijfs- en gebruikspatronen. De service biedt twee hoofdtypen implementatie: standaard en ingericht. Standard wordt aangeboden met een globale implementatieoptie, waarbij verkeer wereldwijd wordt gerouteerd om een hogere doorvoer te bieden. Alle implementaties kunnen exact dezelfde deductiebewerkingen uitvoeren, maar de facturering, schaal en prestaties verschillen aanzienlijk. Als onderdeel van uw oplossingsontwerp moet u twee belangrijke beslissingen nemen:

  • Gegevenslocatiebehoeften: globale versus regionale resources
  • Oproepvolume: standaard versus ingericht

Globale versus regionale implementatietypen

Voor standaardimplementaties hebt u een optie van twee typen configuraties binnen uw resource: globaal of regionaal. Globale standaard is het aanbevolen uitgangspunt voor ontwikkeling en experimenten. Globale implementaties maken gebruik van de wereldwijde infrastructuur van Azure, waarbij klantverkeer dynamisch naar het datacenter wordt gerouteerd met de beste beschikbaarheid voor de deductieaanvragen van de klant. Bij wereldwijde implementaties zijn er hogere initiële doorvoerlimieten, hoewel uw latentie kan variëren op hoog gebruiksniveau. Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.

Onze wereldwijde implementaties zijn de eerste locatie voor alle nieuwe modellen en functies. Klanten met zeer grote doorvoervereisten moeten rekening houden met ons ingerichte implementatieaanbod.

Implementatietypen

Azure OpenAI biedt drie typen implementaties. Deze bieden een gevarieerd niveau van mogelijkheden die afwegingen bieden: doorvoer, SLA's en prijs. Hieronder ziet u een overzicht van de opties, gevolgd door een diepere beschrijving van elk van deze opties.

Biedt Global-Standard1 Standaard Ingericht
Meest geschikt voor Toepassingen waarvoor geen gegevenslocatie is vereist. Aanbevolen uitgangspunt voor klanten. Voor klanten met vereisten voor gegevenslocatie. Geoptimaliseerd voor laag tot gemiddeld volume. Realtime scoren voor een groot consistent volume. Omvat de hoogste toezeggingen en limieten.
Hoe werkt het? Verkeer kan overal ter wereld worden gerouteerd
Aan de slag Modelimplementatie Modelimplementatie Ingerichte onboarding
Kosten Basislijn Regionale prijzen Kan kostenbesparingen ervaren voor consistent gebruik
Wat u krijgt Eenvoudige toegang tot alle nieuwe modellen met de hoogste standaardlimieten voor betalen per oproep.

Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien
Eenvoudige toegang met SLA op beschikbaarheid. Geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit.

Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.
Regionale toegang met zeer hoge en voorspelbare doorvoer. De doorvoer per PTU bepalen met behulp van de opgegeven capaciteitscalculator
Wat je niet krijgt ❌Garanties voor gegevenslocatie ❌Hoog volume met consistente lage latentie ❌Flexibiliteit voor betalen per gesprek
Latentie per aanroep Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld Geoptimaliseerd voor realtime bellen en laag tot gemiddeld volumegebruik. Klanten met een hoog volumegebruik kunnen een hogere latentievariatie zien. Drempelwaarde per model ingesteld Geoptimaliseerd voor realtime.
SKU-naam in code GlobalStandard Standard ProvisionedManaged
Factureringsmodel Betalen per token Betalen per token Maandelijkse toezeggingen

1 Global-Standard-implementatietype is momenteel beschikbaar als preview-versie.

Ingericht

Met ingerichte implementaties kunt u de hoeveelheid doorvoer opgeven die u nodig hebt in een implementatie. De service wijst vervolgens de benodigde modelverwerkingscapaciteit toe en zorgt ervoor dat deze gereed is voor u. Doorvoer wordt gedefinieerd in termen van ingerichte doorvoereenheden (PTU). Dit is een genormaliseerde manier om de doorvoer voor uw implementatie weer te geven. Elk modelversiepaar vereist verschillende hoeveelheden PTU om per PTU te implementeren en verschillende hoeveelheden doorvoer per PTU te bieden. Meer informatie vindt u in het artikel Ingerichte doorvoerconcepten.

Standaard

Standaardimplementaties bieden een factureringsmodel voor betalen per aanroep op het gekozen model. Biedt de snelste manier om aan de slag te gaan, omdat u alleen betaalt voor wat u verbruikt. Modellen die beschikbaar zijn in elke regio en de doorvoer kunnen worden beperkt.

Standaardimplementaties zijn geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren.

Algemene standaard (preview)

Globale implementaties zijn beschikbaar in dezelfde Azure OpenAI-resources als niet-globale aanbiedingen, maar bieden u de mogelijkheid om de globale infrastructuur van Azure te gebruiken om verkeer dynamisch naar het datacenter te routeren met de beste beschikbaarheid voor elke aanvraag. Globale standaard biedt het hoogste standaardquotum voor nieuwe modellen en elimineert de noodzaak om taken te verdelen over meerdere resources.

Het implementatietype is geoptimaliseerd voor workloads met een laag tot gemiddeld volume met een hoge burstiviteit. Klanten met een hoog consistent volume kunnen meer latentievariabiliteit ervaren. De drempelwaarde wordt per model ingesteld. Zie de pagina quota voor meer informatie.

Voor klanten die de variantie van de lagere latentie bij een groot workloadgebruik vereisen, raden we u aan om ingerichte doorvoer aan te schaffen.

Toegang tot globale implementaties in uw abonnement uitschakelen

Met Azure Policy kunt u organisatiestandaarden afdwingen en compliance op schaal beoordelen. Via het compliancedashboard biedt het een geaggregeerde weergave om de algehele status van de omgeving te evalueren, met de mogelijkheid om in te zoomen op de granulariteit per resource, per beleid. Hiermee kunt u ook zorgen voor compliance van uw resources via bulkherstel voor bestaande resources en automatisch herstel voor nieuwe resources. Meer informatie over Azure Policy en specifieke ingebouwde besturingselementen voor AI-services.

U kunt het volgende beleid gebruiken om de toegang tot globale standaardimplementaties van Azure OpenAI uit te schakelen.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Modellen implementeren

Schermopname van het dialoogvenster voor modelimplementatie in Azure OpenAI Studio met drie implementatietypen gemarkeerd.

Raadpleeg de handleiding voor het maken van resources voor meer informatie over het maken van resources en het implementeren van modellen.

Zie ook