Azure OpenAI-Bereitstellungstypen

Artikel
07/01/2024

Azure OpenAI bietet Kunden Auswahlmöglichkeiten bei der Hostingstruktur, die ihren Geschäfts- und Nutzungsmustern entspricht. Der Dienst bietet zwei Haupttypen der Bereitstellung: Standard und Bereitgestellt. Standard wird mit einer globalen Bereitstellungsoption angeboten und leitet den Datenverkehr global weiter, um einen höheren Durchsatz zu bieten. Alle Bereitstellungen können dieselben Rückschlussvorgänge ausführen, Abrechnung, Skalierung und Leistung unterscheiden sich jedoch erheblich. Im Rahmen Ihres Lösungsdesigns müssen Sie zwei wichtige Entscheidungen treffen:

Anforderungen an die Datenresidenz: globale oder regionale Ressourcen
Aufrufvolumen: Standard oder bereitgestellt

Globale oder regionale Bereitstellungstypen

Für Standardbereitstellungen können Sie zwei Arten von Konfigurationen innerhalb Ihrer Ressource verwenden: global oder regional. Der globale Standard ist der empfohlene Ausgangspunkt für Entwicklung und für Experimente. Globale Bereitstellungen nutzen die globale Azure-Infrastruktur und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Bei globalen Bereitstellungen gibt es höhere anfängliche Durchsatzgrenzwerte, Ihre Wartezeit kann jedoch bei hohen Nutzungsebenen variieren. Für Kunden, die die geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.

Unsere globalen Bereitstellungen sind der erste Ort für alle neuen Modelle und Features. Kunden mit sehr großen Durchsatzanforderungen sollten unser bereitgestelltes Bereitstellungsangebot erwägen.

Bereitstellungstypen

Azure OpenAI bietet drei Arten von Bereitstellungen. Diese bieten eine Vielzahl von Funktionen, die Abstriche bei Durchsatz, SLAs und Preis bedeuten. Nachfolgend finden Sie eine Zusammenfassung der Optionen, gefolgt von einer genaueren Beschreibung der einzelnen Optionen.

Angebot	Global-Standard	Standard	Bereitgestellt
Am besten geeignet für	Anwendungen, die keine Datenresidenz erfordern. Empfohlener Ausgangspunkt für Kunden.	Für Kunden mit Anforderungen an Datenresidenz. Optimiert für geringes bis mittleres Volumen.	Echtzeitbewertung für großes konsistentes Volumen. Umfasst die höchsten Zusagen und Grenzwerte.
So funktioniert's	Datenverkehr kann an beliebige Orte weltweit weitergeleitet werden.
Erste Schritte	Modellimplementierung	Modellimplementierung	Bereitgestelltes Onboarding
Kosten	Globale Bereitstellungskosten	Regionale Kosten	Kosteneinsparungen für eine konsistente Nutzung sind möglich.
Ergebnis	Einfacher Zugriff auf alle neuen Modelle mit den höchsten Standardgrenzwerten für die Bezahlung pro Aufruf. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben.	Einfacher Zugriff mit SLA zur Verfügbarkeit. Optimiert für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.	Regionaler Zugriff mit sehr hohem und vorhersehbarem Durchsatz. Ermitteln des Durchsatzes pro PTU mithilfe des bereitgestellten Kapazitätsrechners
Was Sie nicht erhalten	❌ Garantien für Datenresidenz	❌ Hohes Volumen mit konsistent niedriger Wartezeit	❌ Flexibilität bei der Bezahlung pro Aufruf
Wartezeit pro Aufruf	Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert	Optimiert für Echtzeitanrufe und Nutzung mit niedrigem bis mittlerem Volumen. Kunden mit umfangreicher Nutzung können eine höhere Variabilität bei der Wartezeit erleben. Pro Modell festgelegter Schwellenwert	Optimiert für Echtzeit.
SKU-Name im Code	`GlobalStandard`	`Standard`	`ProvisionedManaged`
Abrechnungsmodell	Pay-per-Token	Pay-per-Token	Monatliche Zusagen

Bereitgestellt

Mit bereitgestellten Bereitstellungen können Sie den in einer Bereitstellung erforderlichen Durchsatz angeben. Der Dienst weist daraufhin die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass diese für Sie bereit ist. Der Durchsatz wird als bereitgestellte Durchsatzeinheiten (Provisioned Throughput Units, PTUs) definiert. Dabei handelt es sich um eine normalisierte Methode zur Darstellung des Durchsatzes für Ihre Bereitstellung. Jedes Modellversionspaar benötigt unterschiedliche PTU-Mengen, um unterschiedliche Durchsatzmengen pro PTU bereitzustellen. Weitere Informationen finden Sie in unserem Artikel zu Konzepten für bereitgestellten Durchsatz.

Standard

Standardbereitstellungen bieten ein Abrechnungsmodell für die Bezahlung pro Aufruf für das ausgewählte Modell. Bietet die schnellste Möglichkeit loszulegen, da Sie nur für das bezahlen, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, sowie der Durchsatz können beschränkt sein.

Standardbereitstellungen sind für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit optimiert. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.

Globaler Standard

Globale Bereitstellungen stehen in denselben Azure OpenAI-Ressourcen wie nicht globale Angebote zur Verfügung, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr dynamisch an das Rechenzentrum mit der besten Verfügbarkeit für jede Anforderung weiterzuleiten. Der globale Standard stellt das höchste Standardkontingent für neue Modelle bereit und beseitigt die Notwendigkeit des Lastenausgleichs über mehrere Ressourcen hinweg.

Der Bereitstellungstyp ist für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit optimiert. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite zu Kontingenten.

Für Kunden, die die geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.

Deaktivieren des Zugriffs auf globale Bereitstellungen in Ihrem Abonnement

Azure Policy hilft bei der Durchsetzung von Organisationsstandards und bei der Bewertung der Compliance nach Bedarf. Über sein Compliance-Dashboard bietet der Dienst eine aggregierte Ansicht zur Bewertung des Gesamtzustands der Umgebung mit der Möglichkeit, einen Drilldown zur Granularität pro Ressource und Richtlinie durchzuführen. Außerdem trägt er durch Massenwartung für vorhandene Ressourcen und automatische Wartung dazu bei, dass Ihre Ressourcen Compliance-Anforderungen erfüllen. Erfahren Sie mehr über Azure Policy und bestimmte integrierte Steuerelemente für KI-Dienste.

Sie können die folgende Richtlinie verwenden, um den Zugriff auf globale Azure OpenAI-Standardbereitstellungen zu deaktivieren.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Bereitstellen von Modellen

Informationen zum Erstellen von Ressourcen und Bereitstellen von Modellen finden Sie in der Anleitung zum Erstellen von Ressourcen.

Teilen über