Bereitstellungstypen für Microsoft Foundry-Modelle

Wenn Sie ein Modell in Microsoft Foundry bereitstellen, wählen Sie einen Bereitstellungstyp aus, der folgendes bestimmt:

  • Wo Ihre Daten verarbeitet werden (global, Datenzone oder einzelne Region)
  • Zahlungsweise (Pay-per-Token oder reservierte Kapazität)
  • Leistungsmerkmale (Latenzabweichung, Durchsatzgrenzwerte)

Der Dienst bietet zwei Hauptkategorien: Standard (Pay-per-Token) und bereitgestellt (reservierte Kapazität). Innerhalb jeder Kategorie können Sie basierend auf Ihren Complianceanforderungen globale, Datenzone oder regionale Verarbeitung auswählen.

Screenshot des Bereitstellungsdialogs im Foundry-Portal, der das Auswahlfeld für den Bereitstellungstyp zeigt, wobei die Option

Wichtig

Datenstandort für alle Bereitstellungstypen: Daten im Ruhezustand verbleiben in der angegebenen Azure-Region. Allerdings werden Schlussfolgerungsdaten wie folgt verarbeitet:

  • GlobalTypen: Kann in einer beliebigen Azure Region verarbeitet werden
  • DataZoneTypen: Verarbeitet nur innerhalb der Microsoft angegebenen Datenzone (USA oder EU)
  • Standard-/Regionaltypen : Verarbeitet in der Bereitstellungsregion

Erfahren Sie mehr über die Datenresidenz.

Vergleich der Bereitstellungsarten

Bereitstellungstyp SKU-Code Datenverarbeitung Abrechnung Optimal für
Globaler Standard GlobalStandard Beliebige Azure Region Pay-per-Token Allgemeine Workloads, höchstes Kontingent
Global zugewiesen GlobalProvisionedManaged Beliebige Azure Region Reservierte PTU Vorhersehbarer hoher Durchsatz
Globale Stapelverarbeitung GlobalBatch Beliebige Azure Region 50% Rabatt, 24 Stunden Große asynchrone Aufträge
Data Zone Standard DataZoneStandard Innerhalb der Datenzone Pay-per-Token EU/US-Datenzonenkonformität
Bereitgestellte Datenzone DataZoneProvisionedManaged Innerhalb der Datenzone Reservierte PTU Datenzone + vorhersehbarer Durchsatz
Datenzonenbatch DataZoneBatch Innerhalb der Datenzone 50% Rabatt Große asynchrone Aufträge mit Datenzone
Standard Standard Einzelne Region Pay-per-Token Regionale Compliance, geringes Volumen
Regionale Bereitstellung ProvisionedManaged Einzelne Region Reservierte PTU Regionale Compliance + Durchsatz
Entwickler DeveloperTier Beliebige Azure Region Pay-per-Token Nur fein abgestimmte Modellauswertung

Hinweis

Nicht alle Modelle unterstützen alle Bereitstellungstypen. Überprüfen Sie Foundry-Modelle, die direkt von Azure auf Modellverfügbarkeit nach Bereitstellungstyp und Region verkauft werden.

Hinweis

SLA-Garantien variieren je nach Bereitstellungstyp. Bereitgestellte Typen bieten garantierten Durchsatz und geringere Latenzabweichung. Standardtypen bieten Best-Effort-Service. Entwicklerbereitstellungen enthalten keine SLA. Ausführliche Informationen finden Sie im Azure SLA für den Azure OpenAI Service.

Tipp

Detaillierte Preise finden Sie unter Azure OpenAI Service Pricing.

Auswählen des richtigen Bereitstellungstyps

Verwenden Sie die folgenden Kriterien, um einen Bereitstellungstyp auszuwählen:

Nach Datenresidenz-Bestimmungen

  • Keine Einschränkungen: Verwenden von Global Standard oder Global Provisioned
  • EU-Datenzone: Verwenden Sie DataZone Standard oder DataZone Provisioned in einer EU-Region
  • US-Datenzone: Verwenden von DataZone Standard oder DataZone Provisioned in einer US-Region
  • Nur eine Region: Standard- oder Regionalbereitstellung verwenden

Nach Arbeitsauslastungsmuster

  • Variabler, burstartiger Datenverkehr: Standard oder Global Standard (Pay-per-Token) verwenden
  • Konsistentes hohes Volumen: Verwenden von bereitgestellten Typen (reservierte Kapazität)
  • Große Batchaufträge (nicht zeitempfindlich): Verwenden des globalen Batches oder des DataZone-Batches (50% Kosteneinsparungen)
  • Feinabstimmung der Modellauswertung: Verwenden sie Entwickler (keine SLA, niedrigste Kosten)

Je nach Latenzanforderung

  • Niedrige Latenzvarianz erforderlich: Verwenden Sie bereitgestellte Typen
  • Latenzabweichung akzeptabel: Standardtypen verwenden

Speicherorte für die Datenverarbeitung

Für Standardbereitstellungen gibt es drei Optionen: global, Datenzone und Azure Geografie. Für bereitgestellte Bereitstellungen gibt es zwei Optionen: global und Azure Geografie. Global Standard ist ein häufiger Ausgangspunkt für die meisten Workloads.

Globale Bereitstellungen

Globale Bereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Globale Bereitstellungen bieten die höchsten Anfänglichen Durchsatzgrenzwerte und die größtmögliche Modellverfügbarkeit.

Bei Workloads mit hohem Volumen kann es zu einer erhöhten Latenzvariation kommen. Wenn Sie eine geringere Latenzabweichung im Maßstab benötigen, verwenden Sie bereitgestellte Bereitstellungstypen.If you require lower latency variance at scale, use provisioned deployment types.

Globale Bereitstellungen erhalten zuerst neue Modelle und Features.

Datenzonen-Bereitstellungen

Bei globalen Bereitstellungstypen können Eingabeaufforderungen und Antworten in jeder Geografie verarbeitet werden, in der das Modell bereitgestellt wird. Für DataZone-Bereitstellungstypen werden Eingabeaufforderungen und Antworten nur innerhalb der angegebenen Datenzone verarbeitet:

  • USA: In den USA verarbeitete Daten
  • Europäische Union: Daten, die innerhalb eines EU-Mitgliedslandes verarbeitet werden

Weitere Informationen finden Sie im Abschnitt "Modellregionenverfügbarkeit nach Bereitstellungstyp" von Foundry Models, die direkt von Azure verkauft werden.

Hinweis

Wenn bei den Bereitstellungstypen "Global Standard" und "Data Zone Standard" eine Unterbrechung des Dienstes auftritt, ist der gesamte Datenverkehr betroffen, der ursprünglich an diese Region weitergeleitet wurde. Weitere Informationen finden Sie im Handbuch für hohe Verfügbarkeit und Notfallwiederherstellung.

Globaler Standard

  • SKU-Name im Code: GlobalStandard

Globale Standardbereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet das höchste Standardkontingent und beseitigt die Notwendigkeit des Lastenausgleichs zwischen mehreren Ressourcen.

Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der "Kontingente" Seite. Für Anwendungen, die eine geringere Latenzabweichung bei einer großen Workloadauslastung erfordern, sollten Sie den bereitgestellten Durchsatz in Betracht ziehen.

Global Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).

Global bereitgestellt

  • SKU-Name im Code: GlobalProvisionedManaged

Global bereitgestellte Bereitstellungen verwenden die globale Infrastruktur von Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet reservierte Modellverarbeitungskapazität für vorhersehbaren Durchsatz, wobei globales Routing mit garantierter Kapazität kombiniert wird.

Mit bereitgestelltem Durchsatz erwerben Sie eine feste Anzahl von bereitgestellten Durchsatzeinheiten (PTUs), die eine bestimmte Verarbeitungskapazität garantieren. Dieser Bereitstellungstyp bietet eine niedrigere und konsistentere Latenz als globaler Standard. Weitere Informationen finden Sie unter Bereitgestellte Durchsatzkonzepte.

Globaler Stapel

  • SKU-Name im Code: GlobalBatch

Globaler Batch bewältigt groß angelegte und hochvolumige Verarbeitungsaufgaben. Sie können asynchrone Gruppen von Anforderungen mit separaten Kontingenten und einer 24-Stunden-Zielumlaufzeit mit 50% weniger Kosten als Global Standard verarbeiten. Bei der Batchverarbeitung senden Sie anstelle des Sendens einer Anforderung nach der anderen viele Anforderungen gesammelt in einer einzelnen Datei. Globale Batchanforderungen verfügen über ein separates eingereihtes Tokenkontingent, das jegliche Unterbrechung Ihrer Online-Workloads vermeidet.

Häufige Anwendungsfälle:

  • Umfangreiche Datenverarbeitung: Analysieren von Datasets parallel.
  • Inhaltsgenerierung: Erstellen Sie große Textmengen, z. B. Produktbeschreibungen oder Artikel.
  • Dokumentüberprüfung und Zusammenfassung: Verarbeiten und Zusammenfassen von langwierigen Dokumenten.
  • Automatisierung des Kundensupports: Behandeln Sie zahlreiche Abfragen gleichzeitig.
  • Datenextraktion und -analyse: Extrahieren und Analysieren von Informationen aus großen Mengen unstrukturierter Daten.
  • Aufgaben für die Verarbeitung natürlicher Sprachen (Natural Language Processing, NLP): Durchführen einer Stimmungsanalyse oder Übersetzung in großen Datasets.

Hinweis

Batchbereitstellungen tauschen Echtzeitreaktionsfähigkeit gegen Kosteneinsparungen ein. Batchanforderungen verfügen nicht über eine SLA in Echtzeit – sie zielen innerhalb von 24 Stunden auf den Abschluss ab, können aber länger dauern.

Datenzonenstandard

  • SKU-Name im Code: DataZoneStandard

Data Zone Standard-Bereitstellungen leiten Datenverkehr dynamisch an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weiter. Dieser Bereitstellungstyp bietet höhere Standardkontingente als geografiebasierte Bereitstellungstypen, während Daten innerhalb der angegebenen Zone beibehalten werden.

Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite "Kontingente und Beschränkungen". Bei Workloads, die eine geringe Latenzabweichung bei großem Volumen erfordern, sollten Sie provisionierte Bereitstellungstypen in Betracht ziehen.

Data Zone Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).

Bereitgestellte Datenzone

  • SKU-Name im Code: DataZoneProvisionedManaged

Bereitgestellte Datenzonen-Implementierungen leiten den Datenverkehr dynamisch innerhalb der von Microsoft spezifizierten Datenzone (USA oder EU) weiter und bieten dabei reservierte Verarbeitungskapazität für Modelle. Dieser Bereitstellungstyp kombiniert die Datenzonenkonformität mit hohem und vorhersehbaren Durchsatz.

Datenzonenstapel

  • SKU-Name im Code: DataZoneBatch

Datenzonenbatchbereitstellungen bieten die gleiche Funktionalität wie Global Batch, einschließlich 50 % Kostenersparnis und 24-Stunden-Bearbeitungszeit. Der Datenverkehr wird nur an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weitergeleitet.

Standard

  • SKU-Name im Code: Standard

Standardbereitstellungen verwenden die Abrechnung pro Token. Sie zahlen nur für das, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, und der Durchsatz können eingeschränkt sein.

Standardbereitstellungen eignen sich für Arbeitslasten mit geringem bis mittlerem Volumen und hoher Spitzenlastintensität. Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen.

Regionale Bereitstellung

  • SKU-Name im Code: ProvisionedManaged

Mit regional bereitgestellten Bereitstellungen können Sie den erforderlichen Durchsatz in einer Bereitstellung angeben. Der Dienst weist dann die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass er für Sie bereit ist. Der Durchsatz wird in Bezug auf bereitgestellte Durchsatzeinheiten (PTUs) definiert, was eine normalisierte Möglichkeit ist, den Durchsatz für Ihre Bereitstellung darzustellen. Jedes Modellversionspaar erfordert unterschiedliche Mengen von PTUs für die Bereitstellung und stellt unterschiedliche Durchsatzmengen pro PTU bereit. Die mindesten PTU-Anforderungen variieren je nach Modell. Aktuelle Mindestwerte und verfügbare Kapazität finden Sie unter Bereitgestellte Durchsatzkonzepte.

Entwickler (für fein abgestimmte Modelle)

  • SKU-Name im Code: DeveloperTier

Der Entwicklerbereitstellungstyp ist nur für eine fein abgestimmte Modellauswertung ausgelegt. Sie bietet kostengünstige Tests von benutzerdefinierten Modellen, umfasst jedoch keine Datenaufbewahrungsgarantien oder SLA. Entwicklerbereitstellungen verfügen über eine feste Lebensdauer von 24 Stunden und werden nach Ablauf automatisch gelöscht. Weitere Informationen zur Nutzung des Entwicklerbereitstellungstyps finden Sie im Anpassungshandbuch.

Lösungen für Probleme bei der Bereitstellung

Häufige Probleme beim Erstellen oder Verwenden von Bereitstellungen:

Angelegenheit Ursache Auflösung
Bereitstellungstyp nicht verfügbar Das Modell unterstützt den ausgewählten Typ nicht. Überprüfen der Modellverfügbarkeit nach Bereitstellungstyp
Kontingent überschritten Abonnementgrenzwert für Token pro Minute erreicht Anfordern einer Kontingenterhöhung in Azure Portal oder Verwenden einer anderen Region
Region nicht verfügbar Modell nicht in ausgewählter Region bereitgestellt Auswählen einer Region aus der Verfügbarkeitsliste des Modells
Bereitgestellte Kapazität nicht verfügbar Keine PTU-Kapazität in Region Probieren Sie eine andere Region aus, oder verwenden Sie die globale Bereitstellung für eine breitere Verfügbarkeit

Informationen zu Kontingentbeschränkungen nach Bereitstellungstyp finden Sie unter Kontingente und Limits für Foundry-Modelle.

Einschränken von Bereitstellungstypen mit Azure Policy

Azure Policy hilft dabei, organisatorische Standards zu erzwingen und die Compliance im großen Maßstab zu bewerten. Über das Compliance-Dashboard können Sie den Gesamtzustand der Umgebung auswerten und eine detaillierte Analyse pro Ressource, pro Richtlinie ausführen. Azure Policy unterstützt auch die Massenwartung für vorhandene Ressourcen und die automatische Wartung für neue Ressourcen. Weitere Informationen zu Azure Policy und spezifischen integrierten Steuerelementen für Foundry Tools.

Verwenden Sie die folgende Richtlinie, um den Zugriff auf einen bestimmten Foundry-Bereitstellungstyp zu deaktivieren. Ersetzen Sie GlobalStandard durch den SKU-Namen für den Bereitstellungstyp, den Sie einschränken möchten.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}