Bereitstellungstypen für Microsoft Foundry-Modelle

Wenn Sie ein Modell in Microsoft Foundry bereitstellen, wählen Sie einen Bereitstellungstyp aus, der folgendes bestimmt:

Wo Ihre Daten verarbeitet werden (global, Datenzone oder einzelne Region)
Zahlungsweise (Pay-per-Token oder reservierte Kapazität)
Leistungsmerkmale (Latenzabweichung, Durchsatzgrenzwerte)

Der Dienst bietet zwei Hauptkategorien: Standard (Pay-per-Token) und bereitgestellt (reservierte Kapazität). Innerhalb jeder Kategorie können Sie basierend auf Ihren Complianceanforderungen globale, Datenzone oder regionale Verarbeitung auswählen.

Wichtig

Datenstandort für alle Bereitstellungstypen: Daten im Ruhezustand verbleiben in der angegebenen Azure-Region. Allerdings werden Schlussfolgerungsdaten wie folgt verarbeitet:

GlobalTypen: Kann in einer beliebigen Azure Region verarbeitet werden
DataZoneTypen: Verarbeitet nur innerhalb der Microsoft angegebenen Datenzone (USA oder EU)
Standard-/Regionaltypen : Verarbeitet in der Bereitstellungsregion

Erfahren Sie mehr über die Datenresidenz.

Vergleich der Bereitstellungsarten

Bereitstellungstyp	SKU-Code	Datenverarbeitung	Abrechnung	Optimal für
Globaler Standard	`GlobalStandard`	Beliebige Azure Region	Pay-per-Token	Allgemeine Workloads, höchstes Kontingent
Global zugewiesen	`GlobalProvisionedManaged`	Beliebige Azure Region	Reservierte PTU	Vorhersehbarer hoher Durchsatz
Globale Stapelverarbeitung	`GlobalBatch`	Beliebige Azure Region	50% Rabatt, 24 Stunden	Große asynchrone Aufträge
Data Zone Standard	`DataZoneStandard`	Innerhalb der Datenzone	Pay-per-Token	EU/US-Datenzonenkonformität
Bereitgestellte Datenzone	`DataZoneProvisionedManaged`	Innerhalb der Datenzone	Reservierte PTU	Datenzone + vorhersehbarer Durchsatz
Datenzonenbatch	`DataZoneBatch`	Innerhalb der Datenzone	50% Rabatt	Große asynchrone Aufträge mit Datenzone
Standard	`Standard`	Einzelne Region	Pay-per-Token	Regionale Compliance, geringes Volumen
Regionale Bereitstellung	`ProvisionedManaged`	Einzelne Region	Reservierte PTU	Regionale Compliance + Durchsatz
Entwickler	`DeveloperTier`	Beliebige Azure Region	Pay-per-Token	Nur fein abgestimmte Modellauswertung

Hinweis

Nicht alle Modelle unterstützen alle Bereitstellungstypen. Überprüfen Sie Foundry-Modelle, die direkt von Azure auf Modellverfügbarkeit nach Bereitstellungstyp und Region verkauft werden.

Hinweis

SLA-Garantien variieren je nach Bereitstellungstyp. Bereitgestellte Typen bieten garantierten Durchsatz und geringere Latenzabweichung. Standardtypen bieten Best-Effort-Service. Entwicklerbereitstellungen enthalten keine SLA. Ausführliche Informationen finden Sie im Azure SLA für den Azure OpenAI Service.

Tipp

Detaillierte Preise finden Sie unter Azure OpenAI Service Pricing.

Auswählen des richtigen Bereitstellungstyps

Verwenden Sie die folgenden Kriterien, um einen Bereitstellungstyp auszuwählen:

Nach Datenresidenz-Bestimmungen

Keine Einschränkungen: Verwenden von Global Standard oder Global Provisioned
EU-Datenzone: Verwenden Sie DataZone Standard oder DataZone Provisioned in einer EU-Region
US-Datenzone: Verwenden von DataZone Standard oder DataZone Provisioned in einer US-Region
Nur eine Region: Standard- oder Regionalbereitstellung verwenden

Nach Arbeitsauslastungsmuster

Variabler, burstartiger Datenverkehr: Standard oder Global Standard (Pay-per-Token) verwenden
Konsistentes hohes Volumen: Verwenden von bereitgestellten Typen (reservierte Kapazität)
Große Batchaufträge (nicht zeitempfindlich): Verwenden des globalen Batches oder des DataZone-Batches (50% Kosteneinsparungen)
Feinabstimmung der Modellauswertung: Verwenden sie Entwickler (keine SLA, niedrigste Kosten)

Je nach Latenzanforderung

Niedrige Latenzvarianz erforderlich: Verwenden Sie bereitgestellte Typen
Latenzabweichung akzeptabel: Standardtypen verwenden

Speicherorte für die Datenverarbeitung

Für Standardbereitstellungen gibt es drei Optionen: global, Datenzone und Azure Geografie. Für bereitgestellte Bereitstellungen gibt es zwei Optionen: global und Azure Geografie. Global Standard ist ein häufiger Ausgangspunkt für die meisten Workloads.

Globale Bereitstellungen

Globale Bereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Globale Bereitstellungen bieten die höchsten Anfänglichen Durchsatzgrenzwerte und die größtmögliche Modellverfügbarkeit.

Bei Workloads mit hohem Volumen kann es zu einer erhöhten Latenzvariation kommen. Wenn Sie eine geringere Latenzabweichung im Maßstab benötigen, verwenden Sie bereitgestellte Bereitstellungstypen.If you require lower latency variance at scale, use provisioned deployment types.

Globale Bereitstellungen erhalten zuerst neue Modelle und Features.

Datenzonen-Bereitstellungen

Bei globalen Bereitstellungstypen können Eingabeaufforderungen und Antworten in jeder Geografie verarbeitet werden, in der das Modell bereitgestellt wird. Für DataZone-Bereitstellungstypen werden Eingabeaufforderungen und Antworten nur innerhalb der angegebenen Datenzone verarbeitet:

USA: In den USA verarbeitete Daten
Europäische Union: Daten, die innerhalb eines EU-Mitgliedslandes verarbeitet werden

Weitere Informationen finden Sie im Abschnitt "Modellregionenverfügbarkeit nach Bereitstellungstyp" von Foundry Models, die direkt von Azure verkauft werden.

Hinweis

Wenn bei den Bereitstellungstypen "Global Standard" und "Data Zone Standard" eine Unterbrechung des Dienstes auftritt, ist der gesamte Datenverkehr betroffen, der ursprünglich an diese Region weitergeleitet wurde. Weitere Informationen finden Sie im Handbuch für hohe Verfügbarkeit und Notfallwiederherstellung.

Globaler Standard

SKU-Name im Code: GlobalStandard

Globale Standardbereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet das höchste Standardkontingent und beseitigt die Notwendigkeit des Lastenausgleichs zwischen mehreren Ressourcen.

Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der "Kontingente" Seite. Für Anwendungen, die eine geringere Latenzabweichung bei einer großen Workloadauslastung erfordern, sollten Sie den bereitgestellten Durchsatz in Betracht ziehen.

Global Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).

Global bereitgestellt

SKU-Name im Code: GlobalProvisionedManaged

Global bereitgestellte Bereitstellungen verwenden die globale Infrastruktur von Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet reservierte Modellverarbeitungskapazität für vorhersehbaren Durchsatz, wobei globales Routing mit garantierter Kapazität kombiniert wird.

Mit bereitgestelltem Durchsatz erwerben Sie eine feste Anzahl von bereitgestellten Durchsatzeinheiten (PTUs), die eine bestimmte Verarbeitungskapazität garantieren. Dieser Bereitstellungstyp bietet eine niedrigere und konsistentere Latenz als globaler Standard. Weitere Informationen finden Sie unter Bereitgestellte Durchsatzkonzepte.

Globaler Stapel

SKU-Name im Code: GlobalBatch

Globaler Batch bewältigt groß angelegte und hochvolumige Verarbeitungsaufgaben. Sie können asynchrone Gruppen von Anforderungen mit separaten Kontingenten und einer 24-Stunden-Zielumlaufzeit mit 50% weniger Kosten als Global Standard verarbeiten. Bei der Batchverarbeitung senden Sie anstelle des Sendens einer Anforderung nach der anderen viele Anforderungen gesammelt in einer einzelnen Datei. Globale Batchanforderungen verfügen über ein separates eingereihtes Tokenkontingent, das jegliche Unterbrechung Ihrer Online-Workloads vermeidet.

Häufige Anwendungsfälle:

Umfangreiche Datenverarbeitung: Analysieren von Datasets parallel.
Inhaltsgenerierung: Erstellen Sie große Textmengen, z. B. Produktbeschreibungen oder Artikel.
Dokumentüberprüfung und Zusammenfassung: Verarbeiten und Zusammenfassen von langwierigen Dokumenten.
Automatisierung des Kundensupports: Behandeln Sie zahlreiche Abfragen gleichzeitig.
Datenextraktion und -analyse: Extrahieren und Analysieren von Informationen aus großen Mengen unstrukturierter Daten.
Aufgaben für die Verarbeitung natürlicher Sprachen (Natural Language Processing, NLP): Durchführen einer Stimmungsanalyse oder Übersetzung in großen Datasets.

Hinweis

Batchbereitstellungen tauschen Echtzeitreaktionsfähigkeit gegen Kosteneinsparungen ein. Batchanforderungen verfügen nicht über eine SLA in Echtzeit – sie zielen innerhalb von 24 Stunden auf den Abschluss ab, können aber länger dauern.

Datenzonenstandard

SKU-Name im Code: DataZoneStandard

Data Zone Standard-Bereitstellungen leiten Datenverkehr dynamisch an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weiter. Dieser Bereitstellungstyp bietet höhere Standardkontingente als geografiebasierte Bereitstellungstypen, während Daten innerhalb der angegebenen Zone beibehalten werden.

Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite "Kontingente und Beschränkungen". Bei Workloads, die eine geringe Latenzabweichung bei großem Volumen erfordern, sollten Sie provisionierte Bereitstellungstypen in Betracht ziehen.

Data Zone Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).

Bereitgestellte Datenzone

SKU-Name im Code: DataZoneProvisionedManaged

Bereitgestellte Datenzonen-Implementierungen leiten den Datenverkehr dynamisch innerhalb der von Microsoft spezifizierten Datenzone (USA oder EU) weiter und bieten dabei reservierte Verarbeitungskapazität für Modelle. Dieser Bereitstellungstyp kombiniert die Datenzonenkonformität mit hohem und vorhersehbaren Durchsatz.

Datenzonenstapel

SKU-Name im Code: DataZoneBatch

Datenzonenbatchbereitstellungen bieten die gleiche Funktionalität wie Global Batch, einschließlich 50 % Kostenersparnis und 24-Stunden-Bearbeitungszeit. Der Datenverkehr wird nur an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weitergeleitet.

Standard

SKU-Name im Code: Standard

Standardbereitstellungen verwenden die Abrechnung pro Token. Sie zahlen nur für das, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, und der Durchsatz können eingeschränkt sein.

Standardbereitstellungen eignen sich für Arbeitslasten mit geringem bis mittlerem Volumen und hoher Spitzenlastintensität. Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen.

Regionale Bereitstellung

SKU-Name im Code: ProvisionedManaged

Mit regional bereitgestellten Bereitstellungen können Sie den erforderlichen Durchsatz in einer Bereitstellung angeben. Der Dienst weist dann die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass er für Sie bereit ist. Der Durchsatz wird in Bezug auf bereitgestellte Durchsatzeinheiten (PTUs) definiert, was eine normalisierte Möglichkeit ist, den Durchsatz für Ihre Bereitstellung darzustellen. Jedes Modellversionspaar erfordert unterschiedliche Mengen von PTUs für die Bereitstellung und stellt unterschiedliche Durchsatzmengen pro PTU bereit. Die mindesten PTU-Anforderungen variieren je nach Modell. Aktuelle Mindestwerte und verfügbare Kapazität finden Sie unter Bereitgestellte Durchsatzkonzepte.

Entwickler (für fein abgestimmte Modelle)

SKU-Name im Code: DeveloperTier

Der Entwicklerbereitstellungstyp ist nur für eine fein abgestimmte Modellauswertung ausgelegt. Sie bietet kostengünstige Tests von benutzerdefinierten Modellen, umfasst jedoch keine Datenaufbewahrungsgarantien oder SLA. Entwicklerbereitstellungen verfügen über eine feste Lebensdauer von 24 Stunden und werden nach Ablauf automatisch gelöscht. Weitere Informationen zur Nutzung des Entwicklerbereitstellungstyps finden Sie im Anpassungshandbuch.

Lösungen für Probleme bei der Bereitstellung

Häufige Probleme beim Erstellen oder Verwenden von Bereitstellungen:

Angelegenheit	Ursache	Auflösung
Bereitstellungstyp nicht verfügbar	Das Modell unterstützt den ausgewählten Typ nicht.	Überprüfen der Modellverfügbarkeit nach Bereitstellungstyp
Kontingent überschritten	Abonnementgrenzwert für Token pro Minute erreicht	Anfordern einer Kontingenterhöhung in Azure Portal oder Verwenden einer anderen Region
Region nicht verfügbar	Modell nicht in ausgewählter Region bereitgestellt	Auswählen einer Region aus der Verfügbarkeitsliste des Modells
Bereitgestellte Kapazität nicht verfügbar	Keine PTU-Kapazität in Region	Probieren Sie eine andere Region aus, oder verwenden Sie die globale Bereitstellung für eine breitere Verfügbarkeit

Informationen zu Kontingentbeschränkungen nach Bereitstellungstyp finden Sie unter Kontingente und Limits für Foundry-Modelle.

Einschränken von Bereitstellungstypen mit Azure Policy

Azure Policy hilft dabei, organisatorische Standards zu erzwingen und die Compliance im großen Maßstab zu bewerten. Über das Compliance-Dashboard können Sie den Gesamtzustand der Umgebung auswerten und eine detaillierte Analyse pro Ressource, pro Richtlinie ausführen. Azure Policy unterstützt auch die Massenwartung für vorhandene Ressourcen und die automatische Wartung für neue Ressourcen. Weitere Informationen zu Azure Policy und spezifischen integrierten Steuerelementen für Foundry Tools.

Verwenden Sie die folgende Richtlinie, um den Zugriff auf einen bestimmten Foundry-Bereitstellungstyp zu deaktivieren. Ersetzen Sie GlobalStandard durch den SKU-Namen für den Bereitstellungstyp, den Sie einschränken möchten.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-01

Bereitstellungstypen für Microsoft Foundry-Modelle

Vergleich der Bereitstellungsarten

Auswählen des richtigen Bereitstellungstyps

Nach Datenresidenz-Bestimmungen

Nach Arbeitsauslastungsmuster

Je nach Latenzanforderung

Speicherorte für die Datenverarbeitung

Globale Bereitstellungen

Datenzonen-Bereitstellungen

Globaler Standard

Global bereitgestellt

Globaler Stapel

Datenzonenstandard

Bereitgestellte Datenzone

Datenzonenstapel

Standard

Regionale Bereitstellung

Entwickler (für fein abgestimmte Modelle)

Lösungen für Probleme bei der Bereitstellung

Einschränken von Bereitstellungstypen mit Azure Policy

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen