Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn Sie ein Modell in Microsoft Foundry bereitstellen, wählen Sie einen Bereitstellungstyp aus, der folgendes bestimmt:
- Wo Ihre Daten verarbeitet werden (global, Datenzone oder einzelne Region)
- Zahlungsweise (Pay-per-Token oder reservierte Kapazität)
- Leistungsmerkmale (Latenzabweichung, Durchsatzgrenzwerte)
Der Dienst bietet zwei Hauptkategorien: Standard (Pay-per-Token) und bereitgestellt (reservierte Kapazität). Innerhalb jeder Kategorie können Sie basierend auf Ihren Complianceanforderungen globale, Datenzone oder regionale Verarbeitung auswählen.
Wichtig
Datenstandort für alle Bereitstellungstypen: Daten im Ruhezustand verbleiben in der angegebenen Azure-Region. Allerdings werden Schlussfolgerungsdaten wie folgt verarbeitet:
- GlobalTypen: Kann in einer beliebigen Azure Region verarbeitet werden
- DataZoneTypen: Verarbeitet nur innerhalb der Microsoft angegebenen Datenzone (USA oder EU)
- Standard-/Regionaltypen : Verarbeitet in der Bereitstellungsregion
Vergleich der Bereitstellungsarten
| Bereitstellungstyp | SKU-Code | Datenverarbeitung | Abrechnung | Optimal für |
|---|---|---|---|---|
| Globaler Standard | GlobalStandard |
Beliebige Azure Region | Pay-per-Token | Allgemeine Workloads, höchstes Kontingent |
| Global zugewiesen | GlobalProvisionedManaged |
Beliebige Azure Region | Reservierte PTU | Vorhersehbarer hoher Durchsatz |
| Globale Stapelverarbeitung | GlobalBatch |
Beliebige Azure Region | 50% Rabatt, 24 Stunden | Große asynchrone Aufträge |
| Data Zone Standard | DataZoneStandard |
Innerhalb der Datenzone | Pay-per-Token | EU/US-Datenzonenkonformität |
| Bereitgestellte Datenzone | DataZoneProvisionedManaged |
Innerhalb der Datenzone | Reservierte PTU | Datenzone + vorhersehbarer Durchsatz |
| Datenzonenbatch | DataZoneBatch |
Innerhalb der Datenzone | 50% Rabatt | Große asynchrone Aufträge mit Datenzone |
| Standard | Standard |
Einzelne Region | Pay-per-Token | Regionale Compliance, geringes Volumen |
| Regionale Bereitstellung | ProvisionedManaged |
Einzelne Region | Reservierte PTU | Regionale Compliance + Durchsatz |
| Entwickler | DeveloperTier |
Beliebige Azure Region | Pay-per-Token | Nur fein abgestimmte Modellauswertung |
Hinweis
Nicht alle Modelle unterstützen alle Bereitstellungstypen. Überprüfen Sie Foundry-Modelle, die direkt von Azure auf Modellverfügbarkeit nach Bereitstellungstyp und Region verkauft werden.
Hinweis
SLA-Garantien variieren je nach Bereitstellungstyp. Bereitgestellte Typen bieten garantierten Durchsatz und geringere Latenzabweichung. Standardtypen bieten Best-Effort-Service. Entwicklerbereitstellungen enthalten keine SLA. Ausführliche Informationen finden Sie im Azure SLA für den Azure OpenAI Service.
Tipp
Detaillierte Preise finden Sie unter Azure OpenAI Service Pricing.
Auswählen des richtigen Bereitstellungstyps
Verwenden Sie die folgenden Kriterien, um einen Bereitstellungstyp auszuwählen:
Nach Datenresidenz-Bestimmungen
- Keine Einschränkungen: Verwenden von Global Standard oder Global Provisioned
- EU-Datenzone: Verwenden Sie DataZone Standard oder DataZone Provisioned in einer EU-Region
- US-Datenzone: Verwenden von DataZone Standard oder DataZone Provisioned in einer US-Region
- Nur eine Region: Standard- oder Regionalbereitstellung verwenden
Nach Arbeitsauslastungsmuster
- Variabler, burstartiger Datenverkehr: Standard oder Global Standard (Pay-per-Token) verwenden
- Konsistentes hohes Volumen: Verwenden von bereitgestellten Typen (reservierte Kapazität)
- Große Batchaufträge (nicht zeitempfindlich): Verwenden des globalen Batches oder des DataZone-Batches (50% Kosteneinsparungen)
- Feinabstimmung der Modellauswertung: Verwenden sie Entwickler (keine SLA, niedrigste Kosten)
Je nach Latenzanforderung
- Niedrige Latenzvarianz erforderlich: Verwenden Sie bereitgestellte Typen
- Latenzabweichung akzeptabel: Standardtypen verwenden
Speicherorte für die Datenverarbeitung
Für Standardbereitstellungen gibt es drei Optionen: global, Datenzone und Azure Geografie. Für bereitgestellte Bereitstellungen gibt es zwei Optionen: global und Azure Geografie. Global Standard ist ein häufiger Ausgangspunkt für die meisten Workloads.
Globale Bereitstellungen
Globale Bereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Globale Bereitstellungen bieten die höchsten Anfänglichen Durchsatzgrenzwerte und die größtmögliche Modellverfügbarkeit.
Bei Workloads mit hohem Volumen kann es zu einer erhöhten Latenzvariation kommen. Wenn Sie eine geringere Latenzabweichung im Maßstab benötigen, verwenden Sie bereitgestellte Bereitstellungstypen.If you require lower latency variance at scale, use provisioned deployment types.
Globale Bereitstellungen erhalten zuerst neue Modelle und Features.
Datenzonen-Bereitstellungen
Bei globalen Bereitstellungstypen können Eingabeaufforderungen und Antworten in jeder Geografie verarbeitet werden, in der das Modell bereitgestellt wird. Für DataZone-Bereitstellungstypen werden Eingabeaufforderungen und Antworten nur innerhalb der angegebenen Datenzone verarbeitet:
- USA: In den USA verarbeitete Daten
- Europäische Union: Daten, die innerhalb eines EU-Mitgliedslandes verarbeitet werden
Weitere Informationen finden Sie im Abschnitt "Modellregionenverfügbarkeit nach Bereitstellungstyp" von Foundry Models, die direkt von Azure verkauft werden.
Hinweis
Wenn bei den Bereitstellungstypen "Global Standard" und "Data Zone Standard" eine Unterbrechung des Dienstes auftritt, ist der gesamte Datenverkehr betroffen, der ursprünglich an diese Region weitergeleitet wurde. Weitere Informationen finden Sie im Handbuch für hohe Verfügbarkeit und Notfallwiederherstellung.
Globaler Standard
- SKU-Name im Code:
GlobalStandard
Globale Standardbereitstellungen verwenden die globale Infrastruktur Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet das höchste Standardkontingent und beseitigt die Notwendigkeit des Lastenausgleichs zwischen mehreren Ressourcen.
Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der "Kontingente" Seite. Für Anwendungen, die eine geringere Latenzabweichung bei einer großen Workloadauslastung erfordern, sollten Sie den bereitgestellten Durchsatz in Betracht ziehen.
Global Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).
Global bereitgestellt
- SKU-Name im Code:
GlobalProvisionedManaged
Global bereitgestellte Bereitstellungen verwenden die globale Infrastruktur von Azure, um den Datenverkehr dynamisch an verfügbare Rechenzentren weiterzuleiten. Dieser Bereitstellungstyp bietet reservierte Modellverarbeitungskapazität für vorhersehbaren Durchsatz, wobei globales Routing mit garantierter Kapazität kombiniert wird.
Mit bereitgestelltem Durchsatz erwerben Sie eine feste Anzahl von bereitgestellten Durchsatzeinheiten (PTUs), die eine bestimmte Verarbeitungskapazität garantieren. Dieser Bereitstellungstyp bietet eine niedrigere und konsistentere Latenz als globaler Standard. Weitere Informationen finden Sie unter Bereitgestellte Durchsatzkonzepte.
Globaler Stapel
- SKU-Name im Code:
GlobalBatch
Globaler Batch bewältigt groß angelegte und hochvolumige Verarbeitungsaufgaben. Sie können asynchrone Gruppen von Anforderungen mit separaten Kontingenten und einer 24-Stunden-Zielumlaufzeit mit 50% weniger Kosten als Global Standard verarbeiten. Bei der Batchverarbeitung senden Sie anstelle des Sendens einer Anforderung nach der anderen viele Anforderungen gesammelt in einer einzelnen Datei. Globale Batchanforderungen verfügen über ein separates eingereihtes Tokenkontingent, das jegliche Unterbrechung Ihrer Online-Workloads vermeidet.
Häufige Anwendungsfälle:
- Umfangreiche Datenverarbeitung: Analysieren von Datasets parallel.
- Inhaltsgenerierung: Erstellen Sie große Textmengen, z. B. Produktbeschreibungen oder Artikel.
- Dokumentüberprüfung und Zusammenfassung: Verarbeiten und Zusammenfassen von langwierigen Dokumenten.
- Automatisierung des Kundensupports: Behandeln Sie zahlreiche Abfragen gleichzeitig.
- Datenextraktion und -analyse: Extrahieren und Analysieren von Informationen aus großen Mengen unstrukturierter Daten.
- Aufgaben für die Verarbeitung natürlicher Sprachen (Natural Language Processing, NLP): Durchführen einer Stimmungsanalyse oder Übersetzung in großen Datasets.
Hinweis
Batchbereitstellungen tauschen Echtzeitreaktionsfähigkeit gegen Kosteneinsparungen ein. Batchanforderungen verfügen nicht über eine SLA in Echtzeit – sie zielen innerhalb von 24 Stunden auf den Abschluss ab, können aber länger dauern.
Datenzonenstandard
- SKU-Name im Code:
DataZoneStandard
Data Zone Standard-Bereitstellungen leiten Datenverkehr dynamisch an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weiter. Dieser Bereitstellungstyp bietet höhere Standardkontingente als geografiebasierte Bereitstellungstypen, während Daten innerhalb der angegebenen Zone beibehalten werden.
Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen. Der Schwellenwert wird pro Modell festgelegt. Weitere Informationen finden Sie auf der Seite "Kontingente und Beschränkungen". Bei Workloads, die eine geringe Latenzabweichung bei großem Volumen erfordern, sollten Sie provisionierte Bereitstellungstypen in Betracht ziehen.
Data Zone Standard unterstützt die Prioritätsverarbeitung (Vorschau) für schnellere Reaktionszeiten auf pay-as-you-go-Basis. Weitere Informationen finden Sie unter Prioritätsverarbeitung für Foundry-Modelle (Vorschau).
Bereitgestellte Datenzone
- SKU-Name im Code:
DataZoneProvisionedManaged
Bereitgestellte Datenzonen-Implementierungen leiten den Datenverkehr dynamisch innerhalb der von Microsoft spezifizierten Datenzone (USA oder EU) weiter und bieten dabei reservierte Verarbeitungskapazität für Modelle. Dieser Bereitstellungstyp kombiniert die Datenzonenkonformität mit hohem und vorhersehbaren Durchsatz.
Datenzonenstapel
- SKU-Name im Code:
DataZoneBatch
Datenzonenbatchbereitstellungen bieten die gleiche Funktionalität wie Global Batch, einschließlich 50 % Kostenersparnis und 24-Stunden-Bearbeitungszeit. Der Datenverkehr wird nur an Rechenzentren innerhalb der Microsoft definierten Datenzone (USA oder EU) weitergeleitet.
Standard
- SKU-Name im Code:
Standard
Standardbereitstellungen verwenden die Abrechnung pro Token. Sie zahlen nur für das, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, und der Durchsatz können eingeschränkt sein.
Standardbereitstellungen eignen sich für Arbeitslasten mit geringem bis mittlerem Volumen und hoher Spitzenlastintensität. Kunden mit hohem konsistenten Volumen können eine höhere Latenzvariabilität aufweisen.
Regionale Bereitstellung
- SKU-Name im Code:
ProvisionedManaged
Mit regional bereitgestellten Bereitstellungen können Sie den erforderlichen Durchsatz in einer Bereitstellung angeben. Der Dienst weist dann die erforderliche Modellverarbeitungskapazität zu und stellt sicher, dass er für Sie bereit ist. Der Durchsatz wird in Bezug auf bereitgestellte Durchsatzeinheiten (PTUs) definiert, was eine normalisierte Möglichkeit ist, den Durchsatz für Ihre Bereitstellung darzustellen. Jedes Modellversionspaar erfordert unterschiedliche Mengen von PTUs für die Bereitstellung und stellt unterschiedliche Durchsatzmengen pro PTU bereit. Die mindesten PTU-Anforderungen variieren je nach Modell. Aktuelle Mindestwerte und verfügbare Kapazität finden Sie unter Bereitgestellte Durchsatzkonzepte.
Entwickler (für fein abgestimmte Modelle)
- SKU-Name im Code:
DeveloperTier
Der Entwicklerbereitstellungstyp ist nur für eine fein abgestimmte Modellauswertung ausgelegt. Sie bietet kostengünstige Tests von benutzerdefinierten Modellen, umfasst jedoch keine Datenaufbewahrungsgarantien oder SLA. Entwicklerbereitstellungen verfügen über eine feste Lebensdauer von 24 Stunden und werden nach Ablauf automatisch gelöscht. Weitere Informationen zur Nutzung des Entwicklerbereitstellungstyps finden Sie im Anpassungshandbuch.
Lösungen für Probleme bei der Bereitstellung
Häufige Probleme beim Erstellen oder Verwenden von Bereitstellungen:
| Angelegenheit | Ursache | Auflösung |
|---|---|---|
| Bereitstellungstyp nicht verfügbar | Das Modell unterstützt den ausgewählten Typ nicht. | Überprüfen der Modellverfügbarkeit nach Bereitstellungstyp |
| Kontingent überschritten | Abonnementgrenzwert für Token pro Minute erreicht | Anfordern einer Kontingenterhöhung in Azure Portal oder Verwenden einer anderen Region |
| Region nicht verfügbar | Modell nicht in ausgewählter Region bereitgestellt | Auswählen einer Region aus der Verfügbarkeitsliste des Modells |
| Bereitgestellte Kapazität nicht verfügbar | Keine PTU-Kapazität in Region | Probieren Sie eine andere Region aus, oder verwenden Sie die globale Bereitstellung für eine breitere Verfügbarkeit |
Informationen zu Kontingentbeschränkungen nach Bereitstellungstyp finden Sie unter Kontingente und Limits für Foundry-Modelle.
Einschränken von Bereitstellungstypen mit Azure Policy
Azure Policy hilft dabei, organisatorische Standards zu erzwingen und die Compliance im großen Maßstab zu bewerten. Über das Compliance-Dashboard können Sie den Gesamtzustand der Umgebung auswerten und eine detaillierte Analyse pro Ressource, pro Richtlinie ausführen. Azure Policy unterstützt auch die Massenwartung für vorhandene Ressourcen und die automatische Wartung für neue Ressourcen. Weitere Informationen zu Azure Policy und spezifischen integrierten Steuerelementen für Foundry Tools.
Verwenden Sie die folgende Richtlinie, um den Zugriff auf einen bestimmten Foundry-Bereitstellungstyp zu deaktivieren. Ersetzen Sie GlobalStandard durch den SKU-Namen für den Bereitstellungstyp, den Sie einschränken möchten.
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
Verwandte Inhalte
- Deploy Microsoft Foundry Models im Foundry-Portal
- Erstellen und Bereitstellen einer Azure OpenAI-Ressource in Microsoft Foundry-Modellen
- Von Azure direkt verkaufte Foundry-Modelle
- Verfügbarkeit von Modellregionen nach Bereitstellungstyp
- Microsoft Foundry Models Kontingente und Grenzwerte
- Bereitgestellte Durchsatzkonzepte
- Globale Batchverarbeitung
- Azure OpenAI Service Preise
- Datenschutz und Sicherheit für Foundry Models
- Hohe Verfügbarkeit und Notfallwiederherstellung