Übersicht über die Bereitstellung für Microsoft Foundry-Modelle

Microsoft Foundry Models ist der Hub zum Entdecken und Bereitstellen einer breiten Palette von KI-Modellen für generative KI-Anwendungen. Um ein Modell für Rückschlussanforderungen verfügbar zu machen, stellen Sie es bereit. Foundry bietet je nach Modelltyp und Infrastrukturbedarf zwei Bereitstellungsoptionen.

Tip

Sie müssen nicht immer eine Bereitstellung erstellen. Mit Instant-Modellen (Vorschau) können Sie unterstützte Modelle per Name aufrufen und sofort Inferenzen ausführen – keine Bereitstellung erforderlich.

Bereitstellungsoptionen

Foundry bietet zwei Bereitstellungsoptionen:

  • Standardbereitstellung in Foundry-Ressourcen — Für Foundry-Modelle, einschließlich von Azure angebotener Foundry Models (auch als Azure Direct Models oder ADM bezeichnet) und ausgewählter Modelle von Partnern und der Community. Diese Option ist der bevorzugte und fähigste Bereitstellungspfad.
  • Verwaltete Computebereitstellung (Vorschau) – Verfügbar für alle Open Source Software (OSS)-Modelle, einschließlich Modelle von Partner und Community sowie benutzerdefinierte Modelle.

Das Foundry-Portal wählt automatisch die entsprechende Bereitstellungsoption basierend auf dem ausgewählten Modell aus.

Standardbereitstellung in Foundry-Ressourcen Verwaltete Rechenleistung
Modelle ADM-Modelle (Azure OpenAI + Partnermodelle, die über Azure abgerechnet werden) und ausgewählte Modelle von Partnern und der Community Andere Modelle im Modellkatalog von Partnern und benutzerdefinierten Modellen. Modelle von Hugging Face, NVIDIA NIMs, Industriemodelle und Databricks.
Abrechnung Tokenverwendung oder bereitgestellte Durchsatzeinheiten (PTU) Pro Stunde pro Beschleuniger-SKU
Datenverarbeitung Regional, Datenzone oder global Nur regional
Inhaltsfilterung Integriert und anpassbar Über Azure KI Inhaltssicherheit-APIs

Standardbereitstellung in Foundry-Ressourcen

Die Standardbereitstellung in Foundry-Ressourcen ist die bevorzugte Bereitstellungsoption in Foundry. Sie unterstützt die breiteste Palette von Funktionen und Bereitstellungstypen.

Welche Modelle verwenden die Standardbereitstellung?

Alle Foundry-Modelle, einschließlich der von Azure verkauften Foundry-Modelle und ausgewählter Modelle von Partnern und der Community, verwenden die Standardbereitstellung. Von Azure angebotene Foundry-Modelle umfassen alle Azure OpenAI-Modelle sowie ausgewählte Modelle führender Anbieter, die über Ihr Azure-Abonnement abgerechnet werden, durch Azure-Service-Level-Agreements abgedeckt sind und von Microsoft unterstützt werden. Zu den ausgewählten Modellen von Partnern und der Community, die die Standardbereitstellung nutzen, gehören Anthropic-Modelle und spezielle Modelle von Partnern wie Mistral, Cohere und Meta.

Fähigkeiten

Die Standardbereitstellung unterstützt:

  • Mehrere Bereitstellungstypen – Global Standard, Data Zone Standard, Regional Standard, Provisioned, Batch und mehr. Jeder Typ steuert, wo Daten verarbeitet werden und wie Sie bezahlen. Ausführliche Informationen finden Sie unter Bereitstellungstypen für Microsoft Foundry-Modelle.
  • Flexibilität bei der Datenverarbeitung – Wählen Sie regionale, Datenzone (USA oder EU) oder globale Verarbeitung basierend auf Ihren Complianceanforderungen aus.
  • Inhaltsfilter – Integrierte Azure KI Inhaltssicherheit-Filter mit anpassbaren Konfigurationen.
  • Schlüssellose Authentifizierung – Microsoft Entra ID (empfohlen) und schlüsselbasierte Authentifizierung.
  • Private Netzwerke – Virtuelle Netzwerkintegration für sicheren Zugriff.
  • Bereitgestellter Durchsatz – Reservieren der Kapazität mit PTUs für eine vorhersagbare Leistung mit geringer Latenz. Ausführliche Informationen finden Sie unter "Bereitgestellter Durchsatz".

Ressourcenanforderungen

Die Standardbereitstellung ist verfügbar in:

  • Foundry-Ressourcen – Der primäre Ressourcentyp für neue Foundry-Projekte. Kein KI-Hub erforderlich.
  • Azure OpenAI-Ressourcen – Wenn Sie Azure OpenAI-Ressourcen verwenden, zeigt der Modellkatalog nur Azure OpenAI-Modelle für die Bereitstellung an. Upgrade auf eine Foundry-Ressource für den Zugriff auf den vollständigen Satz von Foundry Models.

Informationen zu den ersten Schritten mit der Bereitstellung finden Sie unter Bereitstellen von Microsoft Foundry Models im Foundry-Portal oder bereitstellen von Modellen mit Azure CLI und Bicep.

Bereitstellung verwalteter Rechenkapazität (Vorschau)

Note

Die verwaltete Rechenkapazität in Foundry befindet sich derzeit in der öffentlichen Vorschau, und eine Registrierung ist erforderlich, um sie zu nutzen. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Verwaltete Rechenleistung in Foundry (Vorschau) ist eine verwaltete GPU-Plattform-as-a-Service (PaaS), die Open-Source-Modelle und Modelle mit benutzerdefinierten Gewichten auf dedizierten GPU-Kapazitäten hostet. Sie greifen auf verwaltete Compute-Bereitstellungen über denselben Foundry-Projektendpunkt wie auf andere Bereitstellungstypen zu, ohne virtuelle Maschinen, Cluster oder Serving-Laufzeiten selbst verwalten zu müssen. Foundry dimensioniert die Bereitstellung, stellt die Beschleuniger bereit und hält die Laufzeitumgebung mit Patches auf dem neuesten Stand.

Von Bedeutung

Verwaltete Rechenleistung unterstützt Open-Source-, Partner-, Branchen- und benutzerdefinierte Modelle. Verwaltete Computebereitstellungen werden auf dem einheitlichen Foundry-Projektendpunkt bereitgestellt, wobei die gleiche Authentifizierung, Netzwerk- und SDK-Oberfläche verwendet wird.

Welche Modelle verwenden verwaltete Rechenressourcen?

Beispiele für Modellsammlungen, für die eine verwaltete Berechnung erforderlich ist, sind:

  • Hugging Face
  • Einige Metamodelle
  • Einige Mistral-Modelle
  • NVIDIA Inference Microservices (NIMs)
  • Industriemodelle (Saifr, Rockwell, Bayer, Cerence, Sichtmaschine, Page AI, SDAIA)
  • Databricks
  • Benutzerdefinierte Modelle

Microsoft Foundrys Katalog umfasst 10.000 Open-Source- und Partnermodelle, mit ca. 50 neuen Modellen, die jeden Monat veröffentlicht werden.

Fähigkeiten

Verwaltete Rechenleistung (Vorschau) unterstützt:

  • Einheitlicher Foundry-Endpunkt und Authentifizierung — Verwenden Sie denselben Projektendpunkt, dieselben API-Schlüssel, Microsoft Entra ID und dieselbe private Netzwerkkonfiguration wie bei Pay-per-Token- und Bereitstellungen mit bereitgestelltem Durchsatz. Inferenzrouten verwenden <endpoint>/managed-deployments/<deployment-name>/. Mit Chatvervollständigungen kompatible Laufzeiten funktionieren auch auf der Standardroute /openai/v1/ mit dem OpenAI-SDK.
  • Dimensionierung von Modellinstanzen — Bereitstellungen werden modellzentriert dimensioniert. Sie müssen keine SKUs für virtuelle Maschinen auswählen, da Foundry die GPUs pro Instanz anhand von Modellgröße, Architektur, Kontextlänge sowie danach auswählt, ob die Arbeitsauslastung auf geringe Latenz oder hohen Durchsatz optimiert ist.
  • Optimierte Rückschlusslaufzeiten: Von Microsoft kuratierte vLLM-, SGLang- und NVIDIA-NIM-Container mit kontinuierlicher Batch-Verarbeitung, spekulativer Dekodierung, Tensor-Parallelität und LoRA-Hot-Swap.
  • Acceleratorfamilien – A100 (80 GB), H100 (80 GB), H200 (141 GB) und MI300X.
  • Automatische Skalierung und Herunterskalieren auf null — Automatisch basierend auf Live-Datenverkehr skalieren oder manuell skalieren. Konfigurieren Sie ein Leerlaufzeitlimit so, dass das Deployment auf null skaliert, wenn kein Datenverkehr mehr eingeht, sodass die Abrechnung sofort stoppt.
  • Von Microsoft verwaltete Laufzeiten – Microsoft ist für die Bereitstellung der Laufzeiten, Basis-Containerimages und Sicherheitspatches verantwortlich. Updates werden automatisch auf aktive Bereitstellungen angewendet.
  • Observability-Metriken – Jede Bereitstellung gibt die Anzahl der API-Aufrufe nach Statuscode und Perzentilen der Antwortzeit aus. Modelle zur Chatvervollständigung geben außerdem die Anzahl der Eingabe- und Ausgabetoken, TTFT-Perzentile (Time-to-First-Token) und Perzentile der gesamten Antwortzeit aus, und zwar nach der Zeit gruppiert.

Abrechnung und Kontingent

Die Abrechnung der verwalteten Rechenleistung erfolgt stündlich pro Beschleuniger-SKU, wobei der Durchsatz pro GPU die zugrunde liegende Abrechnungseinheit bildet. Automatische Skalierung und Skalierung auf null passen die Kosten dem tatsächlichen Datenverkehr an, sodass die Abrechnung sofort endet, wenn die Instanzen herunterskaliert werden.

Das Kontingent wird pro Beschleuniger-SKU und pro Region über den Foundry-Kontingentprozess gewährt und ist vom Azure-VM-Kontingent getrennt. Virtuelle Azure-Computer sind ein Infrastructure-as-a-Service-(IaaS-)Angebot mit regionalen SKUs; verwaltete Rechenleistung ist ein PaaS-Angebot, das auf globale Verarbeitung und Data-Zone-Verarbeitung ausgerichtet ist. Vorhandenes Azure VM-Kontingent kann nicht auf eine verwaltete Computebereitstellung angewendet werden.

Verwaltete Rechenkapazität ist derzeit für globale Bereitstellungen verfügbar. Preisschätzungen finden Sie im Azure Preisrechner.

Get started

Vergleich der Bereitstellungsoptionen

Verwenden Sie die Standardbereitstellung in Foundry-Ressourcen wann immer möglich. In der folgenden Tabelle werden die Funktionen in den beiden Bereitstellungsoptionen verglichen:

Fähigkeit Standardbereitstellung in Foundry-Ressourcen Verwaltete Rechenleistung
Welche Modelle können bereitgestellt werden? Alle Foundry Models, einschließlich der von Azure angebotenen Foundry Models und ausgewählter Modelle von Partnern und der Community Open-Source- und Partnermodelle aus dem Modellkatalog, NVIDIA NIM und Industriemodellen
Bereitstellungsressource Foundry-Ressource Gießereiprojekt
Erfordert AI-Zentrum No No
Datenverarbeitungsoptionen Regional, Datenzone, global Global
Privates Netzwerk Ja Ja
Inhaltsfilterung Integriert und anpassbar In der öffentlichen Vorschau nicht verfügbar
Schlüssellose Authentifizierung Ja (Microsoft Entra ID und schlüsselbasiert) Ja (Microsoft Entra ID und schlüsselbasiert)
Abrechnung Tokenverwendung oder bereitgestellte Durchsatzeinheiten Pro Stunde pro Beschleuniger-SKU

Tip

Ausführliche Preisinformationen finden Sie unter Planen und Verwalten von Kosten für Microsoft Foundry.