Verwaltete Rechenressourcen in Microsoft Foundry (Vorschau)

Note

Die verwaltete Rechenkapazität in Foundry befindet sich derzeit in der öffentlichen Vorschau, und eine Registrierung ist erforderlich, um sie zu nutzen. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Verwaltete Rechenleistung (Vorschau) ist ein Bereitstellungstyp in Microsoft Foundry, der Open-Source-Modelle auf dedizierter GPU-Kapazität hostet, ohne dass Sie virtuelle Maschinen bereitstellen, einen Kubernetes-Cluster betreiben, Containerimages erstellen oder eine Laufzeitumgebung für die Modellbereitstellung verwalten müssen. Microsoft besitzt die GPU-Topologie, Laufzeit, Containerimage und Sicherheitspatching. Sie wählen das Modell, die Bereitstellungsvorlage, die Beschleunigerfamilie und das Skalierungsverhalten, die Ihrer Arbeitslast entsprechen.

Verwaltete Computeressourcen verwenden dieselbe Foundry-Ressource, dasselbe Projekt, denselben Endpunkt, dieselbe Authentifizierung, dieselbe Netzwerkkonfiguration, dieselben SDKs, dieselbe Observability und dieselbe Abrechnungsoberfläche wie andere Bereitstellungstypen in Foundry. Nachdem Sie ein Modell mit verwalteter Berechnung bereitgestellt haben, ist Ihr Anwendungscode mit jedem anderen Foundry-Modell identisch. nur der Bereitstellungsname ändert sich.

In diesem Artikel werden der Bereitstellungstyp für verwaltete Rechenressourcen in Foundry, die Konzepte, mit denen Sie arbeiten (Modellinstanzen, Bereitstellungsvorlagen, Beschleunigerfamilien und Laufzeitumgebungen), der Katalog, aus dem Sie bereitstellen können, Inferenzendpunkte, Skalierung, Abrechnung und Kontingente, Zugriffssteuerung sowie aktuelle Einschränkungen erläutert. Anleitungen zur schrittweisen Bereitstellung finden Sie unter Open-Source-Modelle mit verwalteten Rechenressourcen bereitstellen.

Wo sich verwaltete Rechenressourcen in Foundry einordnen lassen

Foundry bietet drei Bereitstellungstypen. Verwaltetes Computing ist der Bereitstellungstyp für Open-Source-Modelle mit dedizierter GPU-Kapazität.

Bereitstellungstyp Was es bietet Billing Am besten geeignet für:
Standard Bezahlung pro Token Foundry Models von Azure vertrieben Pro Eingabe- und Ausgabetoken Der Pfad mit dem geringsten Widerstand für die ersten Schritte; Datenverkehr mit Spitzen auf gehosteten Modellen ohne Kapazitätsplanung.
Bereitgestellter Durchsatz Von Azure verkaufte Gießereimodelle Reservierte Durchsatzeinheiten Vorhersehbare, dauerhafte Last für ausgewählte Foundry-Modelle, die von Azure mit konsistenter Latenz verkauft werden.
Verwaltete Rechenleistung Open-Source- und Communitymodelle aus dem Foundry-Katalog Stündlich pro Beschleunigerfamilie Hosten von Open-Source-Modellen auf dedizierten GPUs mit von Foundry verwalteten Laufzeiten, privaten Netzwerken und den gleichen SDKs wie die anderen Bereitstellungstypen.

Alle drei Bereitstellungstypen verwenden einen einzelnen Foundry-Endpunkt, dieselben Authentifizierungsmuster (Microsoft Entra ID und Schlüssel), dieselben SDKs, die gleiche Observability-Oberfläche und eine einzelne Rechnung. Sie können alle drei Bereitstellungstypen in einem einzigen Foundry-Projekt kombinieren und aus demselben Clientcode aufrufen.

Wichtige Begriffe

In diesem Abschnitt werden wichtige Konzepte behandelt, die Sie verstehen sollten, bevor Sie die verwaltete Computebereitstellung in Foundry verwenden.

Modellinstanz

Eine Modellinstanz ist die Einheit der Bereitstellung in verwalteten Rechenressourcen. Sie wählen keine virtuelle Computer-SKU oder Größe eines Knotens aus. Stattdessen beschreiben Sie die Workload in Modellbegriffen, und Foundry wählt die GPU-Topologie darunter aus. Eine Instanz kann je nach dem Modell und der Bereitstellungsvorlage, die Sie auswählen, einen oder mehrere Beschleuniger verwenden. Sie skalieren eine Bereitstellung, indem Sie die Anzahl der Modellinstanzen (den capacity Wert für die Bereitstellungs-SKU) ändern.

Bereitstellungsvorlage

Eine Bereitstellungsvorlage ist eine benannte, versionsbasierte Ressource, die codiert, wie ein bestimmtes Modell ausgeführt werden soll. Eine Vorlage heftet Folgendes an:

  • Die Laufzeit der Bereitstellung (z. B. vLLM oder SGLang).
  • Die Beschleunigerfamilie sowie die Anzahl pro Instanz (z. B. eine H100 mit 80 GB oder zwei A100 mit 80 GB).
  • Die unterstützte Kontextlänge und alle Quantisierungsoptionen.
  • Laufzeitspezifische Optimierung, wie z. B. Parser für Toolaufrufe und Schlussfolgerungen, Bewertungspfad, Integritätstests, Anforderungsparallelität sowie alle modellspezifischen Einstellungen zur Kontexterweiterung.

Wenn Sie eine Bereitstellung skripten, verweisen Sie auf die Vorlagen-ID, und Foundry behandelt den Rest. Jedes Modell im Katalog wird in der Regel mit mehreren Vorlagen ausgeliefert, die unterschiedliche Kompromisse zwischen Beschleunigerfamilie, Kontextlänge sowie Latenz und Durchsatz eingehen. Zum Beispiel stellt das Modell qwen3-32b vier Vorlagen nebeneinander bereit:

Template Runtime Beschleuniger Kontext
qwen--qwen3-32b--40k-nvidia-a100 vLLM 1 × A100 80 GB 40 K
qwen--qwen3-32b--40k-nvidia-h100 vLLM 1 × H100 80 GB 40 K
qwen--qwen3-32b--128k-nvidia-2xa100 vLLM 2 × A100 80 GB 128 K
qwen--qwen3-32b--128k-nvidia-2xh100 vLLM 2 × H100 80 GB 128 K

Die Auswahl einer Vorlage ist die einzige Stellschraube dafür, wie ein Modell ausgeführt wird.

Beschleunigerfamilien

Verwaltete Compute-Bereitstellungen zielen auf eine Beschleunigerfamilie ab, nicht auf eine bestimmte SKU für virtuelle Maschinen. Die unterstützten Familien sind:

  • NVIDIA A100 80 GB (A100_80GB)
  • NVIDIA H100 80 GB (H100_80GB)
  • AMD MI300X 192 GB (MI_300_192GB)

Das Kontingent wird je Beschleunigerfamilie und Region gewährt.

Modelllaufzeiten

Verwaltete Computeressourcen führen jedes Modell innerhalb einer Laufzeit der Bereitstellung aus, die von Microsoft erstellt, überprüft, signiert und mit Patches versehen wird. Sie betreiben oder erstellen Container nicht neu. Das Laufzeitportfolio wird je nach Modellarchitektur ausgewählt:

Runtime Verwendung für Hinweise
vLLM LLM-Bereitstellung mit hohem Durchsatz Kontinuierliche Batchverarbeitung, PagedAttention, Tensor-Parallelität, LoRA hot-swap. Standardeinstellung für die meisten großen Sprachmodelle.
SGLang LLM-Bereitstellung mit strukturierter Ausgabe JSON, regex und grammatikbeschränkte Generierung für Agent- und toolbasierte Workloads.
TensorRT-LLM NVIDIA-optimierte LLM-Bereitstellung Niedriglatente NVIDIA-Inferenz für Modellfamilien, bei denen TRT-LLM bei der Latenz oder beim Durchsatz überlegen ist.
NVIDIA NIM NVIDIA Inference Microservices TensorRT-LLM Back-End mit NIM-API-Kompatibilität für NVIDIA-veröffentlichte Modelle.
Text-Embeddings-Inferenz (TEI) Einbettungen, Neubewerter, Klassifizierer Beschleunigerspezifische Kernel zum Einbetten und Abrufen kritischer Pfade.
llama.cpp Bereitstellung von CPU und kleiner GPU GGUF-quantisierte Modelle hinter derselben OpenAI-kompatiblen API.
hf-serve Vision, Audio, Segmentierung, andere Transformers-native Pipelines Multimodellserver von Hugging Face für Modalitäten außerhalb des LLM und das Einbetten von schnellen Pfaden.

Laufzeitupgrades und CVE-Patches werden automatisch auf Live-Kundenbereitstellungen angewendet. Sie stellen Ihr Modell nicht erneut bereit, um eine Laufzeitaktualisierung aufzunehmen.

Unterstützte Modelle

Sie können verwaltete Rechenressourcen in Foundry verwenden, um Modelle aus der Hugging Face-Sammlung im Foundry-Modellkatalog bereitzustellen, die über die azure-huggingface Registry bereitgestellt werden. Diese Modelle weisen die folgenden Attribute auf:

  • Kuratiert und wöchentlich aktualisiert. Trendmodelle aus dem Hugging Face-Ökosystem werden kontinuierlich hinzugefügt, wenn die Community sie veröffentlicht. Der Katalog umfasst Text-, Seh-, Audio- und multimodale Modelle (LLMs und Sprachmodelle für Chat und Agenten), automatische Spracherkennung (ASR), Sprachübersetzung, Einbettungen, Segmentierung und Bildgenerierung.
  • Nur SafeTensors, kein nicht vertrauenswürdiger Code. Jedes Modell in der Sammlung wird geprüft. Repositorys, die die Ausführung von Drittanbieter-Python zum Ladezeitpunkt (trust_remote_codeMuster) erfordern, werden korrigiert oder ausgeschlossen.
  • Vorkonfigurierte Gewichtungen. Modellgewichte werden einmal von Hugging Face abgerufen, validiert und in von Microsoft verwaltetem Azure-Speicher in den Regionen gespeichert, in denen das Modell bereitgestellt wird. Containerimages befinden sich in einer Microsoft verwalteten Registrierung. Aus diesem Grund benötigen verwaltete Compute-Bereitstellungen keinen ausgehenden Netzwerkzugriff auf den Hugging Face Hub. Das bedeutet, dass die Bereitstellung in einem vollständig privaten Netzwerk ohne ausgehenden Netzwerkverkehr erfolgen kann.
  • Lizenzmetadaten bleiben erhalten. Jede Modellkarte im Katalog erfasst die Upstream-Lizenz und macht sie sichtbar. Die Lizenz wird im Rahmen der Kuratierung gemäß der Microsoft-Richtlinie für den Unternehmensvertrieb überprüft.

Pipeline zur Modellkuration

Jedes Modell in der Hugging Face-Sammlung durchläuft eine fünfstufige Härtungspipeline, bevor es im Katalog erscheint:

  1. Identify trending models: Microsoft identifiziert trendorientierte Modelle basierend auf Communitysignalen, Partneranfragen und Kundenanforderungen.
  2. Bildschirm für Compliance und Sicherheit: Jedes Modell wird einer Lizenzüberprüfung und -prüfung für trust_remote_code Muster und benutzerdefinierten ausführbaren Code unterzogen.
  3. Runtime-Containerimages erstellen, scannen und veröffentlichen: Von Microsoft erstellt, auf CVEs gescannt, signiert und in einer von Microsoft verwalteten Registry veröffentlicht.
  4. Hochladen von Gewichtungen zur Sicherung von Azure Storage: Die Validierung erfolgt anhand der Modellkarte und die Speicherung in den Regionen, in denen das Modell bereitgestellt wird.
  5. Validieren und veröffentlichen: Jede Kombination aus Modell, Laufzeit und Beschleuniger wird auf API-Konformität und Leistung getestet und anschließend mit einer Ein-Klick-Bereitstellungsoption im Katalog veröffentlicht.

Rückschlussendpunkte

Die Bereitstellung eines Modells auf verwalteter Rechenkapazität macht das Modell für die Inferenz über denselben einheitlichen Projektendpunkt von Foundry verfügbar, der auch von Pay-per-Token- und Bereitstellungen mit bereitgestelltem Durchsatz verwendet wird. Der Basisendpunkt weist das Muster https://<account>.services.ai.azure.comauf.

Endpunktrouten

Eine verwaltete Computebereitstellung kann über zwei Routenfamilien auf dem einheitlichen Endpunkt aufgerufen werden. Die gewählte Route hängt davon ab, ob das zugrunde liegende Modell und die Laufzeit eine openAI-kompatible API verfügbar machen.

Route Pfad Gilt für: Behavior
Pfad für verwaltete Bereitstellungen (OSS) <endpoint>/managed-deployments/<deployment-name>/ Alle verwalteten Bereitstellungen von Rechenressourcen Funktioniert für jedes Modell, das auf verwalteten Rechenressourcen bereitgestellt wird, einschließlich kundenspezifischer Modelle, die mit eigenem SDK ausgeliefert werden. Modelle, die /chat/completions bereitstellen, können mit dem OpenAI SDK auch über diese Route aufgerufen werden, indem der Client base_url auf diesen Pfad gesetzt wird.
OpenAI-kompatibler Pfad <endpoint>/openai/v1/ Verwaltete Computebereitstellungen, deren Laufzeit eine OpenAI-kompatible API verfügbar macht (z. B. vLLM, SGLang, TensorRT-LLM, llama.cpp für Chat oder Embeddings). Das OpenAI SDK kann die Bereitstellung aufrufen, indem base_url auf diesen Pfad gesetzt und der Bereitstellungsname im Feld model der Anforderungsnutzlast übergeben wird. Wenn eine Anforderung auf diese Route mit einem Bereitstellungsnamen ausgerichtet ist, dessen zugrunde liegendes Modell oder Laufzeit die openAI-kompatible Oberfläche nicht unterstützt, gibt die Laufzeit HTTP 404 zurück.

Wichtige Erkenntnisse:

  • Jede verwaltete Computebereitstellung ist auf der https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/-Route erreichbar.
  • Jede Bereitstellung, deren Laufzeit OpenAI-kompatibel ist, ist auch auf der https://<account>.services.ai.azure.com/openai/v1/ Route erreichbar.
  • Verwenden Sie die OpenAI-Route, wenn Sie Clientcode für andere Foundry-Bereitstellungen freigeben möchten.
  • Verwenden Sie die Route „managed-deployments“ für Modelle, die ein benutzerdefiniertes SDK mitliefern oder eine API verwenden, die nicht von OpenAI stammt.

Tip

Eine für Chatvervollständigungen verwaltete Computebereitstellung kann auch einem Foundry-Agent als administratorverbundenes Modell hinzugefügt und über die Foundry Responses-API mit demselben OpenAI-SDK aufgerufen werden, wobei dieselbe Authentifizierung, derselbe Endpunkt und dieselbe Observability wie bei jedem anderen Foundry-Modell verwendet werden.

Endpunktauthentifizierung

Verwaltete Compute-Bereitstellungen verwenden dieselben Authentifizierungsmethoden wie der übrige Foundry-Endpunkt:

  • Microsoft Entra ID (empfohlen). Fordern Sie ein Token für den https://ai.azure.com/.default-Bereich an und übergeben Sie es als Bearertoken im Authorization-Header. Um eine verwaltete Computebereitstellung über Entra ID aufzurufen, benötigt die aufrufende Identität die Rolle Foundry-Benutzer für den Reservierungsumfang des Foundry-Kontos. Das OpenAI-SDK im tokenbasierten Modus und DefaultAzureCredential funktionieren ohne für die verwalteten Computeressourcen spezifische Konfiguration.
  • Konto-API-Schlüssel. Übergeben Sie den Kontoschlüssel von Foundry als Authorization: Bearer <key>. Das OpenAI SDK sendet den Schlüssel in diesem Formular automatisch, wenn Sie das api_key Argument festlegen. Schlüssel gewähren den gleichen Zugriff auf verwaltete Computebereitstellungen wie bei Pay-per-Token- und PTU-Bereitstellungen auf demselben Konto.

Beide Authentifizierungsoptionen funktionieren auf beiden Endpunktrouten. End-to-End-Clientcodebeispiele (OpenAI SDK mit Entra ID oder API-Schlüssel) finden Sie unter Send a test request.

Scaling

Sie skalieren eine verwaltete Computebereitstellung, indem Sie die Anzahl der Modellinstanzen ändern. Wenn Sie den capacity Wert für die Bereitstellungs-SKU festlegen, passt Foundry die GPU-Anzahl entsprechend an. Die Gesamtzahl der GPUs entspricht der Anzahl der Modellinstanzen multipliziert mit der Anzahl der GPUs pro Instanz, die in der von Ihnen ausgewählten Bereitstellungsvorlage festgelegt sind. Foundry fordert Sie nicht auf, die Größe eines Knotens zu ändern oder eine VM-Familie zu wählen.

Abrechnungs-, Kontingent- und Bereitstellungsbereiche

Verwaltete Rechenleistung wird stündlich pro Beschleuniger abgerechnet. Im Gegensatz zu einer VM-basierten Infrastruktur, bei der Sie ganze GPU-Server mieten und für jede GPU im Server bezahlen, unabhängig davon, ob Ihr Modell sie nutzt oder nicht, fallen bei verwalteten Computeressourcen Gebühren für Modellinstanzen an. Foundry dimensioniert jedes Modell passend nach der Anzahl der GPUs, die es tatsächlich benötigt (eine, zwei, vier oder acht), damit Sie nicht für ungenutzte Beschleuniger zahlen, die Ihrer Workload nur zugeordnet sind. Die Kosten für eine Bereitstellung sind:

Beschleuniger pro Modellinstanz × Modellinstanzen × Betriebsstunden × Stundensatz

Stundensätze variieren je nach Beschleunigerfamilie (A100, H100, MI300X) und bereitstellungsbereich. Aktuelle Preise finden Sie im Azure Preisrechner.

Bereitstellungsumfang

Verwaltete Computeressourcen (Vorschau) unterstützt derzeit die Bereitstellung Global, die über den SKU-Namen GlobalManagedCompute der Bereitstellung festgelegt ist. Die globale Bereitstellung bietet Ihnen die größte Beschleunigerkapazität zum niedrigsten Preis.

Quota

Das verwaltete Rechenkontingent wird pro Beschleunigerfamilie und Region über den Foundry-Kontingentprozess gewährt. Verwaltetes Computekontingent ist aus Azure VM-Kontingent zu trennen. Während das Azure-VM-Kontingent ein Infrastruktur-as-a-Service-Kontingent ist, das an bestimmte regionale VM-SKUs gebunden ist, ist Managed Compute ein verwaltetes PaaS-Angebot. Vorhandenes Azure VM-Kontingent kann nicht auf eine verwaltete Computebereitstellung angewendet werden.

Ausführliche Informationen zum Anzeigen der Nutzung, zum Zuweisen von Kosten zu einem Projekt und zum Anfordern von Kontingenten finden Sie unter Planen und Verwalten von Kosten für Microsoft Foundry und Manage and increase quotas.

Zugriffskontrolle

Verwaltete Rechenressourcen nutzen Foundrys Modell für rollenbasierte Zugriffskontrolle (RBAC). Die Azure-Ressourcenanbietervorgänge, die zum Erstellen, Lesen, Aktualisieren und Löschen einer Bereitstellung verwalteter Computeressourcen erforderlich sind, sind in Rollenbasierte Zugriffssteuerung für Microsoft Foundry – Steuerungsebenenvorgänge für verwaltete Computeressourcen dokumentiert, zusammen mit den integrierten Rollen, die die einzelnen Vorgänge gewähren.

Auf einen Blick:

  • Mitwirkender für Cognitive Services (oder Foundry-Besitzer / Foundry-Kontobesitzer) gewährt vollständige Erstellungs-, Lese-, Aktualisierungs- und Löschberechtigungen für verwaltete Computebereitstellungen.
  • Cognitive Services-Benutzer und Foundry-Benutzer gewähren schreibgeschützten Zugriff auf Bereitstellungen.
  • Foundry Project Manager gewährt Lesezugriff auf Bereitstellungen und auf Nutzungsdaten von Beschleunigern, jedoch keine Berechtigung zum Erstellen oder Löschen.

Rückschlüsse (Datenebene) auf dem einheitlichen Foundry-Endpunkt folgen dem standardmäßigen Foundry-Muster, indem Sie die Rolle Foundry-Benutzer im Reservierungsumfang des Foundry-Kontos zuweisen, um Bereitstellungen mit Microsoft Entra ID aufzurufen.

Einschränkungen

Verwaltete Rechenleistung befindet sich in öffentlicher Vorschau. Beachten Sie Folgendes vor der Bereitstellung von Produktionsworkloads:

  • Inhaltsfilterung: Integrierte Filter für Azure KI Inhaltssicherheit gehören während der öffentlichen Vorschau nicht zum Datenpfad der verwalteten Rechenressourcen. Wenn Sie die Filterung auf Anforderungsebene oder Reaktionsebene benötigen, rufen Sie die Azure KI Inhaltssicherheit-APIs direkt aus Ihrer Anwendung auf.
  • Regionale Verfügbarkeit: Verwaltete Rechenleistung startet mit globalem Geltungsbereich. Bereitstellungen von Datenzonen und zusätzlichen Regionen werden eingeführt – siehe allgemeine Verfügbarkeitsmatrix für die aktuelle Abdeckung.
  • Preisgestaltung: Stundensätze nach Beschleunigerfamilie und Region, reservierte Kapazität und Laufzeitrabatte für die verwaltete Computebereitstellung in der Vorschau werden laufend weiterentwickelt. Aktuelle Preise finden Sie im Azure-Preisrechner.