Open-Source-Modelle mit verwalteter Rechenleistung bereitstellen (Vorschau)

Note

Die verwaltete Rechenkapazität in Foundry befindet sich derzeit in der öffentlichen Vorschau, und eine Registrierung ist erforderlich, um sie zu nutzen. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Die verwaltete Bereitstellung von Rechenkapazität (Vorschau) in Microsoft Foundry stellt Open-Source-Modelle auf dedizierter GPU-Kapazität bereit. Microsoft besitzt die GPU-Topologie, Laufzeit, Containerimage und Sicherheitspatching. Sie wählen das Modell, die Bereitstellungsvorlage, die Beschleunigerfamilie und das Skalierungsverhalten, die Ihrer Arbeitslast entsprechen. In diesem Artikel wird der End-to-End-Workflow für die Bereitstellung eines Open-Source-Modells auf verwalteter Compute in Microsoft Foundry erläutert.

In diesem Artikel erfahren Sie, wie Sie:

Auswählen eines Modells im Modellkatalog
Bereitstellungsvorlage auswählen
Bereitstellen des Modells mithilfe des Foundry-Portals oder Python SDK
Durchführen der Ableitung mithilfe des OpenAI SDK
Skalieren und Überwachen der Bereitstellung
Anfordern eines weiteren Kontingents

Eine Übersicht über die Bereitstellung verwalteter Rechenressourcen in Foundry, einschließlich Modellinstanzen, Bereitstellungsvorlagen, Laufzeiten, Beschleunigerfamilien, Abrechnung und den aktuellen Einschränkungen, finden Sie unter Managed compute in Microsoft Foundry (Preview).

Voraussetzungen

Ein aktives Azure-Abonnement. Informationen zum Erstellen finden Sie unter Create your Azure free account.
Eine Ressourcengruppe im Abonnement, in der Sie über die Berechtigung zum Erstellen von Ressourcen verfügen.
Ein Microsoft Foundry-Konto (Cognitive Services-Konto AIServices) und ein Foundry-Projekt. Informationen zum Erstellen eines Projekts finden Sie unter Erstellen eines Foundry-Projekts.
Die folgenden Azure-Rollenzuweisungen im Gültigkeitsbereich des Foundry-Kontos:
- Cognitive Services Contributor (oder Foundry Owner / Foundry Account Owner) - erforderlich, um verwaltete Compute-Bereitstellungen zu erstellen, zu aktualisieren und zu löschen. Siehe Rollenbasierte Zugriffssteuerung für Microsoft Foundry – Vorgänge der verwalteten Computesteuerungsebene.
- Foundry User — erforderlich, um die Bereitstellung mit Microsoft Entra ID über den Playground, das SDK oder die REST-API aufzurufen.
Genehmigtes verwaltetes Computekontingent für die Acceleratorfamilie, die Sie in der Zielregion bereitstellen möchten (A100, H100 oder MI300X). Das verwaltete Computekontingent ist von Azure VM-Kontingent getrennt. Weitere Informationen finden Sie unter "Weiteres Kontingent anfordern " am Ende dieses Artikels.

Lokale Tools für sdk- und CLI-Beispiele:

pip install "azure-mgmt-cognitiveservices==15.0.0b2" azure-identity openai requests
az login

Azure CLI 2.60 oder höher.

Important

Die verwaltete Rechenkapazität in Foundry ist in der öffentlichen Vorschau. APIs, SKU-Namen und unterstützte Regionen können sich vor der allgemeinen Verfügbarkeit ändern. Die integrierte Inhaltsfilterung ist in der öffentlichen Vorschauversion nicht Teil des Datenpfads für verwaltete Computeressourcen. Wenn Sie die Filterung auf Anforderungsebene oder Reaktionsebene benötigen, rufen Sie die Azure KI Inhaltssicherheit-APIs direkt aus Ihrer Anwendung auf.

Auswählen eines Modells im Katalog

Managed Compute stellt Modelle aus der Hugging Face Collection im Foundry-Modellkatalog bereit, die aus der azure-huggingface Registry bereitgestellt werden.

Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass die Umschaltfläche "Neue Gießerei " aktiviert ist. Diese Schritte beziehen sich auf Foundry (neu).
Wählen Sie Ihr Abonnement und Ihre Foundry-Ressource aus.
Wählen Sie "Erstellen" in der oberen rechten Navigationsleiste und dann im linken Bereich " Modelle " aus.
Filtern Sie den Katalog nach Sammlungen. Wählen Sie "Umarmungsgesicht" aus. Sie können auch einen der anderen Filter verwenden, um das Modell einzugrenzen, das Sie bereitstellen möchten (z. B. eine Modellfamilie wie Qwen auswählen) oder durch Modalität oder Aufgabe. Sie können auch nach Modellname suchen.
Wählen Sie eine Modellkarte (z. B. nvidia-nemotron-3-nano-30b-a3b-fp8) aus, um deren Details zu öffnen.

Die Modellkarte zeigt die Upstreamlizenz, die Modalität, die unterstützten Aufgaben und die für das Modell veröffentlichten Bereitstellungsvorlagen an. Wenn Sie die Bereitstellung über das Python SDK oder REST anstelle des Portal-Assistenten planen, benötigen Sie drei Werte als Eingabe für den Bereitstellungsaufruf. Sie finden diese Werte im Foundry-Portal wie folgt:

Modell-ID: die vollqualifizierte Registrierungsobjekt-ID für das Modell. Verfügbar auf der Modellkarte im Katalog (aus dem Bereich mit den Modelldetails kopiert). Beispiel:
```
azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2
```
Bereitstellungsvorlagen-ID: identifiziert die Laufzeit, die Beschleunigerfamilie und deren Anzahl sowie die Kontextlänge für das Modell. Verfügbar im Bereitstellungs-Assistenten , der geöffnet wird, wenn Sie auf der Modellkarte "Bereitstellen" auswählen. Wählen Sie eine Vorlage aus, und kopieren Sie die Bereitstellungsvorlagen-ID aus dem Assistenten. Beispiel:
```
azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latest
```
Note

Eine Modell-ID und eine Bereitstellungsvorlagen-ID müssen kompatibel sein; Jede Vorlage listet die unterstützten Modellversionen auf. Der Portal-Assistent zeigt nur kompatible Vorlagen für das ausgewählte Modell an. Wenn Sie für die Bereitstellung Code verwenden, stellen Sie sicher, dass beide Verweise zu gültigen Registrierungsressourcen in der azure-huggingface-Registrierung aufgelöst werden.

Weitere Informationen zu Bereitstellungsvorlagen finden Sie unter Bereitstellungsvorlage im Artikel „Übersicht über verwaltete Compute-Ressourcen“.
Beschleunigertyp: z. B. H100_80GB, A100_80GB oder MI_300_192GB. Wird neben jeder Vorlage im Bereitstellungsassistenten angezeigt.

Modell bereitstellen

Wählen Sie "Bereitstellen" auf der Modellkarte aus, um den Bereitstellungs-Assistenten zu öffnen.
Geben Sie einen Bereitstellungsnamen an. Der Bereitstellungsname ist der Wert, den Ihre Anwendung zur Inferenzzeit im Feld model übergibt – wählen Sie einen stabilen, anwendungsfreundlichen Namen (z. B. nemotron-3-nano-30b).
Der Bereitstellungstyp (Global Managed Compute) ist im Bereitstellungs-Assistenten vorab ausgewählt.
Wählen Sie die Bereitstellungsvorlage aus, die Ihrer Workload entspricht. Zum Beispiel die H100-Vorlage mit einem einzelnen Beschleuniger für die geringsten Kosten bei mittlerer Kontextlänge oder eine Vorlage mit zwei Beschleunigern, wenn Ihre Prompts die Kontextgrenze eines einzelnen Beschleunigers überschreiten.
Wählen Sie den Beschleunigertyp aus, z. B. H100_80GB.
Legen Sie Modellinstanzen auf 1 (oder höher) fest, wenn Sie Ihre Workload gemessen haben. Modellinstanzen bestimmen die Größe der verwalteten Rechenkapazität und entsprechen dem capacity-Wert in der Bereitstellungs-SKU. Jede Instanz verwendet die durch die Vorlage definierte Zugriffstastenanzahl; Eine Vorlage, die beispielsweise eine H100 pro Instanz mit Kapazität 2 angibt, verwendet insgesamt zwei H100-Zugriffstasten.

Tip

Beginnen Sie mit capacity: 1 für eine erste Bereitstellung, und skalieren Sie dann, indem Sie die Kapazität nach dem Messen Ihrer Workload erhöhen. Informationen zum Erhöhen der Kapazität finden Sie unter Verwalten und Skalieren der Bereitstellung .
Aktivieren Sie das Kontrollkästchen, um die Kosten für die Bereitstellung zu bestätigen.
Klicken Sie auf Bereitstellen. Die Bereitstellung dauert in der Regel 10 bis 15 Minuten.

Überprüfen Sie die Bereitstellung

Die Seite mit den Bereitstellungsdetails wird von Creating auf Succeeded aktualisiert, wenn das Modell hinter dem Foundry-Endpunkt live geschaltet ist. Sie können Details zur Bereitstellung anzeigen, einschließlich des Bereitstellungsstatus, des Bereitstellungstyps und anderer Auswahlen, die Sie beim Erstellen der Bereitstellung vorgenommen haben.

Senden einer Testanforderung

Wenn die Bereitstellung bereit ist, testen Sie sie interaktiv im Foundry Playground.

Wählen Sie die Registerkarte " Playground " aus, um von der Seite " Bereitstellungsdetails " darauf zu wechseln.
Senden Sie einen Prompt, um das Deployment zu testen.

Bereitstellung überwachen

Verwaltete Computebereitstellungen geben Metriken auf derselben Azure Monitor Oberfläche wie andere Foundry-Bereitstellungen aus. Auf der Detailseite der Bereitstellung im Foundry-Portal werden auf der Registerkarte Monitor folgende Informationen angezeigt:

Anforderungsanzahl gruppiert nach HTTP-Statuscode.
Antwortzeit-Perzentile (p50, p90, p99).
Für Modelle zur Chatvervollständigung: Anzahl der Eingabe- und Ausgabetokens, TTFT-Perzentile (Time-to-First-Token) und Perzentile der Dekodierungszeit zwischen Tokens.

Für eine tiefergehende Analyse oder zum Einrichten von Warnungen öffnen Sie die Bereitstellung im Azure-Portal und verwenden Metriken unter Überwachung, um dieselben Metriken zu visualisieren, nach Bereitstellung zu gruppieren und Warnungen zu konfigurieren. Abrechnungstags für jede Bereitstellung werden automatisch ausgegeben. Filtern Sie die Kostenverwaltung nach dem Bereitstellungstag, um Ausgaben einer bestimmten verwalteten Computebereitstellung zuzuordnen. Ausführliche Informationen finden Sie unter Plan und Verwalten von Kosten für Microsoft Foundry.

Löschen der Bereitstellung

Durch das Löschen einer Bereitstellung wird ihre Beschleunigerzuweisung freigegeben und die Abrechnung sofort eingestellt. So löschen Sie eine Bereitstellung:

Wechseln Sie zur Liste der Bereitstellungen im Foundry-Portal.
Wählen Sie das Optionsfeld neben Ihrem Bereitstellungsnamen aus.
Wählen Sie im rechten Bereich Löschen aus.

Anfordern eines weiteren Kontingents

Das verwaltete Computekontingent wird pro Beschleunigerfamilie je Region im Rahmen des Foundry-Kontingentprozesses gewährt und ist getrennt vom Azure-VM-Kontingent. Vorhandenes Azure VM-Kontingent kann nicht auf eine verwaltete Computebereitstellung angewendet werden.

So fordern Sie mehr Kontingent an:

Wählen Sie oben rechts in der Navigation Betreiben aus, und wählen Sie dann im linken Bereich Kontingent aus.
Wählen Sie die Registerkarte "Verwaltete Berechnung " aus. In der Tabelle sind die aktuellen Zuordnungen nach Beschleunigerfamilie und Region gruppiert.
Wählen Sie in der oberen rechten Ecke das Anforderungskontingent aus.
Wählen Sie im Anforderungsformular die Beschleunigerfamilie (A100, H100 oder MI300X), die Zielregion und die beantragte Quote aus. Senden Sie die Anforderung.

Es kann bis zu 15 Minuten dauern, bis eine genehmigte Kontingentänderung wirksam wird. Aktualisieren Sie die Kontingent-Seite, um die aktualisierte Zuordnung zu überprüfen. Weitere Informationen zu Kontingentkonzepten finden Sie unter Verwalten und Erhöhen von Kontingenten für Ressourcen.

Verwenden Sie das folgende Python Skript, um das Modell bereitzustellen. Ersetzen Sie die Platzhalter durch Ihre eigene Abonnement-ID, Ressourcengruppe, den Namen des Foundry-Kontos und den Bereitstellungsnamen.

Tip

Beginnen Sie für eine erste Bereitstellung mit capacity: 1 und skalieren Sie anschließend durch Erhöhen der Kapazität, nachdem Sie Ihre Arbeitslast gemessen haben. Informationen zum Erhöhen der Kapazität finden Sie unter Verwalten und Skalieren der Bereitstellung .

from azure.identity import DefaultAzureCredential
from azure.mgmt.cognitiveservices import CognitiveServicesManagementClient

SUBSCRIPTION_ID  = "<your-subscription-id>"
RESOURCE_GROUP   = "<your-resource-group>"
ACCOUNT_NAME     = "<your-foundry-account>"
DEPLOYMENT_NAME  = "nemotron-3-nano-30b"

MODEL = "azureml://registries/azure-huggingface/models/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8/versions/2"
TEMPLATE = "azureml://registries/azure-huggingface/deploymenttemplates/nvidia--nvidia-nemotron-3-nano-30b-a3b-fp8--nvidia-h100/labels/latest"

client = CognitiveServicesManagementClient(
    DefaultAzureCredential(), SUBSCRIPTION_ID
)

deployment = client.managed_compute_deployments.begin_create_or_update(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
    resource={
        "sku": {"name": "GlobalManagedCompute", "capacity": 1},
        "properties": {
            "model": MODEL,
            "deploymentTemplate": TEMPLATE,
            "acceleratorType": "H100_80GB",
            "versionUpgradeOption": "OnceNewDefaultVersionAvailable",
        },
    },
).result()  # blocks until terminal state (~10–15 min)

print(f"State: {deployment.properties.provisioning_state}")
print(f"ID:    {deployment.id}")

Überprüfen Sie die Bereitstellung

Nachdem das Deployment erstellt wurde, vergewissern Sie sich, dass es ordnungsgemäß funktioniert, bevor Sie Datenverkehr darauf leiten.

d = client.managed_compute_deployments.get(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
)

print(f"State:        {d.properties.provisioning_state}")    # expect: Succeeded
print(f"Model:        {d.properties.model}")
print(f"Template:     {d.properties.deployment_template}")
print(f"Accelerator:  {d.properties.accelerator_type}")
print(f"Capacity:     {d.sku.capacity}")

Suchen nach:

provisioningState: Succeeded bedeutet, dass die Bereitstellung live ist.
acceleratorType entspricht dem angeforderten Wert.
sku.capacity entspricht der Anzahl der von Ihnen angeforderten Instanzen.

Wenn provisioningStateFailed ist, siehe Problembehandlung.

Senden einer Testanforderung

Verwaltete Computebereitstellungen sind über den einheitlichen Foundry-Endpunkt erreichbar unter:

https://<account>.services.ai.azure.com/openai/v1/

Das model Feld im Anforderungstext verwendet den von Ihnen angegebenen Bereitstellungsnamen , nicht die Modell-ID.

OpenAI SDK (Microsoft Entra ID)
OpenAI SDK (API-Schlüssel)

from azure.identity import DefaultAzureCredential, get_bearer_token_provider
from openai import OpenAI

ACCOUNT_NAME    = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"

token_provider = get_bearer_token_provider(
    DefaultAzureCredential(),
    "https://cognitiveservices.azure.com/.default",
)

client = OpenAI(
    base_url=f"https://{ACCOUNT_NAME}.services.ai.azure.com/openai/v1",
    api_key="placeholder",  # required by OpenAI SDK; overridden by Authorization header
    default_headers={"Authorization": f"Bearer {token_provider()}"},
)

resp = client.chat.completions.create(
    model=DEPLOYMENT_NAME,
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(resp.choices[0].message.content)

Zum Aufrufen der Bereitstellung mit Microsoft Entra ID ist im Foundry-Konto die Rolle Azure AI User erforderlich.

from azure.identity import DefaultAzureCredential
from azure.mgmt.cognitiveservices import CognitiveServicesManagementClient
from openai import OpenAI

SUBSCRIPTION_ID = "<your-subscription-id>"
RESOURCE_GROUP  = "<your-resource-group>"
ACCOUNT_NAME    = "<your-foundry-account>"
DEPLOYMENT_NAME = "nemotron-3-nano-30b"

mgmt = CognitiveServicesManagementClient(
    DefaultAzureCredential(), SUBSCRIPTION_ID
)
api_key = mgmt.accounts.list_keys(RESOURCE_GROUP, ACCOUNT_NAME).key1

client = OpenAI(
    base_url=f"https://{ACCOUNT_NAME}.services.ai.azure.com/openai/v1",
    api_key=api_key,
)

resp = client.chat.completions.create(
    model=DEPLOYMENT_NAME,
    messages=[{"role": "user", "content": "What is the capital of France?"}],
)

print(resp.choices[0].message.content)

Verwalten und Skalieren der Bereitstellung

Da verwaltete Computebereitstellungen modellorientiert sind, skalieren Sie Bereitstellungen, indem Sie die Anzahl der Modellinstanzen ändern, nicht durch Größenanpassung eines Knotens.

Ändern der Kapazität

d = client.managed_compute_deployments.get(
    RESOURCE_GROUP, ACCOUNT_NAME, DEPLOYMENT_NAME
)
d.sku.capacity = 3

client.managed_compute_deployments.begin_create_or_update(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
    resource=d,
).result()

Laufzeit- und Modellupdates abrufen

Wenn Sie versionUpgradeOption auf OnceNewDefaultVersionAvailable für die Bereitstellung festlegen, wird die Bereitstellung für die Aufnahme neuer Standardmodell- und Laufzeitversionen aktiviert, wenn Microsoft sie veröffentlicht. Runtimepatches und CVE-Fixes werden automatisch auf aktive Kundenbereitstellungen angewendet. Sie müssen das Modell nicht erneut bereitstellen, um diese zu übernehmen.

Bereitstellung überwachen

Verwaltete Computebereitstellungen geben Metriken auf derselben Azure Monitor Oberfläche wie andere Foundry-Bereitstellungen aus. Für eine eingehendere Analyse oder Benachrichtigung öffnen Sie die Bereitstellung im Azure portal und verwenden Sie Metriken unter Überwachung, um Metriken wie die folgenden grafisch darzustellen:

Anforderungsanzahl gruppiert nach HTTP-Statuscode.
Antwortzeit-Perzentile (p50, p90, p99).
Für Modelle zur Chatvervollständigung: Anzahl der Eingabe- und Ausgabetokens, TTFT-Perzentile (Time-to-First-Token) und Perzentile der Dekodierungszeit zwischen Tokens.

Sie können auch nach Bereitstellung gruppieren und Warnungen konfigurieren. Abrechnungstags für jede Bereitstellung werden automatisch ausgegeben. Filtern Sie die Kostenverwaltung nach dem Bereitstellungstag, um Ausgaben einer bestimmten verwalteten Computebereitstellung zuzuordnen. Ausführliche Informationen finden Sie unter Plan und Verwalten von Kosten für Microsoft Foundry.

Löschen der Bereitstellung

Durch das Löschen einer Bereitstellung wird ihre Beschleunigerzuweisung freigegeben und die Abrechnung sofort eingestellt. So löschen Sie eine Bereitstellung:

client.managed_compute_deployments.begin_delete(
    resource_group_name=RESOURCE_GROUP,
    account_name=ACCOUNT_NAME,
    deployment_name=DEPLOYMENT_NAME,
).result()

Zusammenfassung der Zugriffssteuerung

Action	Minimale Rolle
Erstellen, Aktualisieren oder Löschen einer verwalteten Computebereitstellung	Mitwirkender für Cognitive Services (oder Foundry-Besitzer/Foundry-Kontobesitzer) für das Foundry-Konto
Lesen einer Bereitstellung oder Auflisten von Bereitstellungen	Cognitive Services User, Foundry User, Foundry Project Manager oder eine der oben genannten Rollen
Rufen Sie die Bereitstellung mit Microsoft Entra ID auf	Findry-Benutzer im Foundry-Konto
Rufen Sie das Deployment mit einem API-Schlüssel auf.	Der Kontoschlüssel (keine Azure Rolle, die für den Aufruf selbst erforderlich ist; der Schlüsselabruf erfordert Lesezugriff)

Die vollständige Liste der Azure-Ressourcenanbietervorgänge, die Matrix für die Zuordnung von Rollen für die entsprechenden Berechtigungen und den Vergleich mit Standardbereitstellungen finden Sie unter Rollenbasierte Zugriffssteuerung für Microsoft Foundry – Vorgänge der verwalteten Computesteuerungsebene.

Problembehandlung

`provisioningState: Failed`

Vergewissern Sie sich, dass für die angeforderte Beschleunigerfamilie in der Zielregion ein genehmigtes Kontingent vorliegt und dass die ausgewählte Bereitstellungsvorlage diese Beschleunigerfamilie aufführt. Eine nicht übereinstimmende Modell- und Bereitstellungsvorlage, z. B. eine Vorlage, die für eine andere Modellversion veröffentlicht wurde, ist eine häufige Ursache. Überprüfen Sie, ob beide Verweise in der Registrierung azure-huggingface zu gültigen Registrierungsressourcen aufgelöst werden.

„Kontingent überschritten“ beim Erstellen

Das Foundry-Konto verfügt in der Region nicht über ein ausreichend großes Kontingent an verwalteten Computeressourcen für die angeforderte Beschleunigerfamilie. Anfordern eines weiteren Kontingents. Das Azure VM-Kontingent gilt nicht für verwaltete Rechenressourcen.

"Unzureichende Kapazität" in der Region

Die Region meldete keine verfügbare Kapazität für die angeforderte Beschleunigerfamilie. Probieren Sie eine andere Familie aus (z. B. auf MI300X statt auf H100 bereitstellen), wählen Sie eine Vorlage mit weniger Beschleunigern pro Instanz aus oder zielen Sie auf eine andere Region ab. Größere Speicherfamilien wie MI300X verfügen häufig über Kapazität für Modelle, die nicht auf A100 passen.

404 auf der `/openai/v1/`-Route

Wenn eine Chat-Completion-Anforderung an https://<account>.services.ai.azure.com/openai/v1/chat/completions den Fehler 404 zurückgibt, überprüfen Sie Folgendes:

Der Bereitstellungsname im Anforderungstext entspricht der von Ihnen erstellten Bereitstellung.
Der provisioningState der Bereitstellung ist Succeeded.
Die Laufzeit des Modells macht Chatvervollständigungen verfügbar. Einige Laufzeiten (z. B. TEI für Einbettungen) machen die Chatabschlussroute nicht verfügbar; verwenden Sie stattdessen die auf der Modellkarte dokumentierte Route.

Bereitstellung hängt länger als 20 Minuten in `Creating` fest

Einige größere Modelle brauchen länger als die typischen 10–15 Minuten, um hochzufahren. Wenn der provisioningState nach 20 Minuten noch immer Creating ist, überprüfen Sie auf der Seite mit den Bereitstellungsdetails im Foundry-Portal, ob eine Statusmeldung zum Vorgang vorliegt, und vergewissern Sie sich, dass die zugrunde liegende Region nicht beeinträchtigt ist. Wenn die Bereitstellung nach über 30 Minuten noch immer als Creating angezeigt wird, ohne dass eine Vorgangsmeldung vorliegt, löschen Sie sie, und wiederholen Sie den Vorgang. Die Bereitstellung ist in Bezug auf den Bereitstellungsnamen idempotent.

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-03

Open-Source-Modelle mit verwalteter Rechenleistung bereitstellen (Vorschau)

Voraussetzungen

Auswählen eines Modells im Katalog

Modell bereitstellen

Überprüfen Sie die Bereitstellung

Senden einer Testanforderung

Bereitstellung überwachen

Löschen der Bereitstellung

Anfordern eines weiteren Kontingents

Überprüfen Sie die Bereitstellung

Senden einer Testanforderung

Verwalten und Skalieren der Bereitstellung

Ändern der Kapazität

Laufzeit- und Modellupdates abrufen

Bereitstellung überwachen

Löschen der Bereitstellung

Zusammenfassung der Zugriffssteuerung

Problembehandlung

provisioningState: Failed

„Kontingent überschritten“ beim Erstellen

"Unzureichende Kapazität" in der Region

404 auf der /openai/v1/-Route

Bereitstellung hängt länger als 20 Minuten in Creating fest

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen

`provisioningState: Failed`

404 auf der `/openai/v1/`-Route

Bereitstellung hängt länger als 20 Minuten in `Creating` fest