Freigeben über


Bereitstellen von Microsoft Foundry-Modellen auf verwalteter Rechenleistung mit nutzungsbasierter Abrechnung

Hinweis

Dieses Dokument bezieht sich auf das Microsoft Foundry(klassische) Portal.

🔍 Zeigen Sie die Microsoft Foundry-Dokumentation (neu) an, um mehr über das neue Portal zu erfahren.

Microsoft Foundry Models umfassen einen umfassenden Katalog von Modellen, die in zwei Kategorien unterteilt sind – Modelle, die direkt von Azure verkauft werden, sowie Modelle von Partnern und Communitys. Die Modelle von Partnern und Communitys, die Sie auf verwalteter Compute bereitstellen können, sind entweder offene oder geschützte Modelle. In diesem Artikel erfahren Sie, wie Sie geschützte Modelle von Partnern und Communitys, die über Azure Marketplace angeboten werden, für die Bereitstellung auf verwalteter Compute mit Abrechnung nach dem pay-as-you-go-Modell verwenden.

Voraussetzungen

  • Ein Azure-Abonnement mit einer gültigen Zahlungsmethode. Kostenlose oder Testversionen von Azure-Abonnements funktionieren nicht. Wenn Sie nicht über ein Azure-Abonnement verfügen, erstellen Sie zunächst ein kostenpflichtiges Azure-Konto .

  • Wenn Sie über keins verfügen, erstellen Sie ein Hubprojekt für Foundry. Sie können mithilfe eines Hubprojekts in einer verwalteten Compute-Umgebung bereitstellen. Ein Foundry-Projekt funktioniert für diesen Zweck nicht.

  • Azure Marketplace-Einkäufe für Ihr Azure-Abonnement aktiviert.

  • Azure-rollenbasierte Zugriffssteuerungen (Azure RBAC) gewähren Zugriff auf Vorgänge im Foundry-Portal. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto eine benutzerdefinierte Rolle mit den folgenden Berechtigungen zugewiesen werden. Benutzerkonten, denen die Rolle "Besitzer " oder "Mitwirkender " für das Azure-Abonnement zugewiesen wurde, können auch Bereitstellungen erstellen. Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung im Foundry-Portal.

  • Im Azure-Abonnement abonnieren Sie den Arbeitsbereich/das Projekt beim Azure Marketplace-Angebot:

    • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
    • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.SaaS/register/action
  • Für die Ressourcengruppe – zum Erstellen und Verwenden der SaaS-Ressource:

    • Microsoft.SaaS/resources/read
    • Microsoft.SaaS/resources/write
  • Im Arbeitsbereich – zum Bereitstellen von Endpunkten:

    • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft.MachineLearningServices/workspaces/onlineEndpoints/*

Abonnementumfang und Maßeinheit für das Azure Marketplace-Angebot

Foundry bietet eine nahtlose Abonnement- und Transaktionserfahrung für geschützte Modelle, während Sie Ihre dedizierten Modellbereitstellungen im großen Maßstab erstellen und nutzen. Die Bereitstellung von geschützten Modellen auf verwalteten Computeressourcen umfasst die nutzungsbasierte Abrechnung für den Kunden in zwei Dimensionen:

  • Pro Stunde berechnet Azure Machine Learning die Abrechnung für die virtuellen Computer, die in der Bereitstellung verwendet werden.
  • Abrechnung des Modellaufpreises, wie vom Modellherausgeber im Azure Marketplace-Angebot festgelegt.

Die nutzungsbasierte Abrechnung von Azure Compute und die Abrechnung des Modellaufpreises erfolgen pro Minute basierend auf der Uptime der verwalteten Onlinebereitstellungen. Der Aufschlag für ein Modell ist ein GPU-Stunden-Preis, der vom Partner (oder Herausgeber des Modells) auf Azure Marketplace festgelegt wird, für alle unterstützten GPUs, die Sie zum Bereitstellen des Modells auf foundry managed compute verwenden können.

Das Abonnement von Benutzenden für Azure Marketplace-Angebote bezieht sich auf die Projektressource innerhalb von Foundry. Wenn ein Abonnement des Azure Marketplace-Angebots für ein bestimmtes Modell bereits innerhalb des Projekts vorhanden ist, wird der Benutzer im Bereitstellungs-Assistenten darüber informiert, dass das Abonnement für das Projekt bereits vorhanden ist.

Hinweis

Für NVIDIA Inference Microservices (NIM) sind mehrere Modelle einem einzigen Marketplace-Angebot zugeordnet, sodass Sie das NIM-Angebot nur einmal innerhalb eines Projekts abonnieren müssen, um alle NIMs, die von NVIDIA im Foundry-Modellkatalog angeboten werden, bereitstellen zu können. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie das Angebot erneut abonnieren.

So suchen Sie alle SaaS-Abonnements, die in einem Azure-Abonnement vorhanden sind:

  1. Melden Sie sich beim Azure-Portal an, und wechseln Sie zu Ihrem Azure-Abonnement.

  2. Wählen Sie "Abonnements" und dann Ihr Azure-Abonnement aus, um die Übersichtsseite zu öffnen.

  3. Wählen Sie "Einstellungenressourcen"> aus, um die Liste der Ressourcen anzuzeigen.

  4. Verwenden Sie den Typfilter , um den SaaS-Ressourcentyp auszuwählen.

Der verbrauchsbasierte Aufpreis geht an das zugehörige SaaS-Abonnement und stellt den Benutzer über Azure Marketplace in Rechnung. Sie können die Rechnung auf der Registerkarte "Übersicht " des jeweiligen SaaS-Abonnements anzeigen.

Abonnieren und Bereitstellen auf verwalteter Computeressource

Tipp

Da Sie den linken Bereich im Microsoft Foundry-Portal anpassen können, werden möglicherweise andere Elemente als in diesen Schritten angezeigt. Wenn Sie nicht sehen, wonach Sie suchen, wählen Sie ... Mehr am unteren Rand des linken Bereichs.

  1. Melden Sie sich bei Microsoft Foundry an. Stellen Sie sicher, dass der Umschalter "Neue Gießerei " deaktiviert ist. Diese Schritte beziehen sich auf Foundry (klassisch).

  2. Wenn Sie sich noch nicht in Ihrem Projekt befinden, wählen Sie es aus.

  3. Wählen Sie im linken Bereich den Modellkatalog aus.

  4. Filtern Sie die Modellliste, indem Sie die Sammlung und das Modell Ihrer Wahl auswählen. In diesem Artikel wird Cohere Command A aus der Liste der unterstützten Modelle zur Veranschaulichung verwendet.

  5. Wählen Sie auf der Seite des Modells die Option "Dieses Modell verwenden " aus, um den Bereitstellungs-Assistenten zu öffnen.

  6. Wenn die Kaufoptionen angezeigt werden, wählen Sie "Managed Compute" aus.

  7. Wenn Sie kein dediziertes Kontingent haben, aktivieren Sie das Kontrollkästchen neben der Anweisung: Ich möchte das freigegebene Kontingent verwenden, und ich erkenne an, dass dieser Endpunkt in 168 Stunden gelöscht wird.

  8. Wählen Sie aus einem der unterstützten VM-SKUs für das Modell aus. Sie müssen über das Azure Machine Learning-Computekontingent für diese SKU in Ihrem Azure-Abonnement verfügen.

  9. Wählen Sie "Anpassen" aus, um Ihre Bereitstellungskonfiguration für Parameter wie die Instanzenanzahl anzugeben. Sie können auch einen vorhandenen Endpunkt für die Bereitstellung auswählen oder eine neue erstellen. Geben Sie in diesem Beispiel eine Instanzanzahl von 1 an, und erstellen Sie einen neuen Endpunkt für die Bereitstellung.

    Screenshot des Bereitstellungskonfigurationsbildschirms für ein geschütztes Modell in Foundry.

  10. Wählen Sie "Weiter" aus, um zur Preisaufschlüsselungsseite zu wechseln.

  11. Überprüfen Sie die Preisaufschlüsselung für die Bereitstellung, die Nutzungsbedingungen und den Lizenzvertrag im Zusammenhang mit dem Angebot des Modells auf Azure Marketplace. Die Preisaufschlüsselung informiert Sie, was die aggregierten Preise für das bereitgestellte Modell sein würden, wobei der Aufschlag für das Modell eine Funktion der Anzahl der GPUs in der VM-Instanz ist, die Sie in den vorherigen Schritten ausgewählt haben. Zusätzlich zum anwendbaren Aufschlag für das Modell gelten auch Azure-Berechnungsgebühren basierend auf Ihrer Bereitstellungskonfiguration. Wenn Sie über vorhandene Reservierungen oder Azure-Sparpläne verfügen, werden in der Rechnung für die Gebühren der Computeressource die ermäßigten VM-Preise berücksichtigt.

    Screenshot der Seite

  12. Aktivieren Sie das Kontrollkästchen, um zu bestätigen, dass Sie die Nutzungsbedingungen verstehen und zustimmen. Wählen Sie anschließend Bereitstellen aus. Foundry erstellt Ihr Abonnement für das Marketplace-Angebot und dann die Bereitstellung des Modells für eine verwaltete Computeressource. Es dauert etwa 15 bis 20 Minuten, bis die Bereitstellung abgeschlossen ist.

Nutzen von Bereitstellungen

Nachdem Sie Ihre Bereitstellung erfolgreich erstellt haben, führen Sie die folgenden Schritte aus, um sie zu nutzen:

  1. Wählen Sie "Modelle + Endpunkte " unter "Meine Ressourcen " in Ihrem Foundry-Projekt aus.
  2. Wählen Sie Ihre Bereitstellung auf der Registerkarte " Modellbereitstellungen " aus.
  3. Wechseln Sie zur Registerkarte "Test", um eine Beispielfolgerung zum Endpunkt durchzuführen.
  4. Kehren Sie zur Registerkarte Details zurück, um den „Ziel-URI“ der Bereitstellung zu kopieren, den Sie zum Ausführen von Rückschlüssen mit Code verwenden können.
  5. Wechseln Sie zur Registerkarte Nutzen der Bereitstellung, um Codebeispiele für den Verbrauch zu erhalten.

Netzwerkisolation von Bereitstellungen

Sie können Sammlungen im Modellkatalog in Ihren isolierten Netzwerken bereitstellen, indem Sie das vom Arbeitsbereich verwaltete virtuelle Netzwerk verwenden. Weitere Informationen zum Konfigurieren Ihrer verwalteten Arbeitsbereichsnetzwerke finden Sie unter Konfigurieren eines verwalteten virtuellen Netzwerks, um das Internet ausgehend zuzulassen.

Einschränkung

Ein Foundry-Projekt mit deaktiviertem Öffentlichem Netzwerkzugriff kann nur eine einzelne aktive Bereitstellung eines der geschützten Modelle aus dem Katalog unterstützen. Versuche, aktivere Bereitstellungen zu erstellen, führen zu Bereitstellungsfehlern.

Unterstützte Modelle

In den folgenden Abschnitten sind die unterstützten Modelle für die Bereitstellung von verwaltetem Compute mit nutzungsbasierter Bezahlung gruppiert nach Sammlung aufgeführt.

Boson AI

Modell Aufgabe
Higgs-Audio-v2.5 Audiogenerierung

Kohärent sein

Modell Aufgabe
Befehl A Chatvervollständigung
Einbetten von v4 Einbettungen
Rerank v3.5 Textklassifizierung
Cohere-rerank-v4.0-pro Textklassifizierung neu anordnen
Cohere-rerank-v4.0-fast Textklassifizierung neu anordnen

Inception Labs

Modell Aufgabe
Quecksilber Chatabschluss, Textgenerierung, Zusammenfassung

NVIDIA

NVIDIA Inference Microservices (NIM) sind Container, die NVIDIA für optimierte vortrainierte und angepasste KI-Modelle entwickelt, die auf NVIDIA GPUs dienen. Sie können NVIDIA NIMs, die im Foundry-Modellkatalog verfügbar sind, mit einem Standardabonnement für das NVIDIA NIM SaaS-Angebot auf Azure Marketplace bereitstellen.

Einige besondere Punkte, die Sie zu NIMs beachten müssen, sind:

  • NIMs umfassen eine Testversion von 90 Tagen. Die Testversion gilt für alle NIMs, die einem bestimmten SaaS-Abonnement zugeordnet sind, und beginnt ab dem Zeitpunkt, zu dem das SaaS-Abonnement erstellt wird.

  • SaaS-Abonnements, die einem Foundry-Projekt zugeordnet sind. Da mehrere Modelle einem einzigen Azure Marketplace-Angebot zugeordnet sind, müssen Sie nur einmal das NIM-Angebot innerhalb eines Projekts abonnieren, dann können Sie alle NIMs bereitstellen, die von NVIDIA im Foundry-Modellkatalog angeboten werden. Wenn Sie NIMs in einem anderen Projekt ohne vorhandenes SaaS-Abonnement bereitstellen möchten, müssen Sie das Angebot erneut abonnieren.

Modell Aufgabe
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice Chatvervollständigung
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice Chatvervollständigung
Deepseek-R1-Distill-Llama-8B-NIM-microservice Chatvervollständigung
Llama-3.3-70B-Instruct-NIM-microservice Chatvervollständigung
Llama-3.1-8B-Instruct-NIM-microservice Chatvervollständigung
Mistral-7B-Instruct-v0.3-NIM-microservice Chatvervollständigung
Mixtral-8x7B-Instruct-v0.1-NIM-microservice Chatvervollständigung
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice Einbettungen
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice Textklassifizierung
Openfold2-NIM-microservice Proteinbinder
ProteinMPNN-NIM-microservice Proteinbinder
MSA-search-NIM-microservice Proteinbinder
Rfdiffusion-NIM-microservice Proteinbinder
NVIDIA-Nemotron-Nano-9b-v2-NIM-microservice Chatvervollständigung
Trellis-NIM-microservice Bild-zu-3D, Text-zu-3D, 3D-Generierung
Cosmos-reason1-NIM-microservice Aufgabenabschluss-Verifikation, Aktionsmöglichkeit, Vorhersage des nächsten plausiblen Schritts
Evo2-40b-NIM-microservice Genomics
Boltz2-NIM-microservice Strukturvorhersage
Llama-3.3-Nemotron-Super-49B-v1.5-NIM-microservice Chatabschluss, Zusammenfassung

Verwenden von NVIDIA NIM-Bereitstellungen

Nachdem Sie Ihre Bereitstellung erstellt haben, führen Sie die Schritte unter "Verbrauch von Bereitstellungen" aus, um sie zu verbrauchen.

NVIDIA NIMs on Foundry machen eine openAI-kompatible API verfügbar. Weitere Informationen zur unterstützten Nutzlast finden Sie in der API-Referenz . Der model Parameter für NIMs für Foundry wird auf einen Standardwert innerhalb des Containers festgelegt und ist in der Anforderungsnutzlast für Ihren Onlineendpunkt nicht erforderlich. Die Registerkarte Verbrauch der NIM-Bereitstellung in Foundry enthält Codebeispiele für die Ableitung mit der Ziel-URL Ihrer Bereitstellung.

Sie können NIM-Bereitstellungen auch mithilfe des Foundry Models SDK nutzen, mit Einschränkungen, die Folgendes umfassen:

Agenten mit NIM-Endpunkten entwickeln und ausführen

Die folgenden NVIDIA-NIMs des Aufgabentyps Chatvervollständigungen im Modellkatalog können zum Erstellen und Ausführen von Agents mit dem Agent-Dienst unter Verwendung verschiedener unterstützter Tools verwendet werden, wobei die folgenden zwei zusätzlichen Anforderungen gelten:

  1. Erstellen Sie mithilfe des NIM-Endpunkts und des Schlüssels eine Serverless-Verbindung mit dem Projekt. Die Ziel-URL für den NIM-Endpunkt in der Verbindung sollte sein https://<endpoint-name>.region.inference.ml.azure.com/v1/.
  2. Legen Sie den Modellparameter im Anforderungskörper in der Form https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below> fest, während Sie Agenten erstellen und ausführen.
NVIDIA NIM model Parameterwert
Llama-3.3-70B-Instruct-NIM-microservice meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-Mikroservice mistralai/mistral-7b-instruct-v0.3

Sicherheitsüberprüfung

NVIDIA stellt die Sicherheit und Zuverlässigkeit von NVIDIA NIM-Containerimages durch erstklassige Sicherheitsrisikoüberprüfung, strenge Patchverwaltung und transparente Prozesse sicher. Weitere Informationen zur Sicherheitsüberprüfung finden Sie auf der Sicherheitsseite. Microsoft arbeitet mit NVIDIA zusammen, um die neuesten Patches der NIMs zu erhalten, um sichere, stabile und zuverlässige Software auf Produktionsniveau in Foundry bereitzustellen.

Sie können im rechten Bereich der Übersichtsseite des Modells auf die zuletzt aktualisierte Zeit für das NIM verweisen. Sie können die Bereitstellung erneut durchführen, um die aktuelle Version von NIM von NVIDIA in Foundry zu verwenden.

Paige AI

Modell Aufgabe
Virchow2G Bildfeatureextraktion
Virchow2G-Mini Bildfeatureextraktion

Voyage AI

Modell Aufgabe
voyage-3.5-embedding-model Einbettungen