Bereitstellen von Modellen als serverlose APIs

Artikel
12/27/2024

In diesem Artikel erfahren Sie, wie Sie ein Modell aus dem Modellkatalog als serverlose API mit nutzungsbasierter Bezahlung auf tokenbasierter Abrechnung bereitstellen.

Wichtig

Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.

Bestimmte Modelle im Modellkatalog können als serverlose API mit nutzungsbasierter Bezahlung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen. Für diese Bereitstellungsoption ist kein Kontingent aus Ihrem Abonnement erforderlich.

In diesem Artikel wird eine LLaMA-Modellbereitstellung (Meta) zur Veranschaulichung verwendet. Sie können jedoch dieselben Schritte ausführen, mit denen sie die anderen Modelle im Modellkatalog bereitstellen, die als serverlose API bereitgestellt werden können.

Voraussetzungen

Ein Azure-Abonnement mit einer gültigen Zahlungsmethode. Kostenlose Versionen oder Testversionen von Azure-Abonnements funktionieren nicht. Wenn Sie noch kein Azure-Abonnement haben, erstellen Sie zunächst ein kostenpflichtiges Azure-Konto.
Ein Azure KI Foundry-Hub
Ein Azure KI Foundry-Projekt
Die rollenbasierten Zugriffssteuerungen in Azure (Azure Role-Based Access Control, Azure RBAC) werden verwendet, um Zugriff auf Vorgänge im Azure KI Foundry-Portal zu gewähren. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto die Azure KI-Entwicklerrolle in der Ressourcengruppe zugewiesen sein. Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung im Azure KI Foundry-Portal.
Für die Arbeit mit Azure KI Foundry müssen Sie die folgende Software installieren:
Sie können einen beliebigen kompatiblen Webbrowser verwenden, um in Azure KI Foundry zu navigieren.
Die Azure CLI und die ml-Erweiterung für Azure Machine Learning.
```
az extension add -n ml
```
Wenn Sie die Erweiterung bereits installiert haben, stellen Sie sicher, dass die neueste Version installiert ist.
```
az extension update -n ml
```
Nachdem die Erweiterung installiert wurde, konfigurieren Sie sie:
```
az account set --subscription <subscription>
az configure --defaults workspace=<project-name> group=<resource-group> location=<location>
```
Installieren Sie das Azure Machine Learning SDK für Python.
```
pip install -U azure-ai-ml
```
Importieren Sie nach der Installation die erforderlichen Namespaces, und erstellen Sie einen Client, der mit Ihrem Projekt verbunden ist:
```
from azure.ai.ml import MLClient
from azure.identity import InteractiveBrowserCredential
from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint

client = MLClient(
    credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
    subscription_id="<subscription-id>",
    resource_group_name="<resource-group>",
    workspace_name="<project-name>",
)
```
Installieren Sie die Azure CLI, wie unter Azure CLI beschrieben.

Konfigurieren Sie die folgenden Umgebungsvariablen gemäß Ihren Einstellungen:
```
RESOURCE_GROUP="serverless-models-dev"
LOCATION="eastus2" 
```
Sie können einen beliebigen kompatiblen Webbrowser verwenden, um ARM-Vorlagen im Microsoft Azure-Portal bereitzustellen oder eines der Bereitstellungstools zu verwenden. In diesem Lernprogramm wird die Azure CLIverwendet.

Finden Ihres Modells und Ihrer Modell-ID im Modellkatalog

Melden Sie sich bei Azure KI Foundry an.
Wenn Sie sich noch nicht in Ihrem Projekt befinden, wählen Sie es aus.
Wählen Sie im linken Navigationsbereich den Modellkatalog aus.

Hinweis

Stellen Sie für Modelle aus dem Azure Marketplace sicher, dass Ihr Konto über die Rollenberechtigungen für Azure KI-Entwickler für die Ressourcengruppe verfügt oder dass Sie die erforderlichen Berechtigungen zum Abonnieren von Modellangeboten erfüllen.

Modelle, die nicht von Microsoft angeboten werden (z. B. Llama- und Mistral-Modelle), werden über den Azure Marketplace abgerechnet. Für solche Modelle muss Ihr Projekt das jeweilige Modellangebot abonnieren. Für Modelle, die von Microsoft angeboten werden (z. B. Phi-3-Modelle), gilt diese Anforderung nicht, da die Abrechnung anders erfolgt. Einzelheiten zur Abrechnung für die serverlose Bereitstellung von Modellen im Modellkatalog finden Sie unter Abrechnung für serverlose APIs.

Wählen Sie die Modellkarte des Modells aus, das Sie bereitstellen möchten. In diesem Artikel wählen Sie ein Meta-Llama-3-8B-Instruct-Modell aus.
1. Wenn Sie das Modell mit Azure CLI, Python oder ARM bereitstellen, kopieren Sie die Modell-ID.
  
  Wichtig
  
  Schließen Sie die Version beim Kopieren der Modell-ID nicht ein. Serverlose API-Endpunkte stellen immer die neueste verfügbare Version des Modells bereit. Kopieren Sie z. B. für die Modell-ID azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct/versions/3azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct.

Im nächsten Abschnitt erfahren Sie, wie Ihr Projekt ein Modellangebot abonnieren kann. Wenn Sie ein Microsoft-Modell bereitstellen, können Sie diesen Abschnitt überspringen und zu Bereitstellen des Modells für einen serverlosen API-Endpunkt gehen.

Serverlose API-Endpunkte können sowohl Microsoft- als auch Nicht-Microsoft-Modelle bereitstellen. Für Microsoft-Modelle (wie z. B. Phi-3-Modelle) müssen Sie kein Azure Marketplace-Abonnement erstellen und Sie können sie direkt an serverlosen API-Endpunkten bereitstellen, um ihre Vorhersagen zu nutzen. Für Nicht-Microsoft-Modelle müssen Sie zunächst das Abonnement erstellen. Wenn Sie das Modell zum ersten Mal im Projekt bereitstellen, müssen Sie Ihr Projekt für das jeweilige Modellangebot aus dem Azure Marketplace abonnieren. Jedes Projekt hat sein eigenes Abonnement für das jeweilige Azure Marketplace-Angebot des Modells, mit dem Sie die Ausgaben kontrollieren und überwachen können.

Tipp

Überspringen Sie diesen Schritt, wenn Sie Modelle aus der Phi-3-Modellfamilie bereitstellen. Stellen Sie das Modell direkt auf einem serverlosen API-Endpunkt bereit.

Hinweis

Modelle, die über den Azure Marketplace angeboten werden, stehen für die Bereitstellung für serverlose API-Endpunkte in bestimmten Regionen zur Verfügung. Überprüfen Sie die Verfügbarkeit von Modellen und Regionen in serverlosen API-Bereitstellungen, um zu überprüfen, welche Modelle und Regionen verfügbar sind. Wenn sie nicht aufgeführt ist, können Sie in einem Arbeitsbereich in einer unterstützten Region bereitstellen und dann serverlose API-Endpunkte aus einem anderen Arbeitsbereich nutzen.

Erstellen Sie das Marketplace-Abonnement des Modells. Wenn Sie ein Abonnement erstellen, akzeptieren Sie die Bedingungen, die dem Modellangebot zugeordnet sind.

Wählen Sie auf der Seite Details des Modells Bereitstellen aus. Ein Fenster mit Bereitstellungsoptionen wird geöffnet, in dem Sie zwischen einer Bereitstellung als serverlose API und einer mithilfe von verwalteten Computeressourcen wählen können.

Hinweis

Bei Modellen, die nur als serverlose API bereitgestellt werden können, wird der Assistent für die Bereitstellung als serverlose API sofort geöffnet, wenn Sie auf der Detailseite des Modells Bereitstellen auswählen.
Wählen Sie Serverlose API mit Azure KI Inhaltssicherheit (Preview) aus, um den Assistent für die Bereitstellung als serverlose API zu öffnen.
Wählen Sie das Projekt, in dem Sie Ihre Modelle bereitstellen möchten. Um das Angebot zur Bereitstellung von serverlosen API-Modellen nutzen zu können, muss Ihr Projekt zu einer der Regionen gehören, die für die serverlose Bereitstellung für das jeweilige Modell unterstützt werden.
Wenn die Notiz angezeigt wird Sie verfügen bereits über ein Azure Marketplace-Abonnement für dieses Projekt, müssen Sie das Abonnement nicht erstellen, da Sie bereits über ein Abonnement verfügen. Sie können mit der Bereitstellung des Modells auf einem serverlosen API-Endpunkt fortfahren.
Wählen Sie im Bereitstellungsassistenten den Link zu Azure Marketplace-Nutzungsbedingungen aus, um mehr über die Nutzungsbedingungen zu erfahren. Sie können auch die Registerkarte Preise und Nutzungsbedingungen auswählen, um mehr über die Preise für das ausgewählte Modell zu erfahren.
Wählen Sie Abonnieren und bereitstellen aus.

subscription.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Verwenden Sie die erwähnte Datei, um das Abonnement zu erstellen:

az ml marketplace-subscription create -f subscription.yml

model_id="azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct"
subscription_name="Meta-Llama-3-8B-Instruct"

marketplace_subscription = MarketplaceSubscription(
    model_id=model_id,
    name=subscription_name,
)

marketplace_subscription = client.marketplace_subscriptions.begin_create_or_update(
    marketplace_subscription
).result()

Verwenden Sie die folgende Bicep-Konfiguration, um ein Modellabonnement zu erstellen:

model-subscription.bicep

param projectName string = 'my-project'
param modelId string = 'azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct'

var modelName = substring(modelId, (lastIndexOf(modelId, '/') + 1))
var subscriptionName = '${modelName}-subscription'

resource projectName_subscription 'Microsoft.MachineLearningServices/workspaces/marketplaceSubscriptions@2024-04-01-preview' = if (!startsWith(
  modelId,
  'azureml://registries/azureml/'
)) {
  name: '${projectName}/${subscriptionName}'
  properties: {
    modelId: modelId
  }
}

Erstellen Sie dann die Ressource wie folgt:

az deployment group create --resource-group $RESOURCE_GROUP --template-file model-subscription.bicep

Verwenden Sie die folgende Vorlage, um ein Modellabonnement zu erstellen:

model-subscription.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "project_name": {
            "defaultValue": "my-project",
            "type": "String"
        },
        "subscription_name": {
            "defaultValue": "Meta-Llama-3-8B-Instruct",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/marketplaceSubscriptions",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('project_name'), '/', parameters('subscription_name'))]",
            "properties": {
                "modelId": "[parameters('model_id')]"
            }
        }
    ]
}

Verwenden Sie das Azure-Portal oder die Azure CLI, um die Bereitstellung zu erstellen.

az deployment group create --resource-group $RESOURCE_GROUP --template-file model-subscription.json

Sobald Sie das Projekt für ein bestimmtes Azure Marketplace-Angebot abonniert haben, müssen Sie sich für nachfolgende Bereitstellungen desselben Angebots im selben Projekt nicht erneut anmelden.
An jedem Punkt können Sie das Modell sehen, für das Ihr Projekt derzeit abonniert ist:
1. Öffnen Sie das Azure-Portal.
2. Navigieren Sie zu der Ressourcengruppe, zu der das Projekt gehört.
3. Wählen Sie im Typfilter SaaSaus.
4. Sie sehen alle Angebote, für die Sie derzeit Abonnnements haben.
5. Wählen Sie eine beliebige Ressource aus, um die Details anzuzeigen.
```
az ml marketplace-subscription list
```
```
marketplace_sub_list = client.marketplace_subscriptions.list()

for sub in marketplace_sub_list:
    print(sub.as_dict())
```
Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen abzufragen. Der folgende Code verwendet Azure CLI:
```
az resource list \
    --query "[?type=='Microsoft.SaaS']"
```
Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen abzufragen. Der folgende Code verwendet Azure CLI:
```
az resource list \
    --query "[?type=='Microsoft.SaaS']"
```

Bereitstellen des Modells auf einem serverlosen API-Endpunkt

Nachdem Sie das Abonnement für ein Nicht-Microsoft-Modell erstellt haben, können Sie das zugeordnete Modell auf einem serverlosen API-Endpunkt bereitstellen. Für Microsoft-Modelle (z. B. Phi-3-Modelle) müssen Sie kein Abonnement erstellen.

Der serverlose API-Endpunkt bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheits- und Complianceorganisationen benötigt werden. Für diese Bereitstellungsoption ist kein Kontingent aus Ihrem Abonnement erforderlich.

In diesem Abschnitt erstellen Sie einen Endpunkt mit dem Namen meta-llama3-8b-qwerty.

Erstellen des serverlosen Endpunkts

So stellen Sie ein Microsoft-Modell bereit, das kein Abonnement eines Modellangebots erfordert:
1. Wählen Sie Bereitstellen und dann Serverlose API mit Azure KI Inhaltssicherheit (Preview) aus, um den Bereitstellungsassistenten zu öffnen.
2. Wählen Sie das Projekt, in dem Sie Ihr Modell bereitstellen möchten. Beachten Sie, dass nicht alle Regionen unterstützt werden.
Alternativ können Sie für ein Nicht-Microsoft-Modell, für das ein Modellabonnement erforderlich ist, wenn Ihr Projekt gerade das Modellangebot im vorherigen Abschnitt abonniert hat, trotzdem Bereitstellen wählen. Wählen Sie alternativ die Option Mit der Bereitstellung fortfahren (wenn Ihr Bereitstellungsassistent den Hinweis Sie haben bereits ein Azure Marketplace-Abonnement für diesen Projekt angezeigt hat).
Geben Sie der Bereitstellung einen Namen. Dieser Name wird Teil der Bereitstellungs-API-URL. Diese URL muss in jeder Azure-Region eindeutig sein.

Tipp

Die Option Inhaltsfilter (Vorschau) ist standardmäßig aktiviert. Behalten Sie die Standardeinstellung bei, damit der Dienst schädliche Inhalte wie Hass, Selbstverletzung, sexuelle Inhalte und Gewalt erkennt. Weitere Informationen zur Inhaltsfilterung (Vorschau) finden Sie unter Inhaltsfilterung im Azure KI Foundry-Portal.
Klicken Sie auf Bereitstellen. Warten Sie, bis die Bereitstellung fertig ist und Sie auf die Seite Bereitstellungen weitergeleitet werden.

endpoint.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Verwenden Sie die endpoint.yml-Datei, um den Endpunkt zu erstellen:

az ml serverless-endpoint create -f endpoint.yml

endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()

Verwenden Sie die folgende Vorlage, um einen Endpunkt zu erstellen:

serverless-endpoint.bicep

param projectName string = 'my-project'
param endpointName string = 'myserverless-text-1234ss'
param location string = resourceGroup().location
param modelId string = 'azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct'

var modelName = substring(modelId, (lastIndexOf(modelId, '/') + 1))
var subscriptionName = '${modelName}-subscription'

resource projectName_endpoint 'Microsoft.MachineLearningServices/workspaces/serverlessEndpoints@2024-04-01-preview' = {
  name: '${projectName}/${endpointName}'
  location: location
  sku: {
    name: 'Consumption'
  }
  properties: {
    modelSettings: {
      modelId: modelId
    }
  }
  dependsOn: [
    projectName_subscription
  ]
}

output endpointUri string = projectName_endpoint.properties.inferenceEndpoint.uri

Erstellen Sie die Bereitstellung wie folgt:

az deployment group create --resource-group $RESOURCE_GROUP --template-file model-subscription.bicep

Verwenden Sie die folgende Vorlage, um einen Endpunkt zu erstellen:

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "project_name": {
            "defaultValue": "my-project",
            "type": "String"
        },
        "endpoint_name": {
            "defaultValue": "meta-llama3-8b-qwerty",
            "type": "String"
        },
        "location": {
            "defaultValue": "eastus2",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/serverlessEndpoints",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('project_name'), '/', parameters('endpoint_name'))]",
            "location": "[parameters('location')]",
            "sku": {
                "name": "Consumption"
            },
            "properties": {
                "modelSettings": {
                    "modelId": "[parameters('model_id')]"
                }
            }
        }
    ]
}

Erstellen Sie dann die Bereitstellung:

az deployment group create \
    --resource-group $RESOURCE_GROUP \
    --template-file template.json

Das Abschließen der Azure-Bereitstellungsvorlage kann einige Minuten dauern. Wenn sie abgeschlossen ist, wird eine Nachricht mit dem Ergebnis angezeigt:

"provisioningState": "Succeeded",

An jedem Punkt können Sie die Endpunkte sehen, die in Ihrem Projekt bereitgestellt werden:
1. Gehen Sie zu Ihrem Projekt.
2. Wählen Sie im Abschnitt Meine Ressourcen die Option Modelle + Endpunkte aus.
3. Serverlose API-Endpunkte werden angezeigt.
```
az ml serverless-endpoint list
```
```
endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()
```
Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen abzufragen. Der folgende Code verwendet Azure CLI:
```
az resource list \
    --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
```
Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen abzufragen. Der folgende Code verwendet Azure CLI:
```
az resource list \
    --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
```
Der erstellte Endpunkt verwendet die Schlüsselauthentifizierung für die Autorisierung. Führen Sie die folgenden Schritte aus, um die Schlüssel abzurufen, die einem bestimmten Endpunkt zugeordnet sind.
Sie können die Bereitstellung auswählen und den Ziel-URI und den Schlüssel des Endpunkts notieren. Verwenden Sie sie, um die Bereitstellung aufzurufen und Vorhersagen zu generieren.

Hinweis

Wenn Sie das Azure-Portal verwenden, werden serverlose API-Endpunkte in der Ressourcengruppe nicht standardmäßig angezeigt. Verwenden Sie die Option Ausgeblendete Typen anzeigen, um sie in der Ressourcengruppe anzuzeigen.
```
az ml serverless-endpoint get-credentials -n meta-llama3-8b-qwerty
```
```
endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
print(endpoint_keys.primary_key)
print(endpoint_keys.secondary_key)
```
Verwenden Sie REST-APIs, um diese Informationen abzufragen.

Verwenden Sie REST-APIs, um diese Informationen abzufragen.
An diesem Punkt kann Ihr Endpunkt verwendet werden.
Wenn Sie diese Bereitstellung aus einem anderen Projekt oder Hub nutzen müssen oder Prompt flow zum Erstellen intelligenter Anwendungen verwenden möchten, müssen Sie eine Verbindung mit der serverlosen API-Bereitstellung erstellen. Informationen zum Konfigurieren eines vorhandenen serverlosen API-Endpunkts in einem neuen Projekt oder Hub finden Sie unter Verwenden bereitgestellter serverloser API-Endpunkte aus einem anderen Projekt oder aus Prompt flow.

Tipp

Wenn Sie Prompt flow im selben Projekt oder Hub verwenden, in dem die Bereitstellung bereitgestellt wurde, müssen Sie die Verbindung trotzdem erstellen.

Verwenden des serverlosen API-Endpunkts

Modelle, die in Azure Machine Learning und Azure KI Foundry in serverlosen API-Endpunkten bereitgestellt werden, unterstützen die Azure KI-Modellinferenz-API, die einen gemeinsamen Satz von Funktionen für grundlegende Modelle bereitstellt und von Entwicklern verwendet werden kann, um Vorhersagen aus einem vielfältigen Satz von Modellen einheitlich und auf konsequente Art und Weise zu nutzen.

Erfahren Sie mehr über die Funktionen dieser API und wie Sie sie beim Erstellen von Anwendungen nutzen können.

Netzwerkisolation

Endpunkte für Modelle, die als serverlose APIs bereitgestellt werden, folgen der PNA-Kennzeichnungseinstellung (Public Network Access, Zugriff über öffentliche Netzwerke) des Hubs im Azure KI Foundry-Portal mit dem Projekt, in dem die Bereitstellung vorhanden ist. Um Ihren MaaS-Endpunkt zu schützen, deaktivieren Sie das PNA-Flag für Ihren Azure KI Foundry-Hub. Sie können eingehende Kommunikation von einem Client zu Ihrem Endpunkt sichern, indem Sie einen privaten Endpunkt für den Hub verwenden.

So legen Sie das PNA-Flag für den Azure KI Foundry-Hub fest

Öffnen Sie das Azure-Portal.
Suchen Sie nach der Ressourcengruppe, zu welcher der Hub gehört, und wählen Sie den Azure KI-Hub aus den Ressourcen aus, die für diese Ressourcengruppe aufgeführt sind.
Wählen Sie auf der Hub-Seite Übersicht im linken Menü Einstellungen>Netzwerk- aus.
Auf der Registerkarte Öffentlicher Zugriff können Sie Einstellungen für das Flag für den Zugriff auf das öffentliche Netzwerk konfigurieren.
Speichern Sie die Änderungen. Es kann bis zu fünf Minuten dauern, bis Ihre Änderungen verteilt sind.

Löschen von Endpunkten und Abonnements

Sie können Modellabonnements und Endpunkte löschen. Wenn Sie ein Modellabonnement löschen, werden alle zugehörigen Endpunkte zu Fehlerhaft und „unbrauchbar“.

So löschen Sie einen serverlosen API-Endpunkt:

Navigieren Sie zu Azure KI Foundry.
Gehen Sie zu Ihrem Projekt.
Wählen Sie im Abschnitt Meine Ressourcen die Option Modelle + Endpunkte aus.
Wählen Sie die Bereitstellung aus, die Sie löschen möchten.
Klicken Sie auf Löschen.

So löschen Sie das zugeordnete Modellabonnement:

Navigieren Sie zum Azure-Portal.
Navigieren Sie zu der Ressourcengruppe, zu der das Projekt gehört.
Wählen Sie im Typfilter SaaSaus.
Wählen Sie das Abonnement aus, das Sie löschen möchten.
Klicken Sie auf Löschen.

So löschen Sie einen serverlosen API-Endpunkt:

az ml serverless-endpoint delete \
    --name "meta-llama3-8b-qwerty"

So löschen Sie das zugeordnete Modellabonnement:

az ml marketplace-subscription delete \
    --name "Meta-Llama-3-8B-Instruct"

So löschen Sie einen serverlosen API-Endpunkt:

client.serverless_endpoints.begin_delete(endpoint_name).wait()

So löschen Sie das zugeordnete Modellabonnement:

client.marketplace_subscriptions.begin_delete(subscription_name).wait()

Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen zu verwalten. Der folgende Code verwendet Azure CLI:

az resource delete --name <resource-name>

Sie können die Ressourcenverwaltungstools verwenden, um die Ressourcen zu verwalten. Der folgende Code verwendet Azure CLI:

az resource delete --name <resource-name>

Überlegungen zu Kosten und Kontingenten für Modelle, die als serverlose API-Endpunkte bereitgestellt werden

Das Kontingent wird pro Bereitstellung verwaltet. Jede Bereitstellung hat eine Rate von 200.000 Token pro Minute und 1.000 API-Anforderungen pro Minute. Derzeit wird jedoch eine Bereitstellung pro Modell und Projekt beschränkt. Wenden Sie sich an den Microsoft Azure-Support, wenn die aktuellen Ratenbegrenzungen für Ihre Szenarien nicht ausreichen.

Kosten für Microsoft-Modelle

Die Preisinformationen finden Sie auf der Registerkarte Preise und Nutzungsbedingungen des Bereitstellungs-Assistenten, wenn Sie Microsoft-Modelle (z. B. Phi-3-Modelle) als serverlose API-Endpunkte bereitstellen.

Kosten für Nicht-Microsoft-Modelle

Nicht-Microsoft-Modelle, die als serverlose API-Endpunkt bereitgestellt werden, werden über den Azure Marketplace angeboten und zur Verwendung in Azure KI Foundry integriert. Die Azure Marketplace-Preise werden bei der Bereitstellung oder bei der Optimierung dieser Modelle angezeigt.

Jedes Mal, wenn ein Projekt ein bestimmtes Angebot aus dem Azure Marketplace abonniert, wird eine neue Ressource erstellt, um die mit der Nutzung verbundenen Kosten nachzuverfolgen. Die gleiche Ressource wird zum Nachverfolgen der Kosten im Zusammenhang mit Rückschluss und Optimierung verwendet. Es stehen jedoch mehrere Verbrauchseinheiten zur Verfügung, um die einzelnen Szenarien unabhängig voneinander nachzuverfolgen.

Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.

Die rollenbasierten Zugriffssteuerungen in Azure (Azure Role-Based Access Control, Azure RBAC) werden verwendet, um Zugriff auf Vorgänge im Azure KI Foundry-Portal zu gewähren. Um die Schritte in diesem Artikel auszuführen, muss Ihrem Benutzerkonto die Rolle Besitzer, Mitwirkender oderAzure KI Entwickler für das Azure-Abonnement zugewiesen werden. Alternativ kann Ihrem Konto eine benutzerdefinierte Rolle zugewiesen werden, die über die folgenden Berechtigungen verfügt:

Für das Azure-Abonnement: Zum Abonnieren des Arbeitsbereichs für das Azure Marketplace-Angebot, einmal für jeden Arbeitsbereich pro Angebot:
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
Für die Ressourcengruppe: Zum Erstellen und Verwenden der SaaS-Ressource:
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
Für den Arbeitsbereich: Zum Bereitstellen von Endpunkten (die Azure Machine Learning-Rolle „Wissenschaftliche Fachkraft für Daten“ enthält diese Berechtigungen bereits):
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Weitere Informationen zu Berechtigungen finden Sie unter Rollenbasierte Zugriffssteuerung im Azure KI Foundry-Portal.

Teilen über

Bereitstellen von Modellen als serverlose APIs

Voraussetzungen

Finden Ihres Modells und Ihrer Modell-ID im Modellkatalog

Bereitstellen des Modells auf einem serverlosen API-Endpunkt

Verwenden des serverlosen API-Endpunkts

Netzwerkisolation

Löschen von Endpunkten und Abonnements

Überlegungen zu Kosten und Kontingenten für Modelle, die als serverlose API-Endpunkte bereitgestellt werden

Kosten für Microsoft-Modelle

Kosten für Nicht-Microsoft-Modelle

Feedback

Zusätzliche Ressourcen

Teilen über

Bereitstellen von Modellen als serverlose APIs

Voraussetzungen

Finden Ihres Modells und Ihrer Modell-ID im Modellkatalog

Abonnieren Ihres Projekts zum Modellangebot

Bereitstellen des Modells auf einem serverlosen API-Endpunkt

Verwenden des serverlosen API-Endpunkts

Netzwerkisolation

Löschen von Endpunkten und Abonnements

Überlegungen zu Kosten und Kontingenten für Modelle, die als serverlose API-Endpunkte bereitgestellt werden

Kosten für Microsoft-Modelle

Kosten für Nicht-Microsoft-Modelle

Zum Abonnieren von Modellangeboten erforderliche Berechtigungen

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen