Teilen über


Verwenden von Cohere Embed V3-Modellen mit Azure KI Studio

Wichtig

Einige der in diesem Artikel beschriebenen Features sind möglicherweise nur in der Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

In diesem Artikel erfahren Sie mehr über Cohere Embed V3-Modelle und deren Verwendung mit Azure KI Studio. Die Cohere-Modellfamilie umfasst verschiedene Modelle, die für unterschiedliche Anwendungsfälle optimiert sind, einschließlich Chatvervollständigungen, Einbettungen und Rerank. Cohere-Modelle sind für verschiedene Anwendungsfälle optimiert, die Gründe, Zusammenfassungen und Fragen und Antworten umfassen.

Cohere-Einbettungsmodelle

Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:

Cohere Embed English ist ein Textdarstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:

  • Embed English hat 1.024 Dimensionen.
  • Das Kontextfenster des Modells sind 512 Token.

Voraussetzungen

Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:

Modellimplementierung

Bereitstellung für serverlose APIs

Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.

Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.

Installiertes Inferenzpaket

Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket azure-ai-inference mit Python verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:

  • Installation von Python 3.8 oder höher (einschließlich pip).
  • Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format https://your-host-name.your-azure-region.inference.ai.azure.com, wobei your-host-name Ihr eindeutiger Hostname für die Modellimplementierung und your-azure-region die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“).
  • Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.

Sobald diese Voraussetzungen erfüllt sind, installieren Sie das Azure KI-Inferenzpaket mit dem folgenden Befehl:

pip install azure-ai-inference

Lesen Sie mehr über das Azure KI-Interferenzpaket und die zugehörige Referenz.

Tipp

Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.

Arbeiten mit Einbettungen

In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.

Erstellen eines Clients zur Nutzung des Modells

Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.

import os
from azure.ai.inference import EmbeddingsClient
from azure.core.credentials import AzureKeyCredential

model = EmbeddingsClient(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

Abrufen der Funktionen des Modells

Die /info-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:

model_info = model.get_model_info()

Die Antwort lautet wie folgt:

print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider)
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere

Erstellen von Einbettungen

Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.

response = model.embed(
    input=["The ultimate answer to the question of life"],
)

Tipp

Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

import numpy as np

for embed in response.data:
    print("Embeding of size:", np.asarray(embed.embedding).shape)

print("Model:", response.model)
print("Usage:", response.usage)

Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.

response = model.embed(
    input=[
        "The ultimate answer to the question of life", 
        "The largest planet in our solar system is Jupiter",
    ],
)

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

import numpy as np

for embed in response.data:
    print("Embeding of size:", np.asarray(embed.embedding).shape)

print("Model:", response.model)
print("Usage:", response.usage)

Tipp

Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.

Erstellen verschiedener Typen von Einbettungen

Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.

Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:

from azure.ai.inference.models import EmbeddingInputType

response = model.embed(
    input=["The answer to the ultimate question of life, the universe, and everything is 42"],
    input_type=EmbeddingInputType.DOCUMENT,
)

Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.

from azure.ai.inference.models import EmbeddingInputType

response = model.embed(
    input=["What's the ultimate meaning of life?"],
    input_type=EmbeddingInputType.QUERY,
)

Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.

Cohere-Einbettungsmodelle

Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:

Cohere Embed English ist ein Textdarstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:

  • Embed English hat 1.024 Dimensionen.
  • Das Kontextfenster des Modells sind 512 Token.

Voraussetzungen

Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:

Modellimplementierung

Bereitstellung für serverlose APIs

Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.

Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.

Installiertes Inferenzpaket

Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket @azure-rest/ai-inference von npm verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:

  • LTS-Versionen von Node.js mit npm.
  • Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format https://your-host-name.your-azure-region.inference.ai.azure.com, wobei your-host-name Ihr eindeutiger Hostname für die Modellimplementierung und your-azure-region die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“).
  • Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.

Sobald diese Voraussetzungen erfüllt sind, installieren Sie die Azure-Inferenzbibliothek für JavaScript mit dem folgenden Befehl:

npm install @azure-rest/ai-inference

Tipp

Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.

Arbeiten mit Einbettungen

In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.

Erstellen eines Clients zur Nutzung des Modells

Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZURE_INFERENCE_ENDPOINT, 
    new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);

Abrufen der Funktionen des Modells

Die /info-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:

await client.path("/info").get()

Die Antwort lautet wie folgt:

console.log("Model name: ", model_info.body.model_name);
console.log("Model type: ", model_info.body.model_type);
console.log("Model provider name: ", model_info.body.model_provider_name);
Model name: Cohere-embed-v3-english
Model type": embeddings
Model provider name": Cohere

Erstellen von Einbettungen

Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.

var response = await client.path("/embeddings").post({
    body: {
        input: ["The ultimate answer to the question of life"],
    }
});

Tipp

Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

if (isUnexpected(response)) {
    throw response.body.error;
}

console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);

Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.

var response = await client.path("/embeddings").post({
    body: {
        input: [
            "The ultimate answer to the question of life", 
            "The largest planet in our solar system is Jupiter",
        ],
    }
});

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

if (isUnexpected(response)) {
    throw response.body.error;
}

console.log(response.embedding);
console.log(response.body.model);
console.log(response.body.usage);

Tipp

Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.

Erstellen verschiedener Typen von Einbettungen

Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.

Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:

var response = await client.path("/embeddings").post({
    body: {
        input: ["The answer to the ultimate question of life, the universe, and everything is 42"],
        input_type: "document",
    }
});

Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.

var response = await client.path("/embeddings").post({
    body: {
        input: ["What's the ultimate meaning of life?"],
        input_type: "query",
    }
});

Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.

Cohere-Einbettungsmodelle

Die Cohere-Familie von Modellen für Einbettungen umfasst die folgenden Modelle:

Cohere Embed English ist ein Textdarstellungsmodell, das für die semantische Suche, Retrieval Augmented Generation (RAG), Klassifizierung und Clustering verwendet wird. Embed English erzielt die beste Leistung beim HuggingFace Massive Text Embed (MTEB)-Benchmark und bietet gute Leistungen für Anwendungsfälle verschiedener Branchen, z. B. Finanzen, Recht und universelle Corpora. Embed English verfügt auch über die folgenden Attribute:

  • Embed English hat 1.024 Dimensionen.
  • Das Kontextfenster des Modells sind 512 Token.

Voraussetzungen

Um Cohere Embed V3-Modelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:

Modellimplementierung

Bereitstellung für serverlose APIs

Cohere Emded V3-Modelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.

Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.

REST-Client

Modelle, die mit der Azure KI-Modellinferenz-API bereitgestellt werden, können mit jedem REST-Client genutzt werden. Zur Verwendung des REST-Clients müssen folgende Voraussetzungen erfüllt sein:

  • Um die Anforderungen zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format https://your-host-name.your-azure-region.inference.ai.azure.com, wobei your-host-name Ihr eindeutiger Hostname für die Modellimplementierung und your-azure-region die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“).
  • Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.

Tipp

Darüber hinaus unterstützt Cohere eine maßgeschneiderte API für die Verwendung mit bestimmten Features des Modells. Informationen zur Verwendung der modellanbieterspezifischen API finden Sie in der Cohere-Dokumentation.

Arbeiten mit Einbettungen

In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Einbettungsmodell.

Erstellen eines Clients zur Nutzung des Modells

Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.

Abrufen der Funktionen des Modells

Die /info-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:

GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json

Die Antwort lautet wie folgt:

{
    "model_name": "Cohere-embed-v3-english",
    "model_type": "embeddings",
    "model_provider_name": "Cohere"
}

Erstellen von Einbettungen

Erstellen Sie eine Einbettungsanforderung, um die Ausgabe des Modells anzuzeigen.

{
    "input": [
        "The ultimate answer to the question of life"
    ]
}

Tipp

Das Kontextfenster für Cohere Embed V3-Modelle beträgt 512. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Einbettungen nicht überschreiten.

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

{
    "id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
    "object": "list",
    "data": [
        {
            "index": 0,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        }
    ],
    "model": "Cohere-embed-v3-english",
    "usage": {
        "prompt_tokens": 9,
        "completion_tokens": 0,
        "total_tokens": 9
    }
}

Es kann nützlich sein, Einbettungen in Eingabebatches zu berechnen. Der Parameter inputs kann eine Liste von Zeichenfolgen sein, wobei jede Zeichenfolge eine andere Eingabe ist. Die Antwort wiederum ist eine Liste der Einbettungen, wobei jede Einbettung der Eingabe an derselben Position entspricht.

{
    "input": [
        "The ultimate answer to the question of life", 
        "The largest planet in our solar system is Jupiter"
    ]
}

Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:

{
    "id": "0ab1234c-d5e6-7fgh-i890-j1234k123456",
    "object": "list",
    "data": [
        {
            "index": 0,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        },
        {
            "index": 1,
            "object": "embedding",
            "embedding": [
                0.017196655,
                // ...
                -0.000687122,
                -0.025054932,
                -0.015777588
            ]
        }
    ],
    "model": "Cohere-embed-v3-english",
    "usage": {
        "prompt_tokens": 19,
        "completion_tokens": 0,
        "total_tokens": 19
    }
}

Tipp

Cohere Embed V3-Modelle können Batches von jeweils 1024 aufnehmen. Stellen Sie sicher, dass Sie diesen Grenzwert beim Erstellen von Batches nicht überschreiten.

Erstellen verschiedener Typen von Einbettungen

Cohere Embed V3-Modelle können mehrere Einbettungen für dieselbe Eingabe generieren, je nachdem, wie Sie sie verwenden möchten. Mit dieser Funktion können Sie genauere Einbettungen für RAG-Muster abrufen.

Das folgende Beispiel zeigt, wie Einbettungen erstellt werden, die zum Erstellen einer Einbettung für ein Dokument verwendet werden, das in einer Vektordatenbank gespeichert wird:

{
    "input": [
        "The answer to the ultimate question of life, the universe, and everything is 42"
    ],
    "input_type": "document"
}

Wenn Sie an einer Abfrage arbeiten, um ein solches Dokument abzurufen, können Sie den folgenden Codeschnipsel verwenden, um die Einbettungen für die Abfrage zu erstellen und die Abrufleistung zu maximieren.

{
    "input": [
        "What's the ultimate meaning of life?"
    ],
    "input_type": "query"
}

Cohere Embed V3-Modelle können die Einbettungen basierend auf ihrem Anwendungsfall optimieren.

Modellrückschluss: Beispiele

Beschreibung Sprache Beispiel
Webanforderungen Bash cohere-embed.ipynb
Azure KI-Inferenzpaket für JavaScript JavaScript Link
Azure KI-Inferenzpaket für Python Python Link
OpenAI SDK (experimentell) Python Link
LangChain Python Link
Cohere-SDK Python Link
LiteLLM SDK Python Link

Retrieval Augmented Generation (RAG) und das Tool verwenden Stichproben

Beschreibung Packages Beispiel
Erstellen eines lokalen FAISS-Vektorindex (Facebook AI Similarity Search) mithilfe von Cohere-Einbettungen: Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im lokalen FAISS-Vektorindex: Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im KI-Suchvektorindex: Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Verwenden von Cohere Command R/R+ zum Beantworten von Fragen mit Daten im KI-Suchvektorindex: Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Aufrufen von Command R+-Tools/-Funktionen mit LangChain cohere, langchain, langchain_cohere command_tools-langchain.ipynb

Überlegungen zu Kosten und Kontingenten für Modelle der Cohere-Produktfamilie, die als serverlose API-Endpunkte bereitgestellt werden

Cohere-Modelle, die als serverlose API bereitgestellt werden, werden von Cohere über den Azure Marketplace angeboten und zur Verwendung in Azure KI Studio integriert. Die Preise für den Azure Marketplace finden Sie, wenn Sie das Modell bereitstellen.

Jedes Mal, wenn ein Projekt ein bestimmtes Angebot aus dem Azure Marketplace abonniert, wird eine neue Ressource erstellt, um die mit der Nutzung verbundenen Kosten nachzuverfolgen. Dieselbe Ressource wird verwendet, um die mit der Inferenz verbundenen Kosten zu verfolgen. Es stehen jedoch mehrere Verbrauchseinheiten zur Verfügung, um jedes Szenario unabhängig zu verfolgen.

Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.

Das Kontingent wird pro Bereitstellung verwaltet. Jede Bereitstellung hat eine Rate von 200.000 Token pro Minute und 1.000 API-Anforderungen pro Minute. Derzeit wird jedoch eine Bereitstellung pro Modell und Projekt beschränkt. Wenden Sie sich an den Microsoft Azure-Support, wenn die aktuellen Ratenbegrenzungen für Ihre Szenarien nicht ausreichen.