Verwenden von Jais-Chatmodellen
Wichtig
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
In diesem Artikel erfahren Sie mehr über Jais-Chatmodelle und deren Verwendung. JAIS 30b Chat ist ein automatisch regressives, bilinguales LLM für Arabisch und Englisch. Die optimierten Versionen verwenden die überwachte Optimierung (Supervised Fine-Tuning, SFT). Das Modell wurde sowohl mit arabischen als auch mit englischen Prompt-Antwort-Paaren optimiert. Die Datasets für die Optimierung enthielten eine breite Palette von Anweisungsdaten aus verschiedenen Themenbereichen. Das Modell umfasst eine Vielzahl gängiger Aufgaben, einschließlich Fragen und Antworten, Codegenerierung und Rückschlüsse aus Textinhalten. Um die Leistung auf Arabisch zu verbessern, hat das Core42-Team ein internes arabisches Dataset entwickelt und einige Open-Source-Anweisungen aus dem Englischen in das Arabische übersetzt.
- Kontextlänge: JAIS unterstützt eine Kontextlänge von 8 K.
- Eingabe: Als Modelleingabe ist nur Text zulässig.
- Ausgabe: Das Modell generiert ausschließlich Text.
Wichtig
Modelle, die sich in der Vorschau befinden, werden auf ihren Modellkarten im Modellkatalog als Vorschau gekennzeichnet.
Jais-Chatmodelle
Weitere Informationen zu den Modellen finden Sie auf der jeweiligen Modellkarte:
Voraussetzungen
Um Jais-Chatmodelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Jais-Chatmodelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
Installiertes Inferenzpaket
Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket azure-ai-inference
mit Python verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:
- Installation von Python 3.8 oder höher (einschließlich pip).
- Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Sobald diese Voraussetzungen erfüllt sind, installieren Sie das Azure KI-Inferenzpaket mit dem folgenden Befehl:
pip install azure-ai-inference
Lesen Sie mehr über das Azure KI-Inferenzpaket und die zugehörige Referenz.
Arbeiten mit Chatvervollständigungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Chatvervollständigungsmodell für Chats.
Tipp
Über die Azure KI-Modellinferenz-API können Sie mit den meisten in Azure KI Studio bereitgestellten Modellen mit demselben Code und derselben Struktur kommunizieren, einschließlich Jais-Chatmodellen.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential
client = ChatCompletionsClient(
endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
model_info = client.get_model_info()
Die Antwort lautet wie folgt:
print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider_name)
Model name: jais-30b-chat
Model type: chat-completions
Model provider name: G42
Erstellen einer Chatvervollständigungsanforderung
Das folgende Beispiel zeigt, wie Sie eine einfache Chatvervollständigungsanforderung an das Modell erstellen können.
from azure.ai.inference.models import SystemMessage, UserMessage
response = client.complete(
messages=[
SystemMessage(content="You are a helpful assistant."),
UserMessage(content="How many languages are in the world?"),
],
)
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
print("Response:", response.choices[0].message.content)
print("Model:", response.model)
print("Usage:")
print("\tPrompt tokens:", response.usage.prompt_tokens)
print("\tTotal tokens:", response.usage.total_tokens)
print("\tCompletion tokens:", response.usage.completion_tokens)
Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: jais-30b-chat
Usage:
Prompt tokens: 19
Total tokens: 91
Completion tokens: 72
Überprüfen Sie den Abschnitt usage
in der Antwort, um die Anzahl der Token für den Prompt, die Gesamtzahl der generierten Token und die Anzahl der Token für den Abschluss zu sehen.
Streamen von Inhalten
Standardmäßig gibt die Vervollständigungs-API den gesamten generierten Inhalt in einer einzigen Antwort zurück. Wenn Sie lange Vervollständigungen generieren, kann das Warten auf die Antwort viele Sekunden dauern.
Sie können die Inhalte Streamen, um sie abzurufen, während sie generiert werden. Durch das Streamen von Inhalten können Sie mit der Verarbeitung der Vervollständigung beginnen, sobald Inhalte verfügbar sind. Dieser Modus gibt ein Objekt zurück, das die Antwort als vom Server gesendete Ereignisse (nur Daten) zurückgibt. Extrahieren Sie Blöcke aus dem Deltafeld und nicht aus dem Nachrichtenfeld.
result = client.complete(
messages=[
SystemMessage(content="You are a helpful assistant."),
UserMessage(content="How many languages are in the world?"),
],
temperature=0,
top_p=1,
max_tokens=2048,
stream=True,
)
Um Vervollständigungen zu streamen, legen Sie stream=True
fest, wenn Sie das Modell aufrufen.
Um die Ausgabe zu visualisieren, definieren Sie eine Hilfsfunktion zum Drucken des Datenstroms.
def print_stream(result):
"""
Prints the chat completion with streaming.
"""
import time
for update in result:
if update.choices:
print(update.choices[0].delta.content, end="")
Sie können visualisieren, wie beim Streaming Inhalte generiert werden:
print_stream(result)
Erkunden weiterer Parameter, die vom Inferenzclient unterstützt werden
Erkunden Sie weitere Parameter, die Sie im Inferenzclient angeben können. Eine vollständige Liste aller unterstützten Parameter und der entsprechenden Dokumentation finden Sie unter Referenz zur Azure KI-Modellinferenz-API.
from azure.ai.inference.models import ChatCompletionsResponseFormatText
response = client.complete(
messages=[
SystemMessage(content="You are a helpful assistant."),
UserMessage(content="How many languages are in the world?"),
],
presence_penalty=0.1,
frequency_penalty=0.8,
max_tokens=2048,
stop=["<|endoftext|>"],
temperature=0,
top_p=1,
response_format={ "type": ChatCompletionsResponseFormatText() },
)
Warnung
Jais-Modelle unterstützen keine JSON-Ausgabeformatierung (response_format = { "type": "json_object" }
). Sie können jederzeit einen Prompt an das Modell richten, um JSON-Ausgaben zu generieren. Solche Ausgaben sind jedoch nicht garantiert gültiger JSON-Code.
Wenn Sie einen Parameter übergeben möchten, der nicht in der Liste der unterstützten Parameter enthalten ist, können Sie ihn mithilfe zusätzlicher Parameter an das zugrunde liegende Modell übergeben. Weitere Informationen finden Sie unter Übergeben zusätzlicher Parameter an das Modell.
Übergeben zusätzlicher Parameter an das Modell
Mit der Azure KI-Modellinferenz-API können Sie zusätzliche Parameter an das Modell übergeben. Das folgende Codebeispiel zeigt, wie der zusätzliche Parameter logprobs
an das Modell übergeben wird.
Bevor Sie zusätzliche Parameter an die Azure KI-Modellinferenz-API übergeben, stellen Sie sicher, dass Ihr Modell diese zusätzlichen Parameter unterstützt. Wenn die Anforderung an das zugrunde liegende Modell gestellt wird, wird der Header extra-parameters
mit dem Wert pass-through
an das Modell übergeben. Dieser Wert weist den Endpunkt an, die zusätzlichen Parameter an das Modell zu übergeben. Bei der Verwendung zusätzlicher Parameter mit dem Modell ist nicht garantiert, dass das Modell sie tatsächlich verarbeiten kann. Lesen Sie die Dokumentation des Modells, um zu verstehen, welche zusätzlichen Parameter unterstützt werden.
response = client.complete(
messages=[
SystemMessage(content="You are a helpful assistant."),
UserMessage(content="How many languages are in the world?"),
],
model_extras={
"logprobs": True
}
)
Anwenden von Inhaltssicherheit
Die Azure KI-Modellinferenz-API unterstützt Azure KI Inhaltssicherheit. Wenn Sie Bereitstellungen mit aktivierter Azure KI Inhaltssicherheit verwenden, durchlaufen Eingaben und Ausgaben eine Gruppe von Klassifizierungsmodellen, die darauf abzielen, die Ausgabe schädlicher Inhalte zu erkennen und zu verhindern. Das System zur Inhaltsfilterung (Vorschau) erkennt bestimmte Kategorien potenziell schädlicher Inhalte sowohl in Eingabeprompts als auch in Ausgabevervollständigungen und ergreift entsprechende Maßnahmen.
Das folgende Beispiel zeigt, wie Ereignisse behandelt werden, wenn das Modell schädliche Inhalte im Prompt erkennt und die Inhaltssicherheit aktiviert ist.
from azure.ai.inference.models import AssistantMessage, UserMessage, SystemMessage
try:
response = client.complete(
messages=[
SystemMessage(content="You are an AI assistant that helps people find information."),
UserMessage(content="Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."),
]
)
print(response.choices[0].message.content)
except HttpResponseError as ex:
if ex.status_code == 400:
response = ex.response.json()
if isinstance(response, dict) and "error" in response:
print(f"Your request triggered an {response['error']['code']} error:\n\t {response['error']['message']}")
else:
raise
raise
Tipp
Weitere Informationen zum Konfigurieren und Steuern von Einstellungen der Azure KI Inhaltssicherheit finden Sie in der Dokumentation zur Azure KI Inhaltssicherheit.
Jais-Chatmodelle
Weitere Informationen zu den Modellen finden Sie auf der jeweiligen Modellkarte:
Voraussetzungen
Um Jais-Chatmodelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Jais-Chatmodelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
Installiertes Inferenzpaket
Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket @azure-rest/ai-inference
von npm
verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:
- LTS-Versionen von
Node.js
mitnpm
. - Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Sobald diese Voraussetzungen erfüllt sind, installieren Sie die Azure-Inferenzbibliothek für JavaScript mit dem folgenden Befehl:
npm install @azure-rest/ai-inference
Arbeiten mit Chatvervollständigungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Chatvervollständigungsmodell für Chats.
Tipp
Über die Azure KI-Modellinferenz-API können Sie mit den meisten in Azure KI Studio bereitgestellten Modellen mit demselben Code und derselben Struktur kommunizieren, einschließlich Jais-Chatmodellen.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";
const client = new ModelClient(
process.env.AZURE_INFERENCE_ENDPOINT,
new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
var model_info = await client.path("/info").get()
Die Antwort lautet wie folgt:
console.log("Model name: ", model_info.body.model_name)
console.log("Model type: ", model_info.body.model_type)
console.log("Model provider name: ", model_info.body.model_provider_name)
Model name: jais-30b-chat
Model type: chat-completions
Model provider name: G42
Erstellen einer Chatvervollständigungsanforderung
Das folgende Beispiel zeigt, wie Sie eine einfache Chatvervollständigungsanforderung an das Modell erstellen können.
var messages = [
{ role: "system", content: "You are a helpful assistant" },
{ role: "user", content: "How many languages are in the world?" },
];
var response = await client.path("/chat/completions").post({
body: {
messages: messages,
}
});
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
if (isUnexpected(response)) {
throw response.body.error;
}
console.log("Response: ", response.body.choices[0].message.content);
console.log("Model: ", response.body.model);
console.log("Usage:");
console.log("\tPrompt tokens:", response.body.usage.prompt_tokens);
console.log("\tTotal tokens:", response.body.usage.total_tokens);
console.log("\tCompletion tokens:", response.body.usage.completion_tokens);
Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: jais-30b-chat
Usage:
Prompt tokens: 19
Total tokens: 91
Completion tokens: 72
Überprüfen Sie den Abschnitt usage
in der Antwort, um die Anzahl der Token für den Prompt, die Gesamtzahl der generierten Token und die Anzahl der Token für den Abschluss zu sehen.
Streamen von Inhalten
Standardmäßig gibt die Vervollständigungs-API den gesamten generierten Inhalt in einer einzigen Antwort zurück. Wenn Sie lange Vervollständigungen generieren, kann das Warten auf die Antwort viele Sekunden dauern.
Sie können die Inhalte Streamen, um sie abzurufen, während sie generiert werden. Durch das Streamen von Inhalten können Sie mit der Verarbeitung der Vervollständigung beginnen, sobald Inhalte verfügbar sind. Dieser Modus gibt ein Objekt zurück, das die Antwort als vom Server gesendete Ereignisse (nur Daten) zurückgibt. Extrahieren Sie Blöcke aus dem Deltafeld und nicht aus dem Nachrichtenfeld.
var messages = [
{ role: "system", content: "You are a helpful assistant" },
{ role: "user", content: "How many languages are in the world?" },
];
var response = await client.path("/chat/completions").post({
body: {
messages: messages,
}
}).asNodeStream();
Um Vervollständigungen zu streamen, verwenden Sie .asNodeStream()
, wenn Sie das Modell aufrufen.
Sie können visualisieren, wie beim Streaming Inhalte generiert werden:
var stream = response.body;
if (!stream) {
stream.destroy();
throw new Error(`Failed to get chat completions with status: ${response.status}`);
}
if (response.status !== "200") {
throw new Error(`Failed to get chat completions: ${response.body.error}`);
}
var sses = createSseStream(stream);
for await (const event of sses) {
if (event.data === "[DONE]") {
return;
}
for (const choice of (JSON.parse(event.data)).choices) {
console.log(choice.delta?.content ?? "");
}
}
Erkunden weiterer Parameter, die vom Inferenzclient unterstützt werden
Erkunden Sie weitere Parameter, die Sie im Inferenzclient angeben können. Eine vollständige Liste aller unterstützten Parameter und der entsprechenden Dokumentation finden Sie unter Referenz zur Azure KI-Modellinferenz-API.
var messages = [
{ role: "system", content: "You are a helpful assistant" },
{ role: "user", content: "How many languages are in the world?" },
];
var response = await client.path("/chat/completions").post({
body: {
messages: messages,
presence_penalty: "0.1",
frequency_penalty: "0.8",
max_tokens: 2048,
stop: ["<|endoftext|>"],
temperature: 0,
top_p: 1,
response_format: { type: "text" },
}
});
Warnung
Jais-Modelle unterstützen keine JSON-Ausgabeformatierung (response_format = { "type": "json_object" }
). Sie können jederzeit einen Prompt an das Modell richten, um JSON-Ausgaben zu generieren. Solche Ausgaben sind jedoch nicht garantiert gültiger JSON-Code.
Wenn Sie einen Parameter übergeben möchten, der nicht in der Liste der unterstützten Parameter enthalten ist, können Sie ihn mithilfe zusätzlicher Parameter an das zugrunde liegende Modell übergeben. Weitere Informationen finden Sie unter Übergeben zusätzlicher Parameter an das Modell.
Übergeben zusätzlicher Parameter an das Modell
Mit der Azure KI-Modellinferenz-API können Sie zusätzliche Parameter an das Modell übergeben. Das folgende Codebeispiel zeigt, wie der zusätzliche Parameter logprobs
an das Modell übergeben wird.
Bevor Sie zusätzliche Parameter an die Azure KI-Modellinferenz-API übergeben, stellen Sie sicher, dass Ihr Modell diese zusätzlichen Parameter unterstützt. Wenn die Anforderung an das zugrunde liegende Modell gestellt wird, wird der Header extra-parameters
mit dem Wert pass-through
an das Modell übergeben. Dieser Wert weist den Endpunkt an, die zusätzlichen Parameter an das Modell zu übergeben. Bei der Verwendung zusätzlicher Parameter mit dem Modell ist nicht garantiert, dass das Modell sie tatsächlich verarbeiten kann. Lesen Sie die Dokumentation des Modells, um zu verstehen, welche zusätzlichen Parameter unterstützt werden.
var messages = [
{ role: "system", content: "You are a helpful assistant" },
{ role: "user", content: "How many languages are in the world?" },
];
var response = await client.path("/chat/completions").post({
headers: {
"extra-params": "pass-through"
},
body: {
messages: messages,
logprobs: true
}
});
Anwenden von Inhaltssicherheit
Die Azure KI-Modellinferenz-API unterstützt Azure KI Inhaltssicherheit. Wenn Sie Bereitstellungen mit aktivierter Azure KI Inhaltssicherheit verwenden, durchlaufen Eingaben und Ausgaben eine Gruppe von Klassifizierungsmodellen, die darauf abzielen, die Ausgabe schädlicher Inhalte zu erkennen und zu verhindern. Das System zur Inhaltsfilterung (Vorschau) erkennt bestimmte Kategorien potenziell schädlicher Inhalte sowohl in Eingabeprompts als auch in Ausgabevervollständigungen und ergreift entsprechende Maßnahmen.
Das folgende Beispiel zeigt, wie Ereignisse behandelt werden, wenn das Modell schädliche Inhalte im Prompt erkennt und die Inhaltssicherheit aktiviert ist.
try {
var messages = [
{ role: "system", content: "You are an AI assistant that helps people find information." },
{ role: "user", content: "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills." },
];
var response = await client.path("/chat/completions").post({
body: {
messages: messages,
}
});
console.log(response.body.choices[0].message.content);
}
catch (error) {
if (error.status_code == 400) {
var response = JSON.parse(error.response._content);
if (response.error) {
console.log(`Your request triggered an ${response.error.code} error:\n\t ${response.error.message}`);
}
else
{
throw error;
}
}
}
Tipp
Weitere Informationen zum Konfigurieren und Steuern von Einstellungen der Azure KI Inhaltssicherheit finden Sie in der Dokumentation zur Azure KI Inhaltssicherheit.
Jais-Chatmodelle
Weitere Informationen zu den Modellen finden Sie auf der jeweiligen Modellkarte:
Voraussetzungen
Um Jais-Chatmodelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Jais-Chatmodelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
Installiertes Inferenzpaket
Sie können Vorhersagen aus diesem Modell nutzen, indem Sie das Paket Azure.AI.Inference
von NuGet verwenden. Zum Installieren dieses Pakets müssen folgende Voraussetzungen erfüllt sein:
- Endpunkt-URL. Um die Clientbibliothek zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name
Ihr eindeutiger Hostname für die Modellimplementierung undyour-azure-region
die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Sobald diese Voraussetzungen erfüllt sind, installieren Sie die Azure KI-Inferenzbibliothek mit dem folgenden Befehl:
dotnet add package Azure.AI.Inference --prerelease
Sie können Sie auch mit Microsoft Entra ID (ehemals Azure Active Directory) authentifizieren. Um Anmeldeinformationsanbieter zu verwenden, die mit dem Azure SDK bereitgestellt werden, installieren Sie das Paket Azure.Identity
:
dotnet add package Azure.Identity
Importieren Sie die folgenden Namespaces:
using Azure;
using Azure.Identity;
using Azure.AI.Inference;
In diesem Beispiel werden auch die folgenden Namespaces verwendet, allerdings kann es sein, dass Sie diese nicht immer benötigen:
using System.Text.Json;
using System.Text.Json.Serialization;
using System.Reflection;
Arbeiten mit Chatvervollständigungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Chatvervollständigungsmodell für Chats.
Tipp
Über die Azure KI-Modellinferenz-API können Sie mit den meisten in Azure KI Studio bereitgestellten Modellen mit demselben Code und derselben Struktur kommunizieren, einschließlich Jais-Chatmodellen.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
ChatCompletionsClient client = new ChatCompletionsClient(
new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
Response<ModelInfo> modelInfo = client.GetModelInfo();
Die Antwort lautet wie folgt:
Console.WriteLine($"Model name: {modelInfo.Value.ModelName}");
Console.WriteLine($"Model type: {modelInfo.Value.ModelType}");
Console.WriteLine($"Model provider name: {modelInfo.Value.ModelProviderName}");
Model name: jais-30b-chat
Model type: chat-completions
Model provider name: G42
Erstellen einer Chatvervollständigungsanforderung
Das folgende Beispiel zeigt, wie Sie eine einfache Chatvervollständigungsanforderung an das Modell erstellen können.
ChatCompletionsOptions requestOptions = new ChatCompletionsOptions()
{
Messages = {
new ChatRequestSystemMessage("You are a helpful assistant."),
new ChatRequestUserMessage("How many languages are in the world?")
},
};
Response<ChatCompletions> response = client.Complete(requestOptions);
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");
Console.WriteLine($"Model: {response.Value.Model}");
Console.WriteLine("Usage:");
Console.WriteLine($"\tPrompt tokens: {response.Value.Usage.PromptTokens}");
Console.WriteLine($"\tTotal tokens: {response.Value.Usage.TotalTokens}");
Console.WriteLine($"\tCompletion tokens: {response.Value.Usage.CompletionTokens}");
Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: jais-30b-chat
Usage:
Prompt tokens: 19
Total tokens: 91
Completion tokens: 72
Überprüfen Sie den Abschnitt usage
in der Antwort, um die Anzahl der Token für den Prompt, die Gesamtzahl der generierten Token und die Anzahl der Token für den Abschluss zu sehen.
Streamen von Inhalten
Standardmäßig gibt die Vervollständigungs-API den gesamten generierten Inhalt in einer einzigen Antwort zurück. Wenn Sie lange Vervollständigungen generieren, kann das Warten auf die Antwort viele Sekunden dauern.
Sie können die Inhalte Streamen, um sie abzurufen, während sie generiert werden. Durch das Streamen von Inhalten können Sie mit der Verarbeitung der Vervollständigung beginnen, sobald Inhalte verfügbar sind. Dieser Modus gibt ein Objekt zurück, das die Antwort als vom Server gesendete Ereignisse (nur Daten) zurückgibt. Extrahieren Sie Blöcke aus dem Deltafeld und nicht aus dem Nachrichtenfeld.
static async Task StreamMessageAsync(ChatCompletionsClient client)
{
ChatCompletionsOptions requestOptions = new ChatCompletionsOptions()
{
Messages = {
new ChatRequestSystemMessage("You are a helpful assistant."),
new ChatRequestUserMessage("How many languages are in the world? Write an essay about it.")
},
MaxTokens=4096
};
StreamingResponse<StreamingChatCompletionsUpdate> streamResponse = await client.CompleteStreamingAsync(requestOptions);
await PrintStream(streamResponse);
}
Um Vervollständigungen zu streamen, verwenden Sie die CompleteStreamingAsync
-Methode, wenn Sie das Modell aufrufen. Beachten Sie, dass in diesem Beispiel der Aufruf in eine asynchrone Methode eingeschlossen wird.
Um die Ausgabe zu visualisieren, definieren Sie eine asynchrone Methode zum Drucken des Datenstroms in der Konsole.
static async Task PrintStream(StreamingResponse<StreamingChatCompletionsUpdate> response)
{
await foreach (StreamingChatCompletionsUpdate chatUpdate in response)
{
if (chatUpdate.Role.HasValue)
{
Console.Write($"{chatUpdate.Role.Value.ToString().ToUpperInvariant()}: ");
}
if (!string.IsNullOrEmpty(chatUpdate.ContentUpdate))
{
Console.Write(chatUpdate.ContentUpdate);
}
}
}
Sie können visualisieren, wie beim Streaming Inhalte generiert werden:
StreamMessageAsync(client).GetAwaiter().GetResult();
Erkunden weiterer Parameter, die vom Inferenzclient unterstützt werden
Erkunden Sie weitere Parameter, die Sie im Inferenzclient angeben können. Eine vollständige Liste aller unterstützten Parameter und der entsprechenden Dokumentation finden Sie unter Referenz zur Azure KI-Modellinferenz-API.
requestOptions = new ChatCompletionsOptions()
{
Messages = {
new ChatRequestSystemMessage("You are a helpful assistant."),
new ChatRequestUserMessage("How many languages are in the world?")
},
PresencePenalty = 0.1f,
FrequencyPenalty = 0.8f,
MaxTokens = 2048,
StopSequences = { "<|endoftext|>" },
Temperature = 0,
NucleusSamplingFactor = 1,
ResponseFormat = new ChatCompletionsResponseFormatText()
};
response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");
Warnung
Jais-Modelle unterstützen keine JSON-Ausgabeformatierung (response_format = { "type": "json_object" }
). Sie können jederzeit einen Prompt an das Modell richten, um JSON-Ausgaben zu generieren. Solche Ausgaben sind jedoch nicht garantiert gültiger JSON-Code.
Wenn Sie einen Parameter übergeben möchten, der nicht in der Liste der unterstützten Parameter enthalten ist, können Sie ihn mithilfe zusätzlicher Parameter an das zugrunde liegende Modell übergeben. Weitere Informationen finden Sie unter Übergeben zusätzlicher Parameter an das Modell.
Übergeben zusätzlicher Parameter an das Modell
Mit der Azure KI-Modellinferenz-API können Sie zusätzliche Parameter an das Modell übergeben. Das folgende Codebeispiel zeigt, wie der zusätzliche Parameter logprobs
an das Modell übergeben wird.
Bevor Sie zusätzliche Parameter an die Azure KI-Modellinferenz-API übergeben, stellen Sie sicher, dass Ihr Modell diese zusätzlichen Parameter unterstützt. Wenn die Anforderung an das zugrunde liegende Modell gestellt wird, wird der Header extra-parameters
mit dem Wert pass-through
an das Modell übergeben. Dieser Wert weist den Endpunkt an, die zusätzlichen Parameter an das Modell zu übergeben. Bei der Verwendung zusätzlicher Parameter mit dem Modell ist nicht garantiert, dass das Modell sie tatsächlich verarbeiten kann. Lesen Sie die Dokumentation des Modells, um zu verstehen, welche zusätzlichen Parameter unterstützt werden.
requestOptions = new ChatCompletionsOptions()
{
Messages = {
new ChatRequestSystemMessage("You are a helpful assistant."),
new ChatRequestUserMessage("How many languages are in the world?")
},
AdditionalProperties = { { "logprobs", BinaryData.FromString("true") } },
};
response = client.Complete(requestOptions, extraParams: ExtraParameters.PassThrough);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");
Anwenden von Inhaltssicherheit
Die Azure KI-Modellinferenz-API unterstützt Azure KI Inhaltssicherheit. Wenn Sie Bereitstellungen mit aktivierter Azure KI Inhaltssicherheit verwenden, durchlaufen Eingaben und Ausgaben eine Gruppe von Klassifizierungsmodellen, die darauf abzielen, die Ausgabe schädlicher Inhalte zu erkennen und zu verhindern. Das System zur Inhaltsfilterung (Vorschau) erkennt bestimmte Kategorien potenziell schädlicher Inhalte sowohl in Eingabeprompts als auch in Ausgabevervollständigungen und ergreift entsprechende Maßnahmen.
Das folgende Beispiel zeigt, wie Ereignisse behandelt werden, wenn das Modell schädliche Inhalte im Prompt erkennt und die Inhaltssicherheit aktiviert ist.
try
{
requestOptions = new ChatCompletionsOptions()
{
Messages = {
new ChatRequestSystemMessage("You are an AI assistant that helps people find information."),
new ChatRequestUserMessage(
"Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
),
},
};
response = client.Complete(requestOptions);
Console.WriteLine(response.Value.Choices[0].Message.Content);
}
catch (RequestFailedException ex)
{
if (ex.ErrorCode == "content_filter")
{
Console.WriteLine($"Your query has trigger Azure Content Safety: {ex.Message}");
}
else
{
throw;
}
}
Tipp
Weitere Informationen zum Konfigurieren und Steuern von Einstellungen der Azure KI Inhaltssicherheit finden Sie in der Dokumentation zur Azure KI Inhaltssicherheit.
Jais-Chatmodelle
Weitere Informationen zu den Modellen finden Sie auf der jeweiligen Modellkarte:
Voraussetzungen
Um Jais-Chatmodelle mit Azure KI Studio zu verwenden, sind folgende Voraussetzungen zu erfüllen:
Modellimplementierung
Bereitstellung für serverlose APIs
Jais-Chatmodelle können für serverlose API-Endpunkte mit nutzungsbasierter Abrechnung bereitgestellt werden. Diese Art von Bereitstellung bietet eine Möglichkeit, Modelle als API zu nutzen, ohne sie in Ihrem Abonnement zu hosten, während die Unternehmenssicherheit und Compliance beibehalten werden, die Organisationen benötigen.
Zur Bereitstellung für einen serverlosen API-Endpunkt ist kein Kontingent aus Ihrem Abonnement erforderlich. Wenn Ihr Modell noch nicht bereitgestellt wurde, verwenden Sie Azure KI Studio, das Azure Machine Learning SDK für Python, die Azure CLI oder ARM-Vorlagen, um das Modell als serverlose API bereitzustellen.
REST-Client
Modelle, die mit der Azure KI-Modellinferenz-API bereitgestellt werden, können mit jedem REST-Client genutzt werden. Zur Verwendung des REST-Clients müssen folgende Voraussetzungen erfüllt sein:
- Um die Anforderungen zu erstellen, müssen Sie die Endpunkt-URL übergeben. Die Endpunkt-URL hat das Format
https://your-host-name.your-azure-region.inference.ai.azure.com
, wobeiyour-host-name`` is your unique model deployment host name and
your-azure-region`` die Azure-Region ist, in der das Modell bereitgestellt wird (z. B. „eastus2“). - Je nach Modellimplementierung und bevorzugter Authentifizierungsmethode benötigen Sie einen Schlüssel, um sich bei dem Dienst zu authentifizieren, oder Microsoft Entra ID-Anmeldeinformationen. Der Schlüssel ist eine Zeichenfolge aus 32 Zeichen.
Arbeiten mit Chatvervollständigungen
In diesem Abschnitt verwenden Sie die Azure KI-Modellinferenz-API mit einem Chatvervollständigungsmodell für Chats.
Tipp
Über die Azure KI-Modellinferenz-API können Sie mit den meisten in Azure KI Studio bereitgestellten Modellen mit demselben Code und derselben Struktur kommunizieren, einschließlich Jais-Chatmodellen.
Erstellen eines Clients zur Nutzung des Modells
Erstellen Sie als Erstes einen Client zum Nutzen des Modells. Der folgende Code verwendet eine Endpunkt-URL und einen Schlüssel, die in Umgebungsvariablen gespeichert sind.
Abrufen der Funktionen des Modells
Die /info
-Route gibt Informationen zu dem Modell zurück, das für den Endpunkt bereitgestellt wird. Geben Sie die Informationen des Modells zurück, indem Sie die folgende Methode aufrufen:
GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json
Die Antwort lautet wie folgt:
{
"model_name": "jais-30b-chat",
"model_type": "chat-completions",
"model_provider_name": "G42"
}
Erstellen einer Chatvervollständigungsanforderung
Das folgende Beispiel zeigt, wie Sie eine einfache Chatvervollständigungsanforderung an das Modell erstellen können.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "How many languages are in the world?"
}
]
}
Die Antwort lautet wie folgt, wobei Sie die Nutzungsstatistiken des Modells sehen können:
{
"id": "0a1234b5de6789f01gh2i345j6789klm",
"object": "chat.completion",
"created": 1718726686,
"model": "jais-30b-chat",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.",
"tool_calls": null
},
"finish_reason": "stop",
"logprobs": null
}
],
"usage": {
"prompt_tokens": 19,
"total_tokens": 91,
"completion_tokens": 72
}
}
Überprüfen Sie den Abschnitt usage
in der Antwort, um die Anzahl der Token für den Prompt, die Gesamtzahl der generierten Token und die Anzahl der Token für den Abschluss zu sehen.
Streamen von Inhalten
Standardmäßig gibt die Vervollständigungs-API den gesamten generierten Inhalt in einer einzigen Antwort zurück. Wenn Sie lange Vervollständigungen generieren, kann das Warten auf die Antwort viele Sekunden dauern.
Sie können die Inhalte Streamen, um sie abzurufen, während sie generiert werden. Durch das Streamen von Inhalten können Sie mit der Verarbeitung der Vervollständigung beginnen, sobald Inhalte verfügbar sind. Dieser Modus gibt ein Objekt zurück, das die Antwort als vom Server gesendete Ereignisse (nur Daten) zurückgibt. Extrahieren Sie Blöcke aus dem Deltafeld und nicht aus dem Nachrichtenfeld.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "How many languages are in the world?"
}
],
"stream": true,
"temperature": 0,
"top_p": 1,
"max_tokens": 2048
}
Sie können visualisieren, wie beim Streaming Inhalte generiert werden:
{
"id": "23b54589eba14564ad8a2e6978775a39",
"object": "chat.completion.chunk",
"created": 1718726371,
"model": "jais-30b-chat",
"choices": [
{
"index": 0,
"delta": {
"role": "assistant",
"content": ""
},
"finish_reason": null,
"logprobs": null
}
]
}
In der letzten Nachricht im Stream ist finish_reason
festgelegt, was auf den Grund für das Beenden des Generierungsprozesses hinweist.
{
"id": "23b54589eba14564ad8a2e6978775a39",
"object": "chat.completion.chunk",
"created": 1718726371,
"model": "jais-30b-chat",
"choices": [
{
"index": 0,
"delta": {
"content": ""
},
"finish_reason": "stop",
"logprobs": null
}
],
"usage": {
"prompt_tokens": 19,
"total_tokens": 91,
"completion_tokens": 72
}
}
Erkunden weiterer Parameter, die vom Inferenzclient unterstützt werden
Erkunden Sie weitere Parameter, die Sie im Inferenzclient angeben können. Eine vollständige Liste aller unterstützten Parameter und der entsprechenden Dokumentation finden Sie unter Referenz zur Azure KI-Modellinferenz-API.
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "How many languages are in the world?"
}
],
"presence_penalty": 0.1,
"frequency_penalty": 0.8,
"max_tokens": 2048,
"stop": ["<|endoftext|>"],
"temperature" :0,
"top_p": 1,
"response_format": { "type": "text" }
}
{
"id": "0a1234b5de6789f01gh2i345j6789klm",
"object": "chat.completion",
"created": 1718726686,
"model": "jais-30b-chat",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"content": "As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.",
"tool_calls": null
},
"finish_reason": "stop",
"logprobs": null
}
],
"usage": {
"prompt_tokens": 19,
"total_tokens": 91,
"completion_tokens": 72
}
}
Warnung
Jais-Modelle unterstützen keine JSON-Ausgabeformatierung (response_format = { "type": "json_object" }
). Sie können jederzeit einen Prompt an das Modell richten, um JSON-Ausgaben zu generieren. Solche Ausgaben sind jedoch nicht garantiert gültiger JSON-Code.
Wenn Sie einen Parameter übergeben möchten, der nicht in der Liste der unterstützten Parameter enthalten ist, können Sie ihn mithilfe zusätzlicher Parameter an das zugrunde liegende Modell übergeben. Weitere Informationen finden Sie unter Übergeben zusätzlicher Parameter an das Modell.
Übergeben zusätzlicher Parameter an das Modell
Mit der Azure KI-Modellinferenz-API können Sie zusätzliche Parameter an das Modell übergeben. Das folgende Codebeispiel zeigt, wie der zusätzliche Parameter logprobs
an das Modell übergeben wird.
Bevor Sie zusätzliche Parameter an die Azure KI-Modellinferenz-API übergeben, stellen Sie sicher, dass Ihr Modell diese zusätzlichen Parameter unterstützt. Wenn die Anforderung an das zugrunde liegende Modell gestellt wird, wird der Header extra-parameters
mit dem Wert pass-through
an das Modell übergeben. Dieser Wert weist den Endpunkt an, die zusätzlichen Parameter an das Modell zu übergeben. Bei der Verwendung zusätzlicher Parameter mit dem Modell ist nicht garantiert, dass das Modell sie tatsächlich verarbeiten kann. Lesen Sie die Dokumentation des Modells, um zu verstehen, welche zusätzlichen Parameter unterstützt werden.
POST /chat/completions HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json
extra-parameters: pass-through
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "How many languages are in the world?"
}
],
"logprobs": true
}
Anwenden von Inhaltssicherheit
Die Azure KI-Modellinferenz-API unterstützt Azure KI Inhaltssicherheit. Wenn Sie Bereitstellungen mit aktivierter Azure KI Inhaltssicherheit verwenden, durchlaufen Eingaben und Ausgaben eine Gruppe von Klassifizierungsmodellen, die darauf abzielen, die Ausgabe schädlicher Inhalte zu erkennen und zu verhindern. Das System zur Inhaltsfilterung (Vorschau) erkennt bestimmte Kategorien potenziell schädlicher Inhalte sowohl in Eingabeprompts als auch in Ausgabevervollständigungen und ergreift entsprechende Maßnahmen.
Das folgende Beispiel zeigt, wie Ereignisse behandelt werden, wenn das Modell schädliche Inhalte im Prompt erkennt und die Inhaltssicherheit aktiviert ist.
{
"messages": [
{
"role": "system",
"content": "You are an AI assistant that helps people find information."
},
{
"role": "user",
"content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
}
]
}
{
"error": {
"message": "The response was filtered due to the prompt triggering Microsoft's content management policy. Please modify your prompt and retry.",
"type": null,
"param": "prompt",
"code": "content_filter",
"status": 400
}
}
Tipp
Weitere Informationen zum Konfigurieren und Steuern von Einstellungen der Azure KI Inhaltssicherheit finden Sie in der Dokumentation zu Azure KI Inhaltssicherheit.
Modellrückschluss: Beispiele
Weitere Beispiele für die Verwendung von Jais-Modellen finden Sie in den folgenden Beispielen und Tutorials:
Beschreibung | Sprache | Beispiel |
---|---|---|
Azure KI-Inferenzpaket für JavaScript | JavaScript | Link |
Azure KI-Inferenzpaket für Python | Python | Link |
Überlegungen zu Kosten und Kontingenten für Jais-Modelle, die als serverlose API-Endpunkte bereitgestellt werden
Das Kontingent wird pro Bereitstellung verwaltet. Jede Bereitstellung hat eine Rate von 200.000 Token pro Minute und 1.000 API-Anforderungen pro Minute. Derzeit wird jedoch eine Bereitstellung pro Modell und Projekt beschränkt. Wenden Sie sich an den Microsoft Azure-Support, wenn die aktuellen Ratenbegrenzungen für Ihre Szenarien nicht ausreichen.
Jais-Modelle, die als serverlose API bereitgestellt werden, werden von G42 über den Azure Marketplace angeboten und zur Nutzung in Azure KI Studio integriert. Die Preise für den Azure Marketplace finden Sie, wenn Sie das Modell bereitstellen.
Jedes Mal, wenn ein Projekt ein bestimmtes Angebot aus dem Azure Marketplace abonniert, wird eine neue Ressource erstellt, um die mit der Nutzung verbundenen Kosten nachzuverfolgen. Dieselbe Ressource wird verwendet, um die mit der Inferenz verbundenen Kosten zu verfolgen. Es stehen jedoch mehrere Verbrauchseinheiten zur Verfügung, um jedes Szenario unabhängig zu verfolgen.
Weitere Informationen zum Nachverfolgen von Kosten finden Sie unter Überwachen der Kosten für Modelle, die über den Azure Marketplace angeboten werden.