如何使用Mistral-7B和Mixtral聊天模型搭配 Azure AI Foundry - Azure AI Foundry

Mistral-7B 和 Mixtral 聊天模型

Mistral-7B 和 Mixtral 聊天模型包括下列模型：

Mistral-7B-Instruct 大型語言模型 (LLM) 是 Mistral-7B 經過微調的 Instruct 版本，而 Mistral-7B 則是具備下列架構選擇的轉換器模型：

分組查詢注意力
滑動窗口注意力
位元組後援 BPE 權杖化工具

有下列模型可用：

mistralai-Mistral-7B-Instruct-v01 (英文)
mistralai-Mistral-7B-Instruct-v02 (英文)

小提示

此外，MistralAI 支援使用量身打造的 API，以搭配模型的特定功能使用。若要使用模型提供者特定的 API，請參閱 MistralAI 文件 (英文)，或參閱推斷範例小節中的程式碼範例。

先決條件

若要搭配 Azure AI Foundry 使用 Mistral-7B 和 Mixtral 聊天模型，您需要下列必要條件：

模型部署

[部署至自我裝載的受控計算]

Mistral-7B 和 Mixtral 聊天模型可以部署至我們自我裝載的受控推斷解決方案，其可讓您自訂和控制提供模型之方式的所有詳細資料。

若要部署至自我裝載的受控計算，您的訂用帳戶必須具有足夠的配額。如果您沒有足夠的可用配額，您可以透過選取 [我想要使用共用配額且我了解此端點將會在 168 小時後刪除] 選項，來使用我們的臨時配額存取。

[將模型部署至受控計算]

已安裝推斷套件

您可以透過使用 azure-ai-inference 套件搭配 Python，從此模型取用預測。若要安裝此套件，您需要下列先決條件：

已安裝 Python 3.8 或更新版本，包括 pip。
端點 URL。若要建構用戶端程式庫，您必須傳遞端點 URL。端點 URL 具有 https://your-host-name.your-azure-region.inference.ai.azure.com 的形式，其中 your-host-name 是您唯一的模型部署主機名稱，且 your-azure-region 是模型所部署的 Azure 區域 (例如 eastus2)。
視您的模型部署和驗證喜好設定而定，您需要金鑰來針對服務進行驗證，或是 Microsoft Entra ID 認證。金鑰是 32 個字元的字串。

具備這些先決條件之後，請使用下列命令安裝 Azure AI 推斷套件：

pip install azure-ai-inference

深入了解 [Azure AI 推斷套件和參考]。

使用聊天完成

在本節中，您會使用 Azure AI Foundry 模型 API 搭配聊天完成模型進行聊天。

小提示

Foundry 模型 API 可讓您使用相同的程式代碼和結構與 Azure AI Foundry 入口網站中部署的大部分模型交談，包括 Mistral-7B 和 Mixtral 聊天模型。

建立用戶端以取用模型

首先，建立用戶端以取用模型。下列程式碼會使用儲存在環境變數中的端點 URL 和金鑰。

import os
from azure.ai.inference import ChatCompletionsClient
from azure.core.credentials import AzureKeyCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=AzureKeyCredential(os.environ["AZURE_INFERENCE_CREDENTIAL"]),
)

當您將模型部署至具有 Microsoft Entra ID 支援的自我裝載線上端點時，您可以使用下列程式碼片段來建立用戶端。

import os
from azure.ai.inference import ChatCompletionsClient
from azure.identity import DefaultAzureCredential

client = ChatCompletionsClient(
    endpoint=os.environ["AZURE_INFERENCE_ENDPOINT"],
    credential=DefaultAzureCredential(),
)

取得模型的功能

/info 路由會傳回部署至端點之模型的相關資訊。透過呼叫下列方法，以傳回模型的資訊：

model_info = client.get_model_info()

回應如下：

print("Model name:", model_info.model_name)
print("Model type:", model_info.model_type)
print("Model provider name:", model_info.model_provider_name)

Model name: mistralai-Mistral-7B-Instruct-v01
Model type: chat-completions
Model provider name: MistralAI

建立聊天完成要求

下列範例示範如何針對模型建立基本聊天完成要求。

from azure.ai.inference.models import SystemMessage, UserMessage

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
)

備註

mistralai-Mistral-7B-Instruct-v01、mistralai-Mistral-7B-Instruct-v02 和 mistralai-Mixtral-8x22B-Instruct-v0-1 不支持系統訊息（role="system"）。當您使用 Foundry 模型 API 時，系統會將系統訊息轉譯為使用者訊息，這是最接近的功能。此轉譯功能是為了方便起見而提供，但請務必確認模型遵循系統訊息中的指示，且具有正確的信賴度等級。

回應如下，您可以在其中查看模型的使用量統計資料：

print("Response:", response.choices[0].message.content)
print("Model:", response.model)
print("Usage:")
print("\tPrompt tokens:", response.usage.prompt_tokens)
print("\tTotal tokens:", response.usage.total_tokens)
print("\tCompletion tokens:", response.usage.completion_tokens)

Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: mistralai-Mistral-7B-Instruct-v01
Usage: 
  Prompt tokens: 19
  Total tokens: 91
  Completion tokens: 72

檢查回應中的 usage 區段，以查看提示所使用的權杖數目、產生的權杖總數，以及用於完成文字的權杖數目。

串流內容

根據預設，完成 API 會在單一回應中傳回整個產生的內容。如果您要產生的完成很長，則等候回應可能需要數秒鐘的時間。

您可以「串流」內容，以在內容產生期間加以取得。串流內容可讓您在內容變成可用時立即開始處理完成。此模式會傳回以僅限資料的伺服器傳送事件 (英文) 形式將回應串流回來的物件。從差異欄位 (而非訊息欄位) 擷取區塊。

result = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
    temperature=0,
    top_p=1,
    max_tokens=2048,
    stream=True,
)

若要串流完成，請在呼叫模型時設定 stream=True。

若要將輸出視覺化，請定義協助程式函式來列印串流。

def print_stream(result):
    """
    Prints the chat completion with streaming.
    """
    import time
    for update in result:
        if update.choices:
            print(update.choices[0].delta.content, end="")

您可以將串流產生內容的方式視覺化：

print_stream(result)

探索推斷用戶端支援的更多參數

探索您可以在推斷用戶端中指定的其他參數。如需所有支持參數及其對應檔的完整清單，請參閱 Foundry Models API 參考。

from azure.ai.inference.models import ChatCompletionsResponseFormatText

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
    presence_penalty=0.1,
    frequency_penalty=0.8,
    max_tokens=2048,
    stop=["<|endoftext|>"],
    temperature=0,
    top_p=1,
    response_format={ "type": ChatCompletionsResponseFormatText() },
)

警告

Mistral 模型不支援 JSON 輸出格式化 (response_format = { "type": "json_object" })。您隨時都可以提示模型產生 JSON 輸出。不過，這類輸出不保證為有效的 JSON。

如果您想要傳遞不在所支援參數清單中的參數，您可以使用 [額外的參數] 將其傳遞至基礎模型。請參閱將額外的參數傳遞至模型。

將額外的參數傳遞至模型

Foundry 模型 API 可讓您將額外的參數傳遞至模型。下列程式碼範例示範如何將額外的參數 logprobs 傳遞至模型。

將額外的參數傳遞至 Foundry 模型 API 之前，請確定您的模型支援這些額外的參數。對基礎模型提出要求時，會將標頭 extra-parameters 傳遞至具有 pass-through 值的模型。這個值會告訴端點將額外的參數傳遞至模型。搭配模型使用額外的參數，不保證模型實際上可以處理這些參數。請參閱模型的文件，以了解支援哪些額外的參數。

response = client.complete(
    messages=[
        SystemMessage(content="You are a helpful assistant."),
        UserMessage(content="How many languages are in the world?"),
    ],
    model_extras={
        "logprobs": True
    }
)

下列額外參數可以傳遞至 Mistral-7B 和 Mixtral 聊天模型：

名稱	說明	類型
`logit_bias`	接受 JSON 物件，此物件會將權杖 (由權杖化工具中的權杖識別碼所指定) 對應至 -100 到 100 的相關偏差值。在數學上，偏差會新增至模型在取樣之前所產生的對數。確切的效果會因模型而異，但介於 -1 到 1 之間的值應該會降低或提高選取的可能性；而 -100 或 100 之類的值應會導致禁止選取或獨佔選取相關權杖。	`float`
`logprobs`	是否要傳回輸出權杖的對數機率。如果為 true，則會傳回在 `content` 的 `message` 中所傳回每個輸出權杖的對數機率。	`int`
`top_logprobs`	介於 0 到 20 之間的整數，其會指定最有可能在每個權杖位置傳回的權杖數目，每個都有相關聯的對數機率。如果使用此參數，則 `logprobs` 必須設定為 `true`。	`float`
`n`	針對每個輸入訊息產生多少聊天完成選項。系統會根據所有選項產生的令牌數目向您收費。	`int`

Mistral-7B 和 Mixtral 聊天模型

Mistral-7B 和 Mixtral 聊天模型包括下列模型：

Mistral-7B-Instruct 大型語言模型 (LLM) 是 Mistral-7B 經過微調的 Instruct 版本，而 Mistral-7B 則是具備下列架構選擇的轉換器模型：

分組查詢注意力
滑動窗口注意力
位元組後援 BPE 權杖化工具

有下列模型可用：

mistralai-Mistral-7B-Instruct-v01 (英文)
mistralai-Mistral-7B-Instruct-v02 (英文)

小提示

此外，MistralAI 支援使用量身打造的 API，以搭配模型的特定功能使用。若要使用模型提供者特定的 API，請參閱 MistralAI 文件 (英文)，或參閱推斷範例小節中的程式碼範例。

先決條件

若要搭配 Azure AI Foundry 使用 Mistral-7B 和 Mixtral 聊天模型，您需要下列必要條件：

模型部署

[部署至自我裝載的受控計算]

Mistral-7B 和 Mixtral 聊天模型可以部署至我們自我裝載的受控推斷解決方案，其可讓您自訂和控制提供模型之方式的所有詳細資料。

若要部署至自我裝載的受控計算，您的訂用帳戶必須具有足夠的配額。如果您沒有足夠的可用配額，您可以透過選取 [我想要使用共用配額且我了解此端點將會在 168 小時後刪除] 選項，來使用我們的臨時配額存取。

[將模型部署至受控計算]

已安裝推斷套件

您可以使用 @azure-rest/ai-inference 的 npm 套件來取用此模型的預測。若要安裝此套件，您需要下列先決條件：

具有 Node.js 的 npm LTS 版本。
端點 URL。若要建構用戶端程式庫，您必須傳遞端點 URL。端點 URL 具有 https://your-host-name.your-azure-region.inference.ai.azure.com 的形式，其中 your-host-name 是您唯一的模型部署主機名稱，且 your-azure-region 是模型所部署的 Azure 區域 (例如 eastus2)。
視您的模型部署和驗證喜好設定而定，您需要金鑰來針對服務進行驗證，或是 Microsoft Entra ID 認證。金鑰是 32 個字元的字串。

具備這些先決條件之後，使用下列命令來安裝適用於 JavaScript 的 Azure 推斷程式庫：

npm install @azure-rest/ai-inference

使用聊天完成

在本節中，您會使用 Azure AI Foundry 模型 API 搭配聊天完成模型進行聊天。

小提示

Foundry 模型 API 可讓您使用相同的程式代碼和結構與 Azure AI Foundry 入口網站中部署的大部分模型交談，包括 Mistral-7B 和 Mixtral 聊天模型。

建立用戶端以取用模型

首先，建立用戶端以取用模型。下列程式碼會使用儲存在環境變數中的端點 URL 和金鑰。

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { AzureKeyCredential } from "@azure/core-auth";

const client = new ModelClient(
    process.env.AZURE_INFERENCE_ENDPOINT, 
    new AzureKeyCredential(process.env.AZURE_INFERENCE_CREDENTIAL)
);

當您將模型部署至具有 Microsoft Entra ID 支援的自我裝載線上端點時，您可以使用下列程式碼片段來建立用戶端。

import ModelClient from "@azure-rest/ai-inference";
import { isUnexpected } from "@azure-rest/ai-inference";
import { DefaultAzureCredential }  from "@azure/identity";

const client = new ModelClient(
    process.env.AZURE_INFERENCE_ENDPOINT, 
    new DefaultAzureCredential()
);

取得模型的功能

/info 路由會傳回部署至端點之模型的相關資訊。透過呼叫下列方法，以傳回模型的資訊：

var model_info = await client.path("/info").get()

回應如下：

console.log("Model name: ", model_info.body.model_name)
console.log("Model type: ", model_info.body.model_type)
console.log("Model provider name: ", model_info.body.model_provider_name)

Model name: mistralai-Mistral-7B-Instruct-v01
Model type: chat-completions
Model provider name: MistralAI

建立聊天完成要求

下列範例示範如何針對模型建立基本聊天完成要求。

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
    }
});

備註

mistralai-Mistral-7B-Instruct-v01、mistralai-Mistral-7B-Instruct-v02 和 mistralai-Mixtral-8x22B-Instruct-v0-1 不支持系統訊息（role="system"）。當您使用 Foundry 模型 API 時，系統會將系統訊息轉譯為使用者訊息，這是最接近的功能。此轉譯功能是為了方便起見而提供，但請務必確認模型遵循系統訊息中的指示，且具有正確的信賴度等級。

回應如下，您可以在其中查看模型的使用量統計資料：

if (isUnexpected(response)) {
    throw response.body.error;
}

console.log("Response: ", response.body.choices[0].message.content);
console.log("Model: ", response.body.model);
console.log("Usage:");
console.log("\tPrompt tokens:", response.body.usage.prompt_tokens);
console.log("\tTotal tokens:", response.body.usage.total_tokens);
console.log("\tCompletion tokens:", response.body.usage.completion_tokens);

Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: mistralai-Mistral-7B-Instruct-v01
Usage: 
  Prompt tokens: 19
  Total tokens: 91
  Completion tokens: 72

檢查回應中的 usage 區段，以查看提示所使用的權杖數目、產生的權杖總數，以及用於完成文字的權杖數目。

串流內容

根據預設，完成 API 會在單一回應中傳回整個產生的內容。如果您要產生的完成很長，則等候回應可能需要數秒鐘的時間。

您可以「串流」內容，以在內容產生期間加以取得。串流內容可讓您在內容變成可用時立即開始處理完成。此模式會傳回以僅限資料的伺服器傳送事件 (英文) 形式將回應串流回來的物件。從差異欄位 (而非訊息欄位) 擷取區塊。

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
    }
}).asNodeStream();

若要串流完成，請在呼叫模型時使用 .asNodeStream()。

您可以將串流產生內容的方式視覺化：

var stream = response.body;
if (!stream) {
    stream.destroy();
    throw new Error(`Failed to get chat completions with status: ${response.status}`);
}

if (response.status !== "200") {
    throw new Error(`Failed to get chat completions: ${response.body.error}`);
}

var sses = createSseStream(stream);

for await (const event of sses) {
    if (event.data === "[DONE]") {
        return;
    }
    for (const choice of (JSON.parse(event.data)).choices) {
        console.log(choice.delta?.content ?? "");
    }
}

探索推斷用戶端支援的更多參數

探索您可以在推斷用戶端中指定的其他參數。如需所有支持參數及其對應檔的完整清單，請參閱 Foundry Models API 參考。

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    body: {
        messages: messages,
        presence_penalty: "0.1",
        frequency_penalty: "0.8",
        max_tokens: 2048,
        stop: ["<|endoftext|>"],
        temperature: 0,
        top_p: 1,
        response_format: { type: "text" },
    }
});

警告

Mistral 模型不支援 JSON 輸出格式化 (response_format = { "type": "json_object" })。您隨時都可以提示模型產生 JSON 輸出。不過，這類輸出不保證為有效的 JSON。

如果您想要傳遞不在所支援參數清單中的參數，您可以使用 [額外的參數] 將其傳遞至基礎模型。請參閱將額外的參數傳遞至模型。

將額外的參數傳遞至模型

Foundry 模型 API 可讓您將額外的參數傳遞至模型。下列程式碼範例示範如何將額外的參數 logprobs 傳遞至模型。

將額外的參數傳遞至 Foundry 模型 API 之前，請確定您的模型支援這些額外的參數。對基礎模型提出要求時，會將標頭 extra-parameters 傳遞至具有 pass-through 值的模型。這個值會告訴端點將額外的參數傳遞至模型。搭配模型使用額外的參數，不保證模型實際上可以處理這些參數。請參閱模型的文件，以了解支援哪些額外的參數。

var messages = [
    { role: "system", content: "You are a helpful assistant" },
    { role: "user", content: "How many languages are in the world?" },
];

var response = await client.path("/chat/completions").post({
    headers: {
        "extra-params": "pass-through"
    },
    body: {
        messages: messages,
        logprobs: true
    }
});

下列額外參數可以傳遞至 Mistral-7B 和 Mixtral 聊天模型：

名稱	說明	類型
`logit_bias`	接受 JSON 物件，此物件會將權杖 (由權杖化工具中的權杖識別碼所指定) 對應至 -100 到 100 的相關偏差值。在數學上，偏差會新增至模型在取樣之前所產生的對數。確切的效果會因模型而異，但介於 -1 到 1 之間的值應該會降低或提高選取的可能性；而 -100 或 100 之類的值應會導致禁止選取或獨佔選取相關權杖。	`float`
`logprobs`	是否要傳回輸出權杖的對數機率。如果為 true，則會傳回在 `content` 的 `message` 中所傳回每個輸出權杖的對數機率。	`int`
`top_logprobs`	介於 0 到 20 之間的整數，其會指定最有可能在每個權杖位置傳回的權杖數目，每個都有相關聯的對數機率。如果使用此參數，則 `logprobs` 必須設定為 `true`。	`float`
`n`	針對每個輸入訊息產生多少聊天完成選項。系統會根據所有選項產生的令牌數目向您收費。	`int`

Mistral-7B 和 Mixtral 聊天模型

Mistral-7B 和 Mixtral 聊天模型包括下列模型：

Mistral-7B-Instruct 大型語言模型 (LLM) 是 Mistral-7B 經過微調的 Instruct 版本，而 Mistral-7B 則是具備下列架構選擇的轉換器模型：

分組查詢注意力
滑動窗口注意力
位元組後援 BPE 權杖化工具

有下列模型可用：

mistralai-Mistral-7B-Instruct-v01 (英文)
mistralai-Mistral-7B-Instruct-v02 (英文)

小提示

此外，MistralAI 支援使用量身打造的 API，以搭配模型的特定功能使用。若要使用模型提供者特定的 API，請參閱 MistralAI 文件 (英文)，或參閱推斷範例小節中的程式碼範例。

先決條件

若要搭配 Azure AI Foundry 使用 Mistral-7B 和 Mixtral 聊天模型，您需要下列必要條件：

模型部署

[部署至自我裝載的受控計算]

Mistral-7B 和 Mixtral 聊天模型可以部署至我們自我裝載的受控推斷解決方案，其可讓您自訂和控制提供模型之方式的所有詳細資料。

若要部署至自我裝載的受控計算，您的訂用帳戶必須具有足夠的配額。如果您沒有足夠的可用配額，您可以透過選取 [我想要使用共用配額且我了解此端點將會在 168 小時後刪除] 選項，來使用我們的臨時配額存取。

[將模型部署至受控計算]

已安裝推斷套件

您可以從 [NuGet]Azure.AI.Inference 使用套件來取用此模型的預測。若要安裝此套件，您需要下列先決條件：

端點 URL。若要建構用戶端程式庫，您必須傳遞端點 URL。端點 URL 具有 https://your-host-name.your-azure-region.inference.ai.azure.com 的形式，其中 your-host-name 是您唯一的模型部署主機名稱，且 your-azure-region 是模型所部署的 Azure 區域 (例如 eastus2)。
視您的模型部署和驗證喜好設定而定，您需要金鑰來針對服務進行驗證，或是 Microsoft Entra ID 認證。金鑰是 32 個字元的字串。

具備這些先決條件之後，使用下列命令來安裝 Azure AI 推斷程式庫：

dotnet add package Azure.AI.Inference --prerelease

您也可以使用 Microsoft Entra ID (先前稱為 Azure Active Directory) 進行驗證。若要使用 Azure SDK 所提供的認證提供者，請安裝 Azure.Identity 套件：

dotnet add package Azure.Identity

匯入下列命名空間：

using Azure;
using Azure.Identity;
using Azure.AI.Inference;

此範例也會使用下列命名空間，但您可能不一定需要它們：

using System.Text.Json;
using System.Text.Json.Serialization;
using System.Reflection;

使用聊天完成

在本節中，您會使用 Azure AI Foundry 模型 API 搭配聊天完成模型進行聊天。

小提示

Foundry 模型 API 可讓您使用相同的程式代碼和結構與 Azure AI Foundry 入口網站中部署的大部分模型交談，包括 Mistral-7B 和 Mixtral 聊天模型。

建立用戶端以取用模型

首先，建立用戶端以取用模型。下列程式碼會使用儲存在環境變數中的端點 URL 和金鑰。

ChatCompletionsClient client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new AzureKeyCredential(Environment.GetEnvironmentVariable("AZURE_INFERENCE_CREDENTIAL"))
);

當您將模型部署至具有 Microsoft Entra ID 支援的自我裝載線上端點時，您可以使用下列程式碼片段來建立用戶端。

client = new ChatCompletionsClient(
    new Uri(Environment.GetEnvironmentVariable("AZURE_INFERENCE_ENDPOINT")),
    new DefaultAzureCredential(includeInteractiveCredentials: true)
);

取得模型的功能

/info 路由會傳回部署至端點之模型的相關資訊。透過呼叫下列方法，以傳回模型的資訊：

Response<ModelInfo> modelInfo = client.GetModelInfo();

回應如下：

Console.WriteLine($"Model name: {modelInfo.Value.ModelName}");
Console.WriteLine($"Model type: {modelInfo.Value.ModelType}");
Console.WriteLine($"Model provider name: {modelInfo.Value.ModelProviderName}");

Model name: mistralai-Mistral-7B-Instruct-v01
Model type: chat-completions
Model provider name: MistralAI

建立聊天完成要求

下列範例示範如何針對模型建立基本聊天完成要求。

ChatCompletionsOptions requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("How many languages are in the world?")
    },
};

Response<ChatCompletions> response = client.Complete(requestOptions);

備註

mistralai-Mistral-7B-Instruct-v01、mistralai-Mistral-7B-Instruct-v02 和 mistralai-Mixtral-8x22B-Instruct-v0-1 不支持系統訊息（role="system"）。當您使用 Foundry 模型 API 時，系統會將系統訊息轉譯為使用者訊息，這是最接近的功能。此轉譯功能是為了方便起見而提供，但請務必確認模型遵循系統訊息中的指示，且具有正確的信賴度等級。

回應如下，您可以在其中查看模型的使用量統計資料：

Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");
Console.WriteLine($"Model: {response.Value.Model}");
Console.WriteLine("Usage:");
Console.WriteLine($"\tPrompt tokens: {response.Value.Usage.PromptTokens}");
Console.WriteLine($"\tTotal tokens: {response.Value.Usage.TotalTokens}");
Console.WriteLine($"\tCompletion tokens: {response.Value.Usage.CompletionTokens}");

Response: As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.
Model: mistralai-Mistral-7B-Instruct-v01
Usage: 
  Prompt tokens: 19
  Total tokens: 91
  Completion tokens: 72

檢查回應中的 usage 區段，以查看提示所使用的權杖數目、產生的權杖總數，以及用於完成文字的權杖數目。

串流內容

根據預設，完成 API 會在單一回應中傳回整個產生的內容。如果您要產生的完成很長，則等候回應可能需要數秒鐘的時間。

您可以「串流」內容，以在內容產生期間加以取得。串流內容可讓您在內容變成可用時立即開始處理完成。此模式會傳回以僅限資料的伺服器傳送事件 (英文) 形式將回應串流回來的物件。從差異欄位 (而非訊息欄位) 擷取區塊。

static async Task StreamMessageAsync(ChatCompletionsClient client)
{
    ChatCompletionsOptions requestOptions = new ChatCompletionsOptions()
    {
        Messages = {
            new ChatRequestSystemMessage("You are a helpful assistant."),
            new ChatRequestUserMessage("How many languages are in the world? Write an essay about it.")
        },
        MaxTokens=4096
    };

    StreamingResponse<StreamingChatCompletionsUpdate> streamResponse = await client.CompleteStreamingAsync(requestOptions);

    await PrintStream(streamResponse);
}

若要串流完成，請在呼叫模型時使用 CompleteStreamingAsync 方法。請注意，在此範例中，呼叫會被包裝在一個非同步的方法中。

若要將輸出視覺化，請定義非同步方法，以在主控台中列印串流。

static async Task PrintStream(StreamingResponse<StreamingChatCompletionsUpdate> response)
{
    await foreach (StreamingChatCompletionsUpdate chatUpdate in response)
    {
        if (chatUpdate.Role.HasValue)
        {
            Console.Write($"{chatUpdate.Role.Value.ToString().ToUpperInvariant()}: ");
        }
        if (!string.IsNullOrEmpty(chatUpdate.ContentUpdate))
        {
            Console.Write(chatUpdate.ContentUpdate);
        }
    }
}

您可以將串流產生內容的方式視覺化：

StreamMessageAsync(client).GetAwaiter().GetResult();

探索推斷用戶端支援的更多參數

探索您可以在推斷用戶端中指定的其他參數。如需所有支持參數及其對應檔的完整清單，請參閱 Foundry Models API 參考。

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("How many languages are in the world?")
    },
    PresencePenalty = 0.1f,
    FrequencyPenalty = 0.8f,
    MaxTokens = 2048,
    StopSequences = { "<|endoftext|>" },
    Temperature = 0,
    NucleusSamplingFactor = 1,
    ResponseFormat = new ChatCompletionsResponseFormatText()
};

response = client.Complete(requestOptions);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

警告

Mistral 模型不支援 JSON 輸出格式化 (response_format = { "type": "json_object" })。您隨時都可以提示模型產生 JSON 輸出。不過，這類輸出不保證為有效的 JSON。

如果您想要傳遞不在所支援參數清單中的參數，您可以使用 [額外的參數] 將其傳遞至基礎模型。請參閱將額外的參數傳遞至模型。

將額外的參數傳遞至模型

Foundry 模型 API 可讓您將額外的參數傳遞至模型。下列程式碼範例示範如何將額外的參數 logprobs 傳遞至模型。

將額外的參數傳遞至 Foundry 模型 API 之前，請確定您的模型支援這些額外的參數。對基礎模型提出要求時，會將標頭 extra-parameters 傳遞至具有 pass-through 值的模型。這個值會告訴端點將額外的參數傳遞至模型。搭配模型使用額外的參數，不保證模型實際上可以處理這些參數。請參閱模型的文件，以了解支援哪些額外的參數。

requestOptions = new ChatCompletionsOptions()
{
    Messages = {
        new ChatRequestSystemMessage("You are a helpful assistant."),
        new ChatRequestUserMessage("How many languages are in the world?")
    },
    AdditionalProperties = { { "logprobs", BinaryData.FromString("true") } },
};

response = client.Complete(requestOptions, extraParams: ExtraParameters.PassThrough);
Console.WriteLine($"Response: {response.Value.Choices[0].Message.Content}");

下列額外參數可以傳遞至 Mistral-7B 和 Mixtral 聊天模型：

名稱	說明	類型
`logit_bias`	接受 JSON 物件，此物件會將權杖 (由權杖化工具中的權杖識別碼所指定) 對應至 -100 到 100 的相關偏差值。在數學上，偏差會新增至模型在取樣之前所產生的對數。確切的效果會因模型而異，但介於 -1 到 1 之間的值應該會降低或提高選取的可能性；而 -100 或 100 之類的值應會導致禁止選取或獨佔選取相關權杖。	`float`
`logprobs`	是否要傳回輸出權杖的對數機率。如果為 true，則會傳回在 `content` 的 `message` 中所傳回每個輸出權杖的對數機率。	`int`
`top_logprobs`	介於 0 到 20 之間的整數，其會指定最有可能在每個權杖位置傳回的權杖數目，每個都有相關聯的對數機率。如果使用此參數，則 `logprobs` 必須設定為 `true`。	`float`
`n`	針對每個輸入訊息產生多少聊天完成選項。系統會根據所有選項產生的令牌數目向您收費。	`int`

Mistral-7B 和 Mixtral 聊天模型

Mistral-7B 和 Mixtral 聊天模型包括下列模型：

Mistral-7B-Instruct 大型語言模型 (LLM) 是 Mistral-7B 經過微調的 Instruct 版本，而 Mistral-7B 則是具備下列架構選擇的轉換器模型：

分組查詢注意力
滑動窗口注意力
位元組後援 BPE 權杖化工具

有下列模型可用：

mistralai-Mistral-7B-Instruct-v01 (英文)
mistralai-Mistral-7B-Instruct-v02 (英文)

小提示

此外，MistralAI 支援使用量身打造的 API，以搭配模型的特定功能使用。若要使用模型提供者特定的 API，請參閱 MistralAI 文件 (英文)，或參閱推斷範例小節中的程式碼範例。

先決條件

若要搭配 Azure AI Foundry 使用 Mistral-7B 和 Mixtral 聊天模型，您需要下列必要條件：

模型部署

[部署至自我裝載的受控計算]

Mistral-7B 和 Mixtral 聊天模型可以部署至我們自我裝載的受控推斷解決方案，其可讓您自訂和控制提供模型之方式的所有詳細資料。

若要部署至自我裝載的受控計算，您的訂用帳戶必須具有足夠的配額。如果您沒有足夠的可用配額，您可以透過選取 [我想要使用共用配額且我了解此端點將會在 168 小時後刪除] 選項，來使用我們的臨時配額存取。

[將模型部署至受控計算]

REST 用戶端

使用 Foundry 模型 API 部署的模型可以使用任何 REST 用戶端來取用。若要使用 REST 用戶端，您需要下列先決條件：

若要建構要求，您必須傳入端點 URL。端點 URL 具有 https://your-host-name.your-azure-region.inference.ai.azure.com 形式，其中 your-host-name`` is your unique model deployment host name and your-azure-region`` 是模型部署所在的 Azure 區域 (例如 eastus2)。
視您的模型部署和驗證喜好設定而定，您需要金鑰來針對服務進行驗證，或是 Microsoft Entra ID 認證。金鑰是 32 個字元的字串。

使用聊天完成

在本節中，您會使用 Azure AI Foundry 模型 API 搭配聊天完成模型進行聊天。

小提示

Foundry 模型 API 可讓您使用相同的程式代碼和結構與 Azure AI Foundry 入口網站中部署的大部分模型交談，包括 Mistral-7B 和 Mixtral 聊天模型。

建立用戶端以取用模型

首先，建立用戶端以取用模型。下列程式碼會使用儲存在環境變數中的端點 URL 和金鑰。

當您將模型部署至具有 Microsoft Entra ID 支援的自我裝載線上端點時，您可以使用下列程式碼片段來建立用戶端。

取得模型的功能

/info 路由會傳回部署至端點之模型的相關資訊。透過呼叫下列方法，以傳回模型的資訊：

GET /info HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json

回應如下：

{
    "model_name": "mistralai-Mistral-7B-Instruct-v01",
    "model_type": "chat-completions",
    "model_provider_name": "MistralAI"
}

建立聊天完成要求

下列範例示範如何針對模型建立基本聊天完成要求。

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "How many languages are in the world?"
        }
    ]
}

備註

mistralai-Mistral-7B-Instruct-v01、mistralai-Mistral-7B-Instruct-v02 和 mistralai-Mixtral-8x22B-Instruct-v0-1 不支持系統訊息（role="system"）。當您使用 Foundry 模型 API 時，系統會將系統訊息轉譯為使用者訊息，這是最接近的功能。此轉譯功能是為了方便起見而提供，但請務必確認模型遵循系統訊息中的指示，且具有正確的信賴度等級。

回應如下，您可以在其中查看模型的使用量統計資料：

{
    "id": "0a1234b5de6789f01gh2i345j6789klm",
    "object": "chat.completion",
    "created": 1718726686,
    "model": "mistralai-Mistral-7B-Instruct-v01",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 19,
        "total_tokens": 91,
        "completion_tokens": 72
    }
}

檢查回應中的 usage 區段，以查看提示所使用的權杖數目、產生的權杖總數，以及用於完成文字的權杖數目。

串流內容

根據預設，完成 API 會在單一回應中傳回整個產生的內容。如果您要產生的完成很長，則等候回應可能需要數秒鐘的時間。

您可以「串流」內容，以在內容產生期間加以取得。串流內容可讓您在內容變成可用時立即開始處理完成。此模式會傳回以僅限資料的伺服器傳送事件 (英文) 形式將回應串流回來的物件。從差異欄位 (而非訊息欄位) 擷取區塊。

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "How many languages are in the world?"
        }
    ],
    "stream": true,
    "temperature": 0,
    "top_p": 1,
    "max_tokens": 2048
}

您可以將串流產生內容的方式視覺化：

{
    "id": "23b54589eba14564ad8a2e6978775a39",
    "object": "chat.completion.chunk",
    "created": 1718726371,
    "model": "mistralai-Mistral-7B-Instruct-v01",
    "choices": [
        {
            "index": 0,
            "delta": {
                "role": "assistant",
                "content": ""
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

串流中的最後一則訊息已設定 finish_reason，其會指出產生流程停止的原因。

{
    "id": "23b54589eba14564ad8a2e6978775a39",
    "object": "chat.completion.chunk",
    "created": 1718726371,
    "model": "mistralai-Mistral-7B-Instruct-v01",
    "choices": [
        {
            "index": 0,
            "delta": {
                "content": ""
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 19,
        "total_tokens": 91,
        "completion_tokens": 72
    }
}

探索推斷用戶端支援的更多參數

探索您可以在推斷用戶端中指定的其他參數。如需所有支持參數及其對應檔的完整清單，請參閱 Foundry Models API 參考。

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "How many languages are in the world?"
        }
    ],
    "presence_penalty": 0.1,
    "frequency_penalty": 0.8,
    "max_tokens": 2048,
    "stop": ["<|endoftext|>"],
    "temperature" :0,
    "top_p": 1,
    "response_format": { "type": "text" }
}

{
    "id": "0a1234b5de6789f01gh2i345j6789klm",
    "object": "chat.completion",
    "created": 1718726686,
    "model": "mistralai-Mistral-7B-Instruct-v01",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "As of now, it's estimated that there are about 7,000 languages spoken around the world. However, this number can vary as some languages become extinct and new ones develop. It's also important to note that the number of speakers can greatly vary between languages, with some having millions of speakers and others only a few hundred.",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 19,
        "total_tokens": 91,
        "completion_tokens": 72
    }
}

警告

Mistral 模型不支援 JSON 輸出格式化 (response_format = { "type": "json_object" })。您隨時都可以提示模型產生 JSON 輸出。不過，這類輸出不保證為有效的 JSON。

如果您想要傳遞不在所支援參數清單中的參數，您可以使用 [額外的參數] 將其傳遞至基礎模型。請參閱將額外的參數傳遞至模型。

將額外的參數傳遞至模型

Foundry 模型 API 可讓您將額外的參數傳遞至模型。下列程式碼範例示範如何將額外的參數 logprobs 傳遞至模型。

將額外的參數傳遞至 Foundry 模型 API 之前，請確定您的模型支援這些額外的參數。對基礎模型提出要求時，會將標頭 extra-parameters 傳遞至具有 pass-through 值的模型。這個值會告訴端點將額外的參數傳遞至模型。搭配模型使用額外的參數，不保證模型實際上可以處理這些參數。請參閱模型的文件，以了解支援哪些額外的參數。

POST /chat/completions HTTP/1.1
Host: <ENDPOINT_URI>
Authorization: Bearer <TOKEN>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "How many languages are in the world?"
        }
    ],
    "logprobs": true
}

下列額外參數可以傳遞至 Mistral-7B 和 Mixtral 聊天模型：

名稱	說明	類型
`logit_bias`	接受 JSON 物件，此物件會將權杖 (由權杖化工具中的權杖識別碼所指定) 對應至 -100 到 100 的相關偏差值。在數學上，偏差會新增至模型在取樣之前所產生的對數。確切的效果會因模型而異，但介於 -1 到 1 之間的值應該會降低或提高選取的可能性；而 -100 或 100 之類的值應會導致禁止選取或獨佔選取相關權杖。	`float`
`logprobs`	是否要傳回輸出權杖的對數機率。如果為 true，則會傳回在 `content` 的 `message` 中所傳回每個輸出權杖的對數機率。	`int`
`top_logprobs`	介於 0 到 20 之間的整數，其會指定最有可能在每個權杖位置傳回的權杖數目，每個都有相關聯的對數機率。如果使用此參數，則 `logprobs` 必須設定為 `true`。	`float`
`n`	針對每個輸入訊息產生多少聊天完成選項。系統會根據所有選項產生的令牌數目向您收費。	`int`

說明	語言	範例
CURL 要求	Bash（命令行程式）	連結
適用於 C 的 Azure AI 推斷套件#	C#	連結
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	連結
適用於 Python 的 Azure AI 推斷套件	Python（程式語言）	連結
Python Web 要求	Python（程式語言）	連結
OpenAI SDK (實驗性)	Python（程式語言）	連結
LangChain	Python（程式語言）	連結
米斯特拉爾人工智慧	Python（程式語言）	連結
LiteLLM	Python（程式語言）	連結

共用方式為

如何使用 Mistral-7B 和 Mixtral 聊天模型

Mistral-7B 和 Mixtral 聊天模型

先決條件

模型部署

已安裝推斷套件

使用聊天完成

建立用戶端以取用模型

取得模型的功能

建立聊天完成要求

串流內容

探索推斷用戶端支援的更多參數

將額外的參數傳遞至模型

Mistral-7B 和 Mixtral 聊天模型

先決條件

模型部署

已安裝推斷套件

使用聊天完成

建立用戶端以取用模型

取得模型的功能

建立聊天完成要求

串流內容

探索推斷用戶端支援的更多參數

將額外的參數傳遞至模型

Mistral-7B 和 Mixtral 聊天模型

先決條件

模型部署

已安裝推斷套件

使用聊天完成

建立用戶端以取用模型

取得模型的功能

建立聊天完成要求

串流內容

探索推斷用戶端支援的更多參數

將額外的參數傳遞至模型

Mistral-7B 和 Mixtral 聊天模型

先決條件

模型部署

REST 用戶端

使用聊天完成

建立用戶端以取用模型

取得模型的功能

建立聊天完成要求

串流內容

探索推斷用戶端支援的更多參數

將額外的參數傳遞至模型

更多推斷範例

部署至受控計算的 Mistral 模型系列成本和配額考量

相關內容

意見反應

其他資源