Foundry 模型的無伺服器 API 推斷範例

備註

Foundry 模型目錄提供來自各類供應商的 Microsoft Foundry 模型大型選擇。您有多種選項可從模型目錄部署模型。本文列出無伺服器 API 部署的推斷範例。

Important

處於預覽狀態的模型會在模型目錄中的模型卡片上標示為預覽。

若要對模型進行推斷，一些模型，例如 Nixtla 的 TimeGEN-1 和 Cohere rerank，需要您使用來自模型提供者的自定義 API。其他支援使用模型推斷 API 進行推斷。你可以透過 Foundry 入口網站的模型目錄查看各模型的卡片，了解更多細節。

Cohere

Cohere 系列模型包含針對不同使用案例優化的多種模型，包括重新排序、聊天生成，以及嵌入模型。

推斷範例：Cohere 命令和內嵌

下表提供如何使用 Cohere 模型範例的連結。

Description	語言	Sample
網路請求	Bash	Command-R Command-R+ cohere-embed.ipynb
適用於 C 的 Azure AI 推斷套件#	C#	Link
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 Python 的 Azure AI 推斷套件	Python	Link
OpenAI SDK (實驗性)	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

擷取增強生成 (RAG) 和工具使用範例：Cohere 命令和內嵌

Description	Packages	Sample
使用 Cohere 內嵌建立本機 Facebook AI 相似性搜尋 (FAISS) 向量索引 - Langchain	`langchain`、`langchain_cohere`	cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 回答本機 FAISS 向量索引的資料問題 - Langchain	`langchain`、`langchain_cohere`	command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 從 AI 搜尋向量索引中的資料回答問題 - Langchain	`langchain`、`langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 回答 AI 搜尋向量索引的資料問題 - Cohere SDK	`cohere`、`azure_search_documents`	cohere-aisearch-rag.ipynb
使用 LangChain 呼叫 Command R+ 工具/函式	`cohere`、`langchain`、`langchain_cohere`	command_tools-langchain.ipynb

Cohere 重新排序

若要使用 Cohere 重新調整模型來執行推斷，您必須使用 Cohere 的自定義重新調整 API。如需 Cohere 重新調整模型及其功能的詳細資訊，請參閱 Cohere 重新調整。

Cohere 重新排序模型的價格

查詢不會與使用者的查詢混淆，是一種價格計量，其是指與用來推斷 Cohere Rerank 模型之權杖相關聯的成本。 Cohere 將單一搜尋單位視為包含最多 100 份文件需要排名的搜尋請求。文件在包括搜尋查詢的長度後，若超過 500 個令牌（適用於 Cohere-rerank-v3.5）或超過 4096 個令牌（適用於 Cohere-rerank-v3-English 和 Cohere-rerank-v3-多語言），會被分割成多個區塊，其中每個區塊都被視作單一文件。

請參閱 Foundry 入口網站的 Cohere 模型收藏。

Core42

下表提供如何使用 Jais 模型範例的連結。

Description	語言	Sample
適用於 C 的 Azure AI 推斷套件#	C#	Link
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 Python 的 Azure AI 推斷套件	Python	Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1，其擅長使用逐步訓練程式進行推理工作，例如語言、科學推理和編碼工作、DeepSeek-V3-0324、混合專家（MoE）語言模型等等。

下表提供如何使用 DeepSeek 模型範例的連結。

Description	語言	Sample
適用於 Python 的 Azure AI 推斷套件	Python	Link
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 C 的 Azure AI 推斷套件#	C#	Link
適用於 Java 的 Azure AI 推斷套件	JAVA	Link

Microsoft

Microsoft模型包括各種模型群組，例如 MAI 模型、Phi 模型、醫療保健 AI 模型等等。欲查看所有可用的 Microsoft 模型，請在 Foundry 入口網站查看 Microsoft 模型集合。

下表提供如何使用Microsoft模型範例的連結。

Description	語言	Sample
適用於 C 的 Azure AI 推斷套件#	C#	Link
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 Python 的 Azure AI 推斷套件	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

請參閱 Foundry 入口網站中的 Microsoft 模型集合。

米斯特拉爾人工智慧

Mistral AI 提供兩種模型類別，即：

進階模型：這些模型包括Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 （25.05）和 Ministral 3B 模型，並且可透過隨用隨付令牌計費作為無伺服器 API。
開放式模型：這些包括 Mistral-small-2503、Codestral 和 Mistral Nemo (以隨用隨付權杖為基礎的計費提供無伺服器 API)，以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01 (可在自我託管的管理端點上下載並執行)。

下表提供如何使用Mistral模型範例的連結。

Description	語言	Sample
CURL請求	Bash	Link
適用於 C 的 Azure AI 推斷套件#	C#	Link
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 Python 的 Azure AI 推斷套件	Python	Link
Python Web 要求	Python	Link
OpenAI SDK (實驗性)	Python	Mistral - OpenAI SDK 範例
LangChain	Python	Mistral - LangChain 範例
米斯特拉爾人工智慧	Python	Mistral - Mistral AI 範例
LiteLLM	Python	Mistral - LiteLLM 範例

Nixtla

Nixtla 的 TimeGEN-1 是時間序列數據的產生性預先定型預測和異常偵測模型。 TimeGEN-1 可以針對新的時間序列產生精確的預測而不需要訓練，僅使用歷史值和外生共變數作為輸入。

若要執行推斷，TimeGEN-1 會要求您使用 Nixtla 的自定義推斷 API。如需 TimeGEN-1 模型及其功能的詳細資訊，請參閱 Nixtla。

估計所需的代幣數量

在您建立 TimeGEN-1 部署之前，先估算您預計使用以及計費的令牌數量是很有幫助的。一個代幣對應於您的輸入資料集或輸出資料集中的一個資料點。

假設您有下列輸入時間序列資料集：

Unique_id	Timestamp	目標變數	外生變數 1	外生變數 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

若要判斷權杖數目，請將資料列數 (在此範例中為 2) 與用於預測的資料行數—不計算 unique_id 和時間戳記資料 (在此範例中為 3) 相乘，以取得總共六個權杖。

假設下列輸出資料集：

Unique_id	Timestamp	預測的目標變數
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

您也可以透過計算資料預測後返回的資料點數量來確定代幣數量。在此範例中，字元的數目為兩個。

根據代幣估算價格

有四個定價計量可決定您支付的價格。這些計量如下所示：

計價器	Description
paygo-inference-input-tokens	當 finetune_steps = 0 時，與用做推斷輸入的權杖相關聯的成本
paygo-inference-output-tokens	當 finetune_steps = 0 時，與做為推斷輸出的權杖相關聯的成本
paygo-finetuned-model-inference-input-tokens	當 finetune_steps> 0 時，與用做推斷輸入的權杖相關聯的成本
paygo-finetuned-model-inference-output-tokens	當 finetune_steps> 0 時，與作為推斷輸出的權杖相關聯的成本

請參閱 Foundry 入口網站中的 Nixtla 模型收藏。

穩定性 AI

透過無伺服器 API 部署所部署的穩定性 AI 模型會在路由 /image/generations上實作模型推斷 API。如需如何使用穩定性 AI 模型的範例，請參閱下列範例：

格蕾特領航員

Gretel Navigator 採用專為綜合數據設計的複合 AI 架構，結合跨 10 多個產業領域微調的頂級開放原始碼小型語言模型（SLM）。這個目的建置的系統會以數百到數百萬個範例的規模來建立多樣化的領域特定資料集。相較於手動資料建立，系統也會保留複雜的統計關聯性，並提供更快的速度和正確性。

Description	語言	Sample
適用於 JavaScript 的 Azure AI 推斷套件	JavaScript	Link
適用於 Python 的 Azure AI 推斷套件	Python	Link

意見反應

此頁面對您有幫助嗎？

Last updated on 2025-11-18