共用方式為


Foundry 模型的無伺服器 API 推斷範例

備註

本文件指的是 Microsoft Foundry(經典版) 入口網站。

🔍 請參閱 Microsoft Foundry(新)文件 以了解新入口網站。

Foundry 模型目錄提供來自各類供應商的 Microsoft Foundry 模型大型選擇。 您有多種選項可從模型目錄部署模型。 本文列出無伺服器 API 部署的推斷範例。

Important

處於預覽狀態的模型會在模型目錄中的模型卡片上標示為 預覽

若要對模型進行推斷,一些模型,例如 Nixtla 的 TimeGEN-1Cohere rerank,需要您使用來自模型提供者的自定義 API。 其他支援使用 模型推斷 API 進行推斷。 你可以透過 Foundry 入口網站的模型目錄查看各模型的卡片,了解更多細節。

Cohere

Cohere 系列模型包含針對不同使用案例優化的多種模型,包括重新排序、聊天生成,以及嵌入模型。

推斷範例:Cohere 命令和內嵌

下表提供如何使用 Cohere 模型範例的連結。

Description 語言 Sample
網路請求 Bash Command-RCommand-R+
cohere-embed.ipynb
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link
OpenAI SDK (實驗性) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

擷取增強生成 (RAG) 和工具使用範例:Cohere 命令和內嵌

Description Packages Sample
使用 Cohere 內嵌建立本機 Facebook AI 相似性搜尋 (FAISS) 向量索引 - Langchain langchainlangchain_cohere cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 回答本機 FAISS 向量索引的資料問題 - Langchain langchainlangchain_cohere command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 從 AI 搜尋向量索引中的資料回答問題 - Langchain langchainlangchain_cohere cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 回答 AI 搜尋向量索引的資料問題 - Cohere SDK cohereazure_search_documents cohere-aisearch-rag.ipynb
使用 LangChain 呼叫 Command R+ 工具/函式 coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere 重新排序

若要使用 Cohere 重新調整模型來執行推斷,您必須使用 Cohere 的自定義重新調整 API。 如需 Cohere 重新調整模型及其功能的詳細資訊,請參閱 Cohere 重新調整

Cohere 重新排序模型的價格

查詢不會與使用者的查詢混淆,是一種價格計量,其是指與用來推斷 Cohere Rerank 模型之權杖相關聯的成本。 Cohere 將單一搜尋單位視為包含最多 100 份文件需要排名的搜尋請求。 文件在包括搜尋查詢的長度後,若超過 500 個令牌(適用於 Cohere-rerank-v3.5)或超過 4096 個令牌(適用於 Cohere-rerank-v3-English 和 Cohere-rerank-v3-多語言),會被分割成多個區塊,其中每個區塊都被視作單一文件。

請參閱 Foundry 入口網站的 Cohere 模型收藏

Core42

下表提供如何使用 Jais 模型範例的連結。

Description 語言 Sample
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1,其擅長使用逐步訓練程式進行推理工作,例如語言、科學推理和編碼工作、DeepSeek-V3-0324、混合專家(MoE) 語言模型等等。

下表提供如何使用 DeepSeek 模型範例的連結。

Description 語言 Sample
適用於 Python 的 Azure AI 推斷套件 Python Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 Java 的 Azure AI 推斷套件 JAVA Link

Meta

Meta Llama 模型和工具是預先定型和微調的產生 AI 文字和影像推理模型的集合。 Meta 模型範圍可以調整以包含:

  • 例如應用於裝置和邊緣推斷的小型語言模型(SLM),包含 1B 和 3B 基礎模型及指令模型。
  • 中型大型語言模型(LLM),例如 7B、8B 和 70B 基底和指示模型
  • 高效能模型如 Meta Llama 3.1-405B 被用於合成資料生成和提煉使用案例。
  • 高效能的原生多模式模型,Llama 4 Scout 和 Llama 4 Maverick,會運用專家組合架構,來提供文字和影像理解方面領先業界的效能。

下表提供如何使用 Meta Llama 模型範例的連結。

Description 語言 Sample
CURL請求 Bash Link
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link
Python Web 要求 Python Link
OpenAI SDK (實驗性) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft模型包括各種模型群組,例如 MAI 模型、Phi 模型、醫療保健 AI 模型等等。 欲查看所有可用的 Microsoft 模型,請在 Foundry 入口網站查看 Microsoft 模型集合

下表提供如何使用Microsoft模型範例的連結。

Description 語言 Sample
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link
LangChain Python Link
Llama-Index Python Link

請參閱 Foundry 入口網站中的 Microsoft 模型集合

米斯特拉爾人工智慧

Mistral AI 提供兩種模型類別,即:

  • 進階模型:這些模型包括Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)和 Ministral 3B 模型,並且可透過隨用隨付令牌計費作為無伺服器 API。
  • 開放式模型:這些包括 Mistral-small-2503、Codestral 和 Mistral Nemo (以隨用隨付權杖為基礎的計費提供無伺服器 API),以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01 (可在自我託管的管理端點上下載並執行)。

下表提供如何使用Mistral模型範例的連結。

Description 語言 Sample
CURL請求 Bash Link
適用於 C 的 Azure AI 推斷套件# C# Link
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link
Python Web 要求 Python Link
OpenAI SDK (實驗性) Python Mistral - OpenAI SDK 範例
LangChain Python Mistral - LangChain 範例
米斯特拉爾人工智慧 Python Mistral - Mistral AI 範例
LiteLLM Python Mistral - LiteLLM 範例

Nixtla

Nixtla 的 TimeGEN-1 是時間序列數據的產生性預先定型預測和異常偵測模型。 TimeGEN-1 可以針對新的時間序列產生精確的預測而不需要訓練,僅使用歷史值和外生共變數作為輸入。

若要執行推斷,TimeGEN-1 會要求您使用 Nixtla 的自定義推斷 API。 如需 TimeGEN-1 模型及其功能的詳細資訊,請參閱 Nixtla

估計所需的代幣數量

在您建立 TimeGEN-1 部署之前,先估算您預計使用以及計費的令牌數量是很有幫助的。 一個代幣對應於您的輸入資料集或輸出資料集中的一個資料點。

假設您有下列輸入時間序列資料集:

Unique_id Timestamp 目標變數 外生變數 1 外生變數 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

若要判斷權杖數目,請將資料列數 (在此範例中為 2) 與用於預測的資料行數—不計算 unique_id 和時間戳記資料 (在此範例中為 3) 相乘,以取得總共六個權杖。

假設下列輸出資料集:

Unique_id Timestamp 預測的目標變數
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

您也可以透過計算資料預測後返回的資料點數量來確定代幣數量。 在此範例中,字元的數目為兩個。

根據代幣估算價格

有四個定價計量可決定您支付的價格。 這些計量如下所示:

計價器 Description
paygo-inference-input-tokens finetune_steps = 0 時,與用做推斷輸入的權杖相關聯的成本
paygo-inference-output-tokens finetune_steps = 0 時,與做為推斷輸出的權杖相關聯的成本
paygo-finetuned-model-inference-input-tokens finetune_steps> 0 時,與用做推斷輸入的權杖相關聯的成本
paygo-finetuned-model-inference-output-tokens finetune_steps> 0 時,與作為推斷輸出的權杖相關聯的成本

請參閱 Foundry 入口網站中的 Nixtla 模型收藏

穩定性 AI

透過無伺服器 API 部署所部署的穩定性 AI 模型會在路由 /image/generations上實作模型推斷 API。 如需如何使用穩定性 AI 模型的範例,請參閱下列範例:

格蕾特領航員

Gretel Navigator 採用專為綜合數據設計的複合 AI 架構,結合跨 10 多個產業領域微調的頂級開放原始碼小型語言模型 (SLM)。 這個目的建置的系統會以數百到數百萬個範例的規模來建立多樣化的領域特定資料集。 相較於手動資料建立,系統也會保留複雜的統計關聯性,並提供更快的速度和正確性。

Description 語言 Sample
適用於 JavaScript 的 Azure AI 推斷套件 JavaScript Link
適用於 Python 的 Azure AI 推斷套件 Python Link