Foundry 模型目錄提供來自各類供應商的 Microsoft Foundry 模型大型選擇。 您有多種選項可從模型目錄部署模型。 本文列出無伺服器 API 部署的推斷範例。
Important
處於預覽狀態的模型會在模型目錄中的模型卡片上標示為 預覽 。
若要對模型進行推斷,一些模型,例如 Nixtla 的 TimeGEN-1 和 Cohere rerank,需要您使用來自模型提供者的自定義 API。 其他支援使用 模型推斷 API 進行推斷。 你可以透過 Foundry 入口網站的模型目錄查看各模型的卡片,了解更多細節。
Cohere
Cohere 系列模型包含針對不同使用案例優化的多種模型,包括重新排序、聊天生成,以及嵌入模型。
推斷範例:Cohere 命令和內嵌
下表提供如何使用 Cohere 模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| 網路請求 | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
| OpenAI SDK (實驗性) | Python | Link |
| LangChain | Python | Link |
| Cohere SDK | Python |
Command Embed |
| LiteLLM SDK | Python | Link |
擷取增強生成 (RAG) 和工具使用範例:Cohere 命令和內嵌
| Description | Packages | Sample |
|---|---|---|
| 使用 Cohere 內嵌建立本機 Facebook AI 相似性搜尋 (FAISS) 向量索引 - Langchain |
langchain、langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| 使用 Cohere Command R/R+ 回答本機 FAISS 向量索引的資料問題 - Langchain |
langchain、langchain_cohere |
command_faiss_langchain.ipynb |
| 使用 Cohere Command R/R+ 從 AI 搜尋向量索引中的資料回答問題 - Langchain |
langchain、langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| 使用 Cohere Command R/R+ 回答 AI 搜尋向量索引的資料問題 - Cohere SDK |
cohere、azure_search_documents |
cohere-aisearch-rag.ipynb |
| 使用 LangChain 呼叫 Command R+ 工具/函式 |
cohere、langchain、langchain_cohere |
command_tools-langchain.ipynb |
Cohere 重新排序
若要使用 Cohere 重新調整模型來執行推斷,您必須使用 Cohere 的自定義重新調整 API。 如需 Cohere 重新調整模型及其功能的詳細資訊,請參閱 Cohere 重新調整。
Cohere 重新排序模型的價格
查詢不會與使用者的查詢混淆,是一種價格計量,其是指與用來推斷 Cohere Rerank 模型之權杖相關聯的成本。 Cohere 將單一搜尋單位視為包含最多 100 份文件需要排名的搜尋請求。 文件在包括搜尋查詢的長度後,若超過 500 個令牌(適用於 Cohere-rerank-v3.5)或超過 4096 個令牌(適用於 Cohere-rerank-v3-English 和 Cohere-rerank-v3-多語言),會被分割成多個區塊,其中每個區塊都被視作單一文件。
請參閱 Foundry 入口網站的 Cohere 模型收藏。
Core42
下表提供如何使用 Jais 模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
DeepSeek
DeepSeek 系列模型包括 DeepSeek-R1,其擅長使用逐步訓練程式進行推理工作,例如語言、科學推理和編碼工作、DeepSeek-V3-0324、混合專家(MoE) 語言模型等等。
下表提供如何使用 DeepSeek 模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 Java 的 Azure AI 推斷套件 | JAVA | Link |
Meta
Meta Llama 模型和工具是預先定型和微調的產生 AI 文字和影像推理模型的集合。 Meta 模型範圍可以調整以包含:
- 例如應用於裝置和邊緣推斷的小型語言模型(SLM),包含 1B 和 3B 基礎模型及指令模型。
- 中型大型語言模型(LLM),例如 7B、8B 和 70B 基底和指示模型
- 高效能模型如 Meta Llama 3.1-405B 被用於合成資料生成和提煉使用案例。
- 高效能的原生多模式模型,Llama 4 Scout 和 Llama 4 Maverick,會運用專家組合架構,來提供文字和影像理解方面領先業界的效能。
下表提供如何使用 Meta Llama 模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| CURL請求 | Bash | Link |
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
| Python Web 要求 | Python | Link |
| OpenAI SDK (實驗性) | Python | Link |
| LangChain | Python | Link |
| LiteLLM | Python | Link |
Microsoft
Microsoft模型包括各種模型群組,例如 MAI 模型、Phi 模型、醫療保健 AI 模型等等。 欲查看所有可用的 Microsoft 模型,請在 Foundry 入口網站查看 Microsoft 模型集合。
下表提供如何使用Microsoft模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
| LangChain | Python | Link |
| Llama-Index | Python | Link |
請參閱 Foundry 入口網站中的 Microsoft 模型集合。
米斯特拉爾人工智慧
Mistral AI 提供兩種模型類別,即:
- 進階模型:這些模型包括Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3 (25.05)和 Ministral 3B 模型,並且可透過隨用隨付令牌計費作為無伺服器 API。
- 開放式模型:這些包括 Mistral-small-2503、Codestral 和 Mistral Nemo (以隨用隨付權杖為基礎的計費提供無伺服器 API),以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01 (可在自我託管的管理端點上下載並執行)。
下表提供如何使用Mistral模型範例的連結。
| Description | 語言 | Sample |
|---|---|---|
| CURL請求 | Bash | Link |
| 適用於 C 的 Azure AI 推斷套件# | C# | Link |
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
| Python Web 要求 | Python | Link |
| OpenAI SDK (實驗性) | Python | Mistral - OpenAI SDK 範例 |
| LangChain | Python | Mistral - LangChain 範例 |
| 米斯特拉爾人工智慧 | Python | Mistral - Mistral AI 範例 |
| LiteLLM | Python | Mistral - LiteLLM 範例 |
Nixtla
Nixtla 的 TimeGEN-1 是時間序列數據的產生性預先定型預測和異常偵測模型。 TimeGEN-1 可以針對新的時間序列產生精確的預測而不需要訓練,僅使用歷史值和外生共變數作為輸入。
若要執行推斷,TimeGEN-1 會要求您使用 Nixtla 的自定義推斷 API。 如需 TimeGEN-1 模型及其功能的詳細資訊,請參閱 Nixtla。
估計所需的代幣數量
在您建立 TimeGEN-1 部署之前,先估算您預計使用以及計費的令牌數量是很有幫助的。 一個代幣對應於您的輸入資料集或輸出資料集中的一個資料點。
假設您有下列輸入時間序列資料集:
| Unique_id | Timestamp | 目標變數 | 外生變數 1 | 外生變數 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
若要判斷權杖數目,請將資料列數 (在此範例中為 2) 與用於預測的資料行數—不計算 unique_id 和時間戳記資料 (在此範例中為 3) 相乘,以取得總共六個權杖。
假設下列輸出資料集:
| Unique_id | Timestamp | 預測的目標變數 |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
您也可以透過計算資料預測後返回的資料點數量來確定代幣數量。 在此範例中,字元的數目為兩個。
根據代幣估算價格
有四個定價計量可決定您支付的價格。 這些計量如下所示:
| 計價器 | Description |
|---|---|
| paygo-inference-input-tokens | 當 finetune_steps = 0 時,與用做推斷輸入的權杖相關聯的成本 |
| paygo-inference-output-tokens | 當 finetune_steps = 0 時,與做為推斷輸出的權杖相關聯的成本 |
| paygo-finetuned-model-inference-input-tokens | 當 finetune_steps> 0 時,與用做推斷輸入的權杖相關聯的成本 |
| paygo-finetuned-model-inference-output-tokens | 當 finetune_steps> 0 時,與作為推斷輸出的權杖相關聯的成本 |
請參閱 Foundry 入口網站中的 Nixtla 模型收藏。
穩定性 AI
透過無伺服器 API 部署所部署的穩定性 AI 模型會在路由 /image/generations上實作模型推斷 API。
如需如何使用穩定性 AI 模型的範例,請參閱下列範例:
- 使用 OpenAI SDK 搭配 Stability AI 模型,來執行文字轉影像的請求
- 使用 Requests 函式庫與 Stability AI 模型進行文字轉圖像的請求
- 使用要求程式庫搭配 Stable Diffusion 3.5 Large 進行影像轉影像的要求
- 完整編碼影像產生回應的範例
格蕾特領航員
Gretel Navigator 採用專為綜合數據設計的複合 AI 架構,結合跨 10 多個產業領域微調的頂級開放原始碼小型語言模型 (SLM)。 這個目的建置的系統會以數百到數百萬個範例的規模來建立多樣化的領域特定資料集。 相較於手動資料建立,系統也會保留複雜的統計關聯性,並提供更快的速度和正確性。
| Description | 語言 | Sample |
|---|---|---|
| 適用於 JavaScript 的 Azure AI 推斷套件 | JavaScript | Link |
| 適用於 Python 的 Azure AI 推斷套件 | Python | Link |
相關內容
- 將模型部署為無伺服器 API 部署
- 探索 Foundry 模型
- Foundry 模型及其功能
- 無伺服器 API 部署中模型的區域可用性
- Azure 直接銷售模型的內容安全性