Microsoft Foundry Models(經典版)的部署類型

目前正在觀看:Foundry(經典)入口版本 - 切換到新 Foundry 入口網站版本

本文中的連結可能會開啟新版 Microsoft Foundry 文件的內容,而非您目前正在瀏覽的 Foundry(經典版)文件。

當您在 Microsoft Foundry 中部署模型時,您可以選擇一種部署類型,該類型會決定:

  • 你的資料處理地點 (全球、資料區域或單一區域)
  • 付款方式 (按代幣付費還是預留容量)
  • 效能特性 (延遲變異、吞吐量限制)

該服務主要分為兩大類: 標準 (按代幣付費)與 配置(預留 容量)。 在每個類別中,您可以根據合規要求選擇全球、資料區域或區域處理。

Foundry 入口部署對話框的截圖,顯示已選擇全域標準的部署類型選擇框。

重要

所有部署類型的資料駐留:靜態資料仍保留在指定 Azure 地理區域。 然而,推論資料的處理方式如下:

  • Global類型:可在任何Azure區域處理
  • DataZone類型:僅在Microsoft指定的資料區域(美國或歐盟)內處理
  • 標準/區域 類型:在部署區域處理

了解更多關於資料駐留的資訊

部署類型比較

部署類型 SKU 代碼 資料處理 計費 適用對象
全球標準 GlobalStandard 任何 Azure 區域 按代幣付費 一般工作量,最高配額
全域配置 GlobalProvisionedManaged 任何 Azure 區域 預留PTU 可預測的高通量
全球批次 GlobalBatch 任何 Azure 區域 50% 折扣,24小時 大型非同步工作
資料區標準 DataZoneStandard 資料區內 按代幣付費 歐盟/美國資料區合規
資料區配置 DataZoneProvisionedManaged 資料區內 預留PTU 資料區 + 可預測吞吐量
資料區域批次 DataZoneBatch 資料區內 50% 折扣 使用資料區域的大型非同步作業
標準 Standard 單一區域 按代幣付費 區域合規性,低量
區域配置 ProvisionedManaged 單一區域 預留PTU 區域合規 + 吞吐量
開發商 DeveloperTier 任何 Azure 區域 按代幣付費 僅針對微調後的模型進行評估

並非所有型號都支援所有部署類型。 查詢 Foundry 模型由 Azure 直接銷售的可用性,並根據部署類型和地區查看型號。

SLA 保證會依部署類型而異。 配置型態提供保證吞吐量與較低延遲變異。 標準型提供盡力而為的服務。 開發者部署不包含 SLA。 詳情請參閱 Azure OpenAI 服務 的 Azure SLA

提示

詳細價格請參見 Azure OpenAI 服務 pricing

選擇合適的部署類型

請使用以下條件選擇部署類型:

依資料駐留需求

  • 無限制:使用全域標準或全域配置
  • 歐盟資料區:使用 DataZone 標準或 DataZone 在歐盟區域內配置
  • 美國資料區:使用 DataZone 標準或 DataZone 在美國區域內配置
  • 僅限單一區域:使用標準或區域配置

依工作量模式

  • 變動、突發流量:使用標準或全域標準(按代幣付費)
  • 穩定的高流量:使用配置型態(保留容量)
  • 大型批次工作(非時間敏感):使用全域批次或 DataZone 批次(節省 50% 成本)
  • 微調模型評估:使用開發者(無 SLA,最低成本)

依照延遲需求

  • 需要低延遲變化:使用預配置型別
  • 延遲變異可接受:使用標準型別

資料處理地點

標準部署有三種選項:全球、資料區域和 Azure 地理。 對於已配置的部署,有兩個選項:全球地理位置和 Azure 地理位置。 全域標準是大多數工作負載的常見起點。

全球部署

全球部署使用 Azure 的全球基礎設施,動態地將流量路由至可用資料中心。 全球部署提供最高的初始吞吐量限制與最廣泛的模型可用性。

對於高負載工作,你可能會遇到延遲變化增加。 如果你需要更低的延遲變異,請使用配置型部署類型。

全球部署優先獲得新模型與新功能。

資料區部署

對於 全球 部署類型,提示與回應可在模型部署的任何地理區域處理。 對於 DataZone 部署類型,提示與回應僅在指定的資料區域內處理:

  • 美國:美國境內任何地區處理的資料
  • 歐盟:在任何歐盟成員國內處理的資料

欲了解更多,請參閱Azure直接銷售的Foundry Models的「按部署類型劃分的模型區域可用性」章節。

在全球標準與資料區標準部署類型中,若主要區域服務中斷,所有最初路由至該區域的流量都會受到影響。 欲了解更多,請參閱 高可用性與災難復原指南

全球標準

  • SKU 名稱在代碼中: GlobalStandard

全球標準部署利用 Azure 的全球基礎設施,動態路由流量至可用資料中心。 此部署類型提供最高的預設配額,並免除跨多資源負載平衡的需求。

擁有高且穩定音量的客戶可能會遇到較大的延遲變異。 門檻是依模型設定的。 如需進一步了解,請參閱 配額頁面。 對於需要較低延遲變異且工作負載龐大的應用,請考慮配置處理吞吐量。

Global Standard 支援優先處理 (預覽版),可在隨用隨付模式下加快回應時間。 欲了解更多,請參閱 Foundry 模型的優先處理(預覽)。

全域配置

  • SKU 名稱在代碼中: GlobalProvisionedManaged

全球配置部署利用 Azure 的全球基礎設施,動態路由流量至可用資料中心。 此部署類型提供預留的模型處理容量以實現可預測的吞吐量,結合了全域路由與保證容量。

配置吞吐量是指購買固定數量的配置吞吐量單元(PTU),以保證特定處理能力。 此部署類型提供比全球標準更低且更穩定的延遲。 欲了解更多,請參閱 「配置吞吐量概念」。

全球批次

  • SKU 名稱在代碼中: GlobalBatch

Global Batch 處理大規模且大量處理的任務。 你可以處理非同步請求群組,並有獨立配額和 24 小時目標周轉,成本 比 Global Standard 低 50%。 批次處理不是一次只傳送一個請求,而是在單一檔案中傳送大量請求。 全域批次要求另有加入佇列的權杖配額,這可避免任何線上工作負載中斷。

常見使用情境:

  • 大規模資料處理:並行分析資料集。
  • 內容產生:建立大量文字,例如產品描述或文章。
  • 文件審查與摘要:處理並摘要冗長的文件。
  • 客戶支援自動化:同時處理大量查詢。
  • 資料擷取與分析:從大量非結構化資料中擷取並分析資訊。
  • 自然語言處理(NLP)任務:對大型資料集進行情感分析或翻譯。

批次部署以節省成本換取即時回應。 批次請求沒有即時 SLA——目標是在 24 小時內完成,但可能需要更久。

資料區標準

  • SKU 名稱在代碼中: DataZoneStandard

資料區標準部署會動態將流量路由至 Microsoft 定義的資料區(美國或歐盟)內的資料中心。 此部署類型提供比基於地理的部署類型更高的預設配額,同時將資料保持在指定區域內。

擁有高且穩定音量的客戶可能會遇到較大的延遲變異。 門檻是依模型設定的。 欲了解更多,請參閱 配額與限制頁面。 對於需要低延遲變動性且大量工作負載,可以考慮預配置部署類型。

Data Zone Standard 支援優先處理(預覽功能),以更快的方式回應並採用按需付費。 欲了解更多,請參閱 Foundry 模型的優先處理(預覽)。

資料區配置

  • SKU 名稱在代碼中: DataZoneProvisionedManaged

資料區配置部署會在Microsoft指定的資料區(美國或歐盟)內動態路由流量,同時提供保留的模型處理能力。 此部署類型結合了資料區域合規性與高且可預測的吞吐量。

資料區域批次

  • SKU 名稱在代碼中: DataZoneBatch

資料區批次部署提供與 全域批次相同的功能,包括 50% 成本節省及 24 小時周轉。 流量僅導向 Microsoft 定義的資料區域(美國或歐盟)內的資料中心。

標準

  • SKU 名稱在代碼中: Standard

標準部署採用按代幣付費計費。 你只為你消費的東西付費。 各地區可用的模型和吞吐量可能受限。

標準部署適合低至中等工作負載且爆發性高。 擁有高且穩定音量的客戶可能會遇到較大的延遲變異。

區域佈建

  • SKU 名稱在代碼中: ProvisionedManaged

區域配置部署允許你指定部署所需的吞吐量。 服務接著會分配所需的模型處理容量,並確保其已準備就緒。 吞吐量是以配置吞吐量單元(PTUs)來定義,這是一種標準化的方式來表示你的部署吞吐量。 每對型號對部署所需的 PTU 數量不同,且每個 PTU 提供的吞吐量也不同。 最低 PTU 要求因型號而異。 關於目前的最低限度與可用容量,請參見 配置吞吐量概念

開發者(用於微調模型)

  • SKU 名稱在代碼中: DeveloperTier

開發者部署類型僅設計用於微調模型評估。 它提供成本效益高的客製化模型測試,但不包含資料駐留保證或服務等級協議(SLA)。 開發者部署有固定的 24 小時有效期,過期後會自動刪除。 想了解更多關於使用開發者部署類型的資訊,請參閱 微調指南

部署問題故障排除

建立或使用部署時常見的問題:

問題 成因 解決方法
部署類型不可用 模型不支援所選類型 部署類型檢查模型可用性
配額超標 每分鐘的代幣訂閱已達上限 請求增加 Azure 入口網站的配額,或者選擇使用其他區域
區域無法提供 未在特定區域部署的模型 從該型號的可用性清單中選擇一個地區
配置容量無法使用 區域內無PTU容量 試試其他地區或使用 Global Provisioned 以獲得更廣泛的可用性

關於部署類型的配額限制,請參見 Foundry 模型配額與限制

限制部署類型,使用 Azure 原則

Azure 原則 協助執行組織標準並大規模評估合規性。 透過其合規儀表板,您可以評估整體環境狀態,並深入分析每項資源、每項政策的細節。 Azure 原則 也支援對現有資源進行批量修復,以及對新資源自動進行修復。 了解更多關於 Foundry Tools 的Azure 原則及具體內建控制項。

請使用以下政策來停用特定 Foundry 部署類型的存取權限。 請將 GlobalStandard 替換為你想限制的部署類型的 SKU 名稱。

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}