共用方式為


Azure API 管理 中的 AI 閘道

適用於:所有 APIM 層

Azure API 管理 中的 AI 閘道 是一組功能,可協助您有效管理 AI 後端。 這些功能可協助您管理、保護、擴展、監控及控管大型語言模型 (LLM) 部署、AI API 和支援智慧型應用程式和代理程式的模型內容通訊協定 (MCP) 伺服器。

使用 AI 閘道來管理各種 AI 端點,包括:

摘要說明 Azure API 管理 的 AI 閘道功能的圖表。

附註

AI 閘道 (包括 MCP 伺服器功能) 會擴充 API 管理 的現有 API 閘道;它不是一個單獨的產品。 相關的治理和開發人員功能位於 Azure API Center 中。

為什麼要使用人工智慧網關?

組織中的人工智慧採用涉及幾個階段:

  • 定義需求並評估 AI 模型
  • 建置需要存取 AI 模型和服務的 AI 應用程式和代理程式
  • 將 AI 應用程式和後端操作並部署到生產環境

隨著 AI 採用的成熟,尤其是在大型企業中,AI 閘道有助於解決關鍵挑戰,有助於:

  • 驗證和授權存取 AI 服務
  • 跨多個 AI 端點進行負載平衡
  • 監控和記錄 AI 互動
  • 管理跨多個應用程式的權杖使用量和配額
  • 為開發人員團隊啟用自助服務

流量調解和控制

透過 AI 網關,您可以:

  • 快速匯入並設定與 OpenAI 相容或傳遞 LLM 端點作為 API
  • 管理部署在 Azure AI Foundry 或其他提供者例如 Amazon Bedrock 中的模型
  • 控管聊天完成、回應和即時 API
  • 將現有的 REST API 公開為 MCP 伺服器,並支援傳遞至 MCP 伺服器

例如,若要將部署在 AI Foundry 或其他提供者中的模型上線,API 管理 提供簡化的精靈,以匯入結構描述,並使用受控識別設定 AI 端點的驗證,而不需要手動設定。 在相同的使用者友善體驗中,您可以預先設定 API 可擴展性、安全性和可觀察性的原則。

Azure 入口網站中 AI Foundry 模型匯入的螢幕擷取畫面。

其他資訊:

延展性和效能

生成式人工智慧服務的主要資源之一是 代幣。 Azure AI Foundry 和其他提供者會將模型部署的配額指派為每分鐘代幣數(TPM)。 您可以將這些權杖分發到模型取用者,例如不同的應用程式、開發人員團隊或公司內的部門。

如果您有單一應用程式連線至 AI 服務後端,您可以使用直接在模型部署上設定的 TPM 限制來管理權杖耗用量。 不過,當您的應用程式組合成長時,您可能會有多個應用程式呼叫單一或多個 AI 服務端點。 這些端點可以是隨用隨付或已佈建的輸送量單位 (PTU) 執行個體。 您必須確定一個應用程式不會使用整個 TPM 配額,並封鎖其他應用程式存取其所需的後端。

語彙基元速率限制和配額

在 LLM API 上設定權杖限制原則,以根據 AI 服務權杖的使用情況,管理和強制執行每個 API 取用者的限制。 使用此原則,您可以在指定期間 (例如每小時、每天、每週、每月或每年) 內設定 TPM 限制或權杖配額。

在 APIM 中限制 Azure OpenAI 服務語彙基元的圖表。

此原則提供彈性來指派任何計數器金鑰上的語彙基元型限制,例如訂用帳戶金鑰、來源 IP 位址,或透過原則運算式定義的任意金鑰。 此原則還可讓 Azure API 管理端預先計算提示權杖,以便在提示已超出限制時,將對 AI 服務後端的不必要請求降到最低。

下列基本範例示範如何設定每個訂用帳戶金鑰 500 的 TPM 限制:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

其他資訊:

語意快取

語意快取技術可透過快取先前提示的結果 (完成),並透過將提示的向量接近度與先前的要求進行比較來重複使用它們,以改進 LLM API 的效能。 此技術可減少對 AI 服務後端的呼叫次數,改善最終使用者的回應時間,並有助於降低成本。

在 API 管理 中,使用 Azure 受控 Redis 或其他與 RediSearch 相容並上線至 Azure API 管理 的外部快取來啟用語意快取。 藉由使用內嵌 API,llm-semantic-cache-store (部分機器翻譯) 和 llm-semantic-cache-lookup (部分機器翻譯) 原則能從快取中存放並擷取語意上類似的提示完成。 此方法可確保完成重複使用,進而降低語彙基元使用量並改善回應效能。

APIM 中的語意快取圖表。

其他資訊:

API 管理的原生擴展功能

API 管理 也提供內建的調整功能,以協助閘道處理對 AI API 的大量要求。 這些功能包括自動或手動新增閘道 縮放單位 ,以及新增多區域部署的區域閘道。 特定功能取決於 API 管理 服務層級。

其他資訊:

附註

雖然 API 管理 可以調整閘道容量,但您也必須調整流量並將其散發至 AI 後端,以容納增加的負載 (請參閱 復原一 節)。 例如,若要在多區域設定中利用系統的地理分佈,您應該在與 API 管理 閘道相同的區域中部署後端 AI 服務。

安全保障

AI 閘道可保護並控制對 AI API 的存取。 透過 AI 網關,您可以:

  • 使用受控識別向 Azure AI 服務進行驗證,因此您不需要 API 金鑰進行驗證
  • 使用 API 管理 的認證管理員,設定 AI 應用程式和代理程式的 OAuth 授權,以存取 API 或 MCP 伺服器
  • 套用原則,使用 Azure AI 內容安全自動審核 LLM 提示

API 管理中的內容安全原則圖表。

其他資訊:

Resiliency

建置智慧型應用程式時的一項挑戰是確保應用程式能夠抵禦後端故障並能夠處理高負載。 藉由在 Azure API 管理 中使用 後端 設定 LLM 端點,您可以平衡它們之間的負載。 您也可以定義斷路器規則,以在 AI 服務後端沒有回應時停止將要求轉送至 AI 服務後端。

負載平衡器

後端負載平衡器 (部分機器翻譯) 支援循環配置資源、加權、優先順序型和工作階段感知負載平衡。 您可以定義符合特定需求的負載分配策略。 例如,在負載平衡器設定中定義優先順序,以確保特定 Azure AI Foundry 端點的最佳利用率,特別是作為 PTU 執行個體購買的端點。

在 APIM 中使用後端負載平衡的圖表。

斷路器

後端斷路器 (部分機器翻譯) 具有動態行程持續時間,並套用來自後端所提供之 Retry-After 標頭的值。 此功能可確保後端的精確及時恢復,從而最大限度地提高優先後端的利用率。

在 APIM 中使用後端斷路器的圖表。

其他資訊:

可觀測性和治理

API 管理 提供全面的監視和分析功能,以追蹤權杖使用模式、優化成本、確保符合 AI 治理原則,以及針對 AI API 的問題進行疑難排解。 使用這些功能來:

  • 將提示和完成記錄到 Azure 監視器
  • 在 Application Insights 中追蹤每個取用者的語彙基元計量
  • 檢視內建監控儀表板
  • 使用自定義運算式設定政策
  • 管理應用程式間的憑證配額

例如,您可以使用 llm-emit-token-metric (部分機器翻譯) 原則發出語彙基元計量,並新增可用來在 Azure 監視器中篩選計量的自訂維度。 下列範例會發出具有用戶端 IP 位址、API 識別碼和使用者識別碼維度的語彙基元計量 (從自訂標頭):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

使用 APIM 發出語彙基元計量的圖表。

此外,在 Azure APIM 中針對 LLM API 啟用記錄,以追蹤語彙基元使用量、提示和完成,以進行計費和稽核。 啟用記錄之後,您可以分析 Application Insights 中的記錄,並使用 API 管理 中的內建儀表板來檢視 AI API 的權杖取用模式。

入口網站中語言模型 API 分析的螢幕擷取畫面。

其他資訊:

開發人員體驗

使用 AI 閘道和 Azure API Center 來簡化 AI API 和 MCP 伺服器的開發和部署。 除了在 API 管理中針對常見 AI 情境提供的使用者友好匯入和政策設定體驗之外,您還可以利用:

  • 在 Azure API Center 的組織目錄中輕鬆註冊 API 和 MCP 伺服器
  • 透過 API 管理和 API Center 中的開發人員入口網站存取自助式 API 和 MCP 伺服器
  • 用於自訂的 API 管理 原則工具組
  • API Center Copilot Studio 連接器可擴充 AI 代理程式的功能

入口網站中 API Center 中 MCP 伺服器的螢幕擷取畫面。

其他資訊:

儘早體驗 AI 網關功能

身為 API 管理 客戶,您可以透過 AI 閘道發行通道搶先存取新功能。 此存取權可讓您在最新的 AI 閘道創新正式推出之前試用它們,並提供意見反應以協助塑造產品。

其他資訊:

實驗室和程式碼範例

架構與設計