Sdílet prostřednictvím


AI brána ve službě Azure API Management

PLATÍ PRO: Všechny úrovně služby správy rozhraní API

Brána AI ve službě Azure API Management je sada funkcí, které vám pomůžou efektivně spravovat back-endy AI. Tyto funkce pomáhají spravovat, zabezpečit, škálovat, monitorovat a řídit nasazení velkých jazykových modelů (LLM), rozhraní API AI a servery MCP (Model Context Protocol), které zálohují vaše inteligentní aplikace a agenty.

Použití brány AI ke správě široké škály koncových bodů AI, mezi které patří:

Diagram shrnující možnosti brány AI služby Azure API Management

Poznámka:

Brána AI, včetně možností serveru MCP, rozšiřuje stávající bránu rozhraní API služby API Management; nejedná se o samostatnou nabídku. Související funkce správy a funkce pro vývojáře jsou ve službě Azure API Center.

Proč používat bránu AI?

Přechod na AI v organizacích zahrnuje několik fází:

  • Definování požadavků a vyhodnocení modelů AI
  • Vytváření aplikací a agentů AI, kteří potřebují přístup k modelům a službám AI
  • Zprovoznění a nasazení aplikací AI a back-endů do produkčního prostředí

S tím, jak se přechod na AI vyvíjí, zejména ve větších podnicích, pomáhá brána AI řešit klíčové výzvy, které pomáhají:

  • Ověřování a autorizace přístupu ke službám AI
  • Rozdělování zátěže mezi více koncovými body umělé inteligence
  • Monitorování a protokolování interakcí AI
  • Správa využití a kvót tokenů napříč několika aplikacemi
  • Povolení samoobslužných služeb pro vývojářské týmy

Mediace a kontrola provozu

S bránou AI můžete:

  • Rychle importujte a nakonfigurujte koncové body LLM kompatibilní s OpenAI nebo je použijte přímo jako rozhraní API.
  • Správa modelů nasazených v Microsoft Foundry nebo poskytovatelích, jako je Amazon Bedrock
  • Řízení dokončování chatu, odpovědí a rozhraní API v reálném čase
  • Zpřístupněte stávající rozhraní REST API jako servery MCP a podporujte předávání serverům MCP
  • Import a správa rozhraní API agenta A2A (Preview)

Pokud chcete například nasadit model nasazený v Microsoft Foundry nebo jiném poskytovateli, poskytuje služba API Management zjednodušené průvodce pro import schématu a nastavení ověřování do koncového bodu AI pomocí spravované identity a odebrání nutnosti ruční konfigurace. V rámci stejného uživatelsky přívětivého prostředí můžete předem nakonfigurovat zásady pro škálovatelnost rozhraní API, zabezpečení a pozorovatelnost.

Snímek obrazovky s importem modelu Microsoft Foundry na webu Azure Portal

Další informace:

Škálovatelnost a výkon

Jedním z hlavních prostředků v generativních službách AI jsou tokeny. Microsoft Foundry a další poskytovatelé přiřazují kvóty pro nasazení modelu jako tokeny za minutu (TPM). Tyto tokeny distribuujete mezi uživatele modelu, jako jsou různé aplikace, vývojářské týmy nebo oddělení v rámci společnosti.

Pokud máte jednu aplikaci, která se připojuje k back-endu služby AI, můžete spravovat spotřebu tokenů pomocí limitu TPM, který jste nastavili přímo v nasazení modelu. Když se ale portfolio aplikací rozroste, můžete mít více aplikací, které volají jeden nebo více koncových bodů služby AI. Tyto koncové body můžou být průběžné platby nebo instance jednotek PTU ( Provisioned Throughput Units ). Musíte se ujistit, že jedna aplikace nepoužívá celou kvótu TPM, a blokovat ostatním aplikacím přístup k back-endům, které potřebují.

Omezování rychlosti tokenů a kvóty

Nakonfigurujte zásadu omezení tokenů pro vaše rozhraní API LLM pro správu a vynucování limitů pro jednotlivé příjemce rozhraní API na základě využití tokenů služby AI. Pomocí této zásady můžete nastavit limit čipu TPM nebo kvótu tokenu za určité období, například každou hodinu, denně, týdně, měsíčně nebo ročně.

Diagram omezení tokenů služby Azure OpenAI ve službě API Management

Tato zásada poskytuje flexibilitu při přiřazování limitů založených na tokenech na jakémkoli klíči čítače, jako je klíč předplatného, původní IP adresa nebo libovolný klíč definovaný výrazem zásad. Zásada také umožňuje předem přepočítat tokeny výzvy na straně služby Azure API Management, což minimalizuje zbytečné požadavky na back-end služby AI, pokud výzva už limit překročí.

Následující základní příklad ukazuje, jak nastavit limit TPM 500 na klíč předplatného:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

Další informace:

Sémantické ukládání do mezipaměti

Sémantické ukládání do mezipaměti je technika, která zlepšuje výkon rozhraní API LLM tím, že výsledky (dokončení) předchozích výzev uloží do mezipaměti a znovu je použije porovnáním vektorové blízkosti výzvy k předchozím požadavkům. Tato technika snižuje počet volání back-endu služby AI, zlepšuje dobu odezvy pro koncové uživatele a může pomoct snížit náklady.

Ve službě API Management povolte sémantické ukládání do mezipaměti pomocí Azure Managed Redis nebo jiné externí mezipaměti kompatibilní s RediSearch a připravené pro použití v Azure API Management. Pomocí Embeddings API ukládají a načítají politiky llm-semantic-cache-store a llm-semantic-cache-lookup z mezipaměti sémanticky podobná dokončení výzev. Tento přístup zajišťuje opětovné využití dokončení, což vede ke snížení spotřeby tokenů a zlepšení výkonu odezvy.

Diagram sémantické mezipaměti ve službě API Management

Další informace:

Nativní funkce škálování ve službě API Management

API Management také poskytuje integrované funkce škálování, které bráně pomůžou zpracovávat velké objemy požadavků na vaše rozhraní API AI. Mezi tyto funkce patří automatické nebo ruční přidání jednotek škálování brány a přidání regionálních bran pro nasazení ve více oblastech. Konkrétní možnosti závisí na úrovni služby API Management.

Další informace:

Poznámka:

I když může služba API Management škálovat kapacitu brány, potřebujete také škálovat a distribuovat provoz do back-endů umělé inteligence, aby vyhovovaly zvýšenému zatížení (viz část Odolnost ). Pokud například chcete využít geografickou distribuci systému v konfiguraci s více oblastmi, měli byste nasadit back-endové služby AI ve stejných oblastech jako brány služby API Management.

Zabezpečení a bezpečnost

Brána AI zabezpečuje a řídí přístup k vašim rozhraním API AI. S bránou AI můžete:

  • Použití spravovaných identit k ověřování ve službách Azure AI, takže pro ověřování nepotřebujete klíče rozhraní API.
  • Konfigurace autorizace OAuth pro aplikace a agenty AI pro přístup k rozhraním API nebo serverům MCP pomocí správce přihlašovacích údajů služby API Management
  • Použití zásad pro automatické moderování výzev LLM pomocí zabezpečení obsahu Azure AI

Diagram zásad zabezpečení obsahu ve službě API Management

Další informace:

Resiliency

Jednou z výzev při vytváření inteligentních aplikací je zajištění odolnosti aplikací vůči selhání back-endu a zpracování vysokého zatížení. Konfigurací koncových bodů LLM s back-endy ve službě Azure API Management můžete vyrovnávat zatížení napříč nimi. Můžete také definovat pravidla jističe, která zastaví předávání požadavků back-endům služby AI, pokud nereagují.

Vyrovnávač zatížení

Backendový vyrovnávač zatížení podporuje round-robin rozdělování, vážení, rozdělování založené na prioritě a podporu vyrovnávání zatížení podle relace. Můžete definovat strategii distribuce zatížení, která splňuje vaše konkrétní požadavky. Například definujte priority v rámci konfigurace nástroje pro vyrovnávání zatížení, abyste zajistili optimální využití konkrétních koncových bodů Microsoft Foundry, zejména těch zakoupených jako instance PTU.

Diagram použití vyrovnávání zatížení back-endu ve službě API Management

Jistič

Backendový jistič obsahuje dynamickou dobu trvání výpadku a používá hodnoty z Retry-After hlavičky poskytované backendem. Tato funkce zajišťuje přesné a včasné obnovení back-endů a maximalizuje využití back-endů s prioritou.

Diagram použití jističe back-endu ve službě API Management

Další informace:

Pozorovatelnost a zásady správného řízení

API Management poskytuje komplexní možnosti monitorování a analýzy pro sledování vzorů využití tokenů, optimalizaci nákladů, zajištění dodržování zásad správného řízení AI a řešení potíží s rozhraními API AI. Pomocí těchto možností můžete:

  • Protokolování výzev a dokončení do služby Azure Monitor
  • Sledování metrik tokenů pro jednotlivé příjemce v Application Insights
  • Zobrazení integrovaného řídicího panelu monitorování
  • Konfigurace zásad s využitím vlastních výrazů
  • Správa kvót tokenů napříč aplikacemi

Můžete například generovat metriky tokenů pomocí zásad llm-emit-token-metric a přidat vlastní dimenze, které můžete použít k filtrování metriky ve službě Azure Monitor. Následující příklad generuje metriky tokenů s dimenzemi pro IP adresu klienta, ID rozhraní API a ID uživatele (z vlastní hlavičky):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

Diagram generování metrik tokenů pomocí služby API Management

Povolte také protokolování pro rozhraní API LLM ve službě Azure API Management, abyste mohli sledovat využití tokenů, výzvy a dokončení fakturace a auditování. Po povolení protokolování můžete analyzovat protokoly v Application Insights a pomocí integrovaného řídicího panelu ve službě API Management zobrazit vzory spotřeby tokenů napříč rozhraními API AI.

Snímek obrazovky s analýzou rozhraní API jazykového modelu na portálu

Další informace:

Zkušenost vývojáře

Využijte bránu AI a Azure API Center ke zjednodušení vývoje a nasazení rozhraní API AI a serverů MCP. Kromě uživatelsky přívětivých prostředí pro import a konfiguraci zásad pro běžné scénáře umělé inteligence ve službě API Management můžete využít tyto výhody:

  • Snadná registrace rozhraní API a serverů MCP v katalogu organizace ve službě Azure API Center
  • Samoobslužné rozhraní API a přístup k serveru MCP prostřednictvím portálů pro vývojáře ve službě API Management a Centru rozhraní API
  • Sada nástrojů zásad služby API Management pro přizpůsobení
  • Konektor Api Center Copilot Studio pro rozšíření možností agentů AI

Snímek obrazovky se servery MCP v Centru rozhraní API na portálu

Další informace:

Dřívější přístup k funkcím brány AI

Jako zákazník služby API Management můžete získat přednostní přístup k novým funkcím a možnostem prostřednictvím kanálu verze AI Gateway. Díky tomuto přístupu si můžete vyzkoušet nejnovější inovace brány AI předtím, než budou obecně dostupné, a poskytnout zpětnou vazbu, která pomůže utvářet produkt.

Další informace:

Ukázky testovacích prostředí a kódu

Architektura a návrh