Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO: Všechny úrovně služby správy rozhraní API
Brána AI ve službě Azure API Management je sada funkcí, které vám pomůžou efektivně spravovat back-endy AI. Tyto funkce pomáhají spravovat, zabezpečit, škálovat, monitorovat a řídit nasazení velkých jazykových modelů (LLM), rozhraní API AI a servery MCP (Model Context Protocol), které zálohují vaše inteligentní aplikace a agenty.
Použití brány AI ke správě široké škály koncových bodů AI, mezi které patří:
- Nasazení Microsoft Foundry a Azure OpenAI v nasazeních modelů Microsoft Foundry
- Nasazení rozhraní API pro odvozování modelů Azure AI
- Vzdálené servery MCP a rozhraní API agenta A2A
- Modely a koncové body kompatibilní s openAI hostovanými poskytovateli jiných společností než Microsoft
- Modely a koncové body samo-hostované na vlastním serveru
Poznámka:
Brána AI, včetně možností serveru MCP, rozšiřuje stávající bránu rozhraní API služby API Management; nejedná se o samostatnou nabídku. Související funkce správy a funkce pro vývojáře jsou ve službě Azure API Center.
Proč používat bránu AI?
Přechod na AI v organizacích zahrnuje několik fází:
- Definování požadavků a vyhodnocení modelů AI
- Vytváření aplikací a agentů AI, kteří potřebují přístup k modelům a službám AI
- Zprovoznění a nasazení aplikací AI a back-endů do produkčního prostředí
S tím, jak se přechod na AI vyvíjí, zejména ve větších podnicích, pomáhá brána AI řešit klíčové výzvy, které pomáhají:
- Ověřování a autorizace přístupu ke službám AI
- Rozdělování zátěže mezi více koncovými body umělé inteligence
- Monitorování a protokolování interakcí AI
- Správa využití a kvót tokenů napříč několika aplikacemi
- Povolení samoobslužných služeb pro vývojářské týmy
Mediace a kontrola provozu
S bránou AI můžete:
- Rychle importujte a nakonfigurujte koncové body LLM kompatibilní s OpenAI nebo je použijte přímo jako rozhraní API.
- Správa modelů nasazených v Microsoft Foundry nebo poskytovatelích, jako je Amazon Bedrock
- Řízení dokončování chatu, odpovědí a rozhraní API v reálném čase
- Zpřístupněte stávající rozhraní REST API jako servery MCP a podporujte předávání serverům MCP
- Import a správa rozhraní API agenta A2A (Preview)
Pokud chcete například nasadit model nasazený v Microsoft Foundry nebo jiném poskytovateli, poskytuje služba API Management zjednodušené průvodce pro import schématu a nastavení ověřování do koncového bodu AI pomocí spravované identity a odebrání nutnosti ruční konfigurace. V rámci stejného uživatelsky přívětivého prostředí můžete předem nakonfigurovat zásady pro škálovatelnost rozhraní API, zabezpečení a pozorovatelnost.
Další informace:
- Importujte rozhraní Microsoft Foundry API
- Importujte API jazykového modelu
- Zveřejnění rozhraní REST API jako serveru MCP
- Zveřejnění a řízení existujícího serveru MCP
- Import rozhraní API agenta A2A
Škálovatelnost a výkon
Jedním z hlavních prostředků v generativních službách AI jsou tokeny. Microsoft Foundry a další poskytovatelé přiřazují kvóty pro nasazení modelu jako tokeny za minutu (TPM). Tyto tokeny distribuujete mezi uživatele modelu, jako jsou různé aplikace, vývojářské týmy nebo oddělení v rámci společnosti.
Pokud máte jednu aplikaci, která se připojuje k back-endu služby AI, můžete spravovat spotřebu tokenů pomocí limitu TPM, který jste nastavili přímo v nasazení modelu. Když se ale portfolio aplikací rozroste, můžete mít více aplikací, které volají jeden nebo více koncových bodů služby AI. Tyto koncové body můžou být průběžné platby nebo instance jednotek PTU ( Provisioned Throughput Units ). Musíte se ujistit, že jedna aplikace nepoužívá celou kvótu TPM, a blokovat ostatním aplikacím přístup k back-endům, které potřebují.
Omezování rychlosti tokenů a kvóty
Nakonfigurujte zásadu omezení tokenů pro vaše rozhraní API LLM pro správu a vynucování limitů pro jednotlivé příjemce rozhraní API na základě využití tokenů služby AI. Pomocí této zásady můžete nastavit limit čipu TPM nebo kvótu tokenu za určité období, například každou hodinu, denně, týdně, měsíčně nebo ročně.
Tato zásada poskytuje flexibilitu při přiřazování limitů založených na tokenech na jakémkoli klíči čítače, jako je klíč předplatného, původní IP adresa nebo libovolný klíč definovaný výrazem zásad. Zásada také umožňuje předem přepočítat tokeny výzvy na straně služby Azure API Management, což minimalizuje zbytečné požadavky na back-end služby AI, pokud výzva už limit překročí.
Následující základní příklad ukazuje, jak nastavit limit TPM 500 na klíč předplatného:
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
Další informace:
Sémantické ukládání do mezipaměti
Sémantické ukládání do mezipaměti je technika, která zlepšuje výkon rozhraní API LLM tím, že výsledky (dokončení) předchozích výzev uloží do mezipaměti a znovu je použije porovnáním vektorové blízkosti výzvy k předchozím požadavkům. Tato technika snižuje počet volání back-endu služby AI, zlepšuje dobu odezvy pro koncové uživatele a může pomoct snížit náklady.
Ve službě API Management povolte sémantické ukládání do mezipaměti pomocí Azure Managed Redis nebo jiné externí mezipaměti kompatibilní s RediSearch a připravené pro použití v Azure API Management. Pomocí Embeddings API ukládají a načítají politiky llm-semantic-cache-store a llm-semantic-cache-lookup z mezipaměti sémanticky podobná dokončení výzev. Tento přístup zajišťuje opětovné využití dokončení, což vede ke snížení spotřeby tokenů a zlepšení výkonu odezvy.
Další informace:
- Nastavení externí mezipaměti ve službě Azure API Management
- Povolení sémantické mezipaměti pro rozhraní API AI ve službě Azure API Management
Nativní funkce škálování ve službě API Management
API Management také poskytuje integrované funkce škálování, které bráně pomůžou zpracovávat velké objemy požadavků na vaše rozhraní API AI. Mezi tyto funkce patří automatické nebo ruční přidání jednotek škálování brány a přidání regionálních bran pro nasazení ve více oblastech. Konkrétní možnosti závisí na úrovni služby API Management.
Další informace:
- Upgradovat a škálovat instanci služby API Management
- Nasazení instance služby API Management ve více oblastech
Poznámka:
I když může služba API Management škálovat kapacitu brány, potřebujete také škálovat a distribuovat provoz do back-endů umělé inteligence, aby vyhovovaly zvýšenému zatížení (viz část Odolnost ). Pokud například chcete využít geografickou distribuci systému v konfiguraci s více oblastmi, měli byste nasadit back-endové služby AI ve stejných oblastech jako brány služby API Management.
Zabezpečení a bezpečnost
Brána AI zabezpečuje a řídí přístup k vašim rozhraním API AI. S bránou AI můžete:
- Použití spravovaných identit k ověřování ve službách Azure AI, takže pro ověřování nepotřebujete klíče rozhraní API.
- Konfigurace autorizace OAuth pro aplikace a agenty AI pro přístup k rozhraním API nebo serverům MCP pomocí správce přihlašovacích údajů služby API Management
- Použití zásad pro automatické moderování výzev LLM pomocí zabezpečení obsahu Azure AI
Další informace:
- Ověřování a autorizace přístupu k rozhraním API Azure OpenAI
- Informace o přihlašovacích údaji rozhraní API a správci přihlašovacích údajů
- Vynucování kontrol bezpečnosti obsahu u žádostí LLM
Resiliency
Jednou z výzev při vytváření inteligentních aplikací je zajištění odolnosti aplikací vůči selhání back-endu a zpracování vysokého zatížení. Konfigurací koncových bodů LLM s back-endy ve službě Azure API Management můžete vyrovnávat zatížení napříč nimi. Můžete také definovat pravidla jističe, která zastaví předávání požadavků back-endům služby AI, pokud nereagují.
Vyrovnávač zatížení
Backendový vyrovnávač zatížení podporuje round-robin rozdělování, vážení, rozdělování založené na prioritě a podporu vyrovnávání zatížení podle relace. Můžete definovat strategii distribuce zatížení, která splňuje vaše konkrétní požadavky. Například definujte priority v rámci konfigurace nástroje pro vyrovnávání zatížení, abyste zajistili optimální využití konkrétních koncových bodů Microsoft Foundry, zejména těch zakoupených jako instance PTU.
Jistič
Backendový jistič obsahuje dynamickou dobu trvání výpadku a používá hodnoty z Retry-After hlavičky poskytované backendem. Tato funkce zajišťuje přesné a včasné obnovení back-endů a maximalizuje využití back-endů s prioritou.
Další informace:
Pozorovatelnost a zásady správného řízení
API Management poskytuje komplexní možnosti monitorování a analýzy pro sledování vzorů využití tokenů, optimalizaci nákladů, zajištění dodržování zásad správného řízení AI a řešení potíží s rozhraními API AI. Pomocí těchto možností můžete:
- Protokolování výzev a dokončení do služby Azure Monitor
- Sledování metrik tokenů pro jednotlivé příjemce v Application Insights
- Zobrazení integrovaného řídicího panelu monitorování
- Konfigurace zásad s využitím vlastních výrazů
- Správa kvót tokenů napříč aplikacemi
Můžete například generovat metriky tokenů pomocí zásad llm-emit-token-metric a přidat vlastní dimenze, které můžete použít k filtrování metriky ve službě Azure Monitor. Následující příklad generuje metriky tokenů s dimenzemi pro IP adresu klienta, ID rozhraní API a ID uživatele (z vlastní hlavičky):
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
Povolte také protokolování pro rozhraní API LLM ve službě Azure API Management, abyste mohli sledovat využití tokenů, výzvy a dokončení fakturace a auditování. Po povolení protokolování můžete analyzovat protokoly v Application Insights a pomocí integrovaného řídicího panelu ve službě API Management zobrazit vzory spotřeby tokenů napříč rozhraními API AI.
Další informace:
Zkušenost vývojáře
Využijte bránu AI a Azure API Center ke zjednodušení vývoje a nasazení rozhraní API AI a serverů MCP. Kromě uživatelsky přívětivých prostředí pro import a konfiguraci zásad pro běžné scénáře umělé inteligence ve službě API Management můžete využít tyto výhody:
- Snadná registrace rozhraní API a serverů MCP v katalogu organizace ve službě Azure API Center
- Samoobslužné rozhraní API a přístup k serveru MCP prostřednictvím portálů pro vývojáře ve službě API Management a Centru rozhraní API
- Sada nástrojů zásad služby API Management pro přizpůsobení
- Konektor Api Center Copilot Studio pro rozšíření možností agentů AI
Další informace:
- Registrace a zjišťování serverů MCP v Centru rozhraní API
- Synchronizace rozhraní API a serverů MCP mezi službou API Management a centrem api
- Portál pro vývojáře služby API Management
- Portál Centra rozhraní API
- Sada nástrojů zásad služby Azure API Management
- Konektor API Center Copilot Studio
Dřívější přístup k funkcím brány AI
Jako zákazník služby API Management můžete získat přednostní přístup k novým funkcím a možnostem prostřednictvím kanálu verze AI Gateway. Díky tomuto přístupu si můžete vyzkoušet nejnovější inovace brány AI předtím, než budou obecně dostupné, a poskytnout zpětnou vazbu, která pomůže utvářet produkt.
Další informace:
Ukázky testovacích prostředí a kódu
- Laboratoře schopností brány umělé inteligence
- Workshop o bráně AI
- Azure OpenAI se službou API Management (Node.js)
- Ukázkový kód Pythonu
Architektura a návrh
- Referenční architektura brány AI s využitím služby API Management
- Akcelerátor přistávacích zón brány centra AI
- Návrh a implementace řešení brány s využitím prostředků Azure OpenAI
- Použijte bránu před více nasazeními služby Azure OpenAI