Azure API Management'de yapay zeka ağ geçidi

UYGULANANLAR: Tüm API Management katmanları

Azure API Management'daki AI ağ geçidi yapay zeka arka uçlarınızı etkili bir şekilde yönetmenize yardımcı olan bir dizi özelliktir. Akıllı uygulamalarınızı ve iş yüklerinizi destekleyen yapay zeka modellerinin, aracılarının ve araçlarının güvenliğini sağlamak, ölçeklendirmek, izlemek ve yönetmek için bu özellikleri kullanın.

Aşağıdakiler dahil olmak üzere çok çeşitli yapay zeka uç noktalarını yönetmek için yapay zeka ağ geçidini kullanın:

  • Aşağıdaki API şemalarından birine uygun dil modeli API'leri:

    • OpenAI Sohbet Tamamlamaları veya Yanıtlar API'si
    • Anthropic İletiler API'si (şu anda API Management v2 katmanlarında desteklenmektedir)

    Modeller Microsoft Foundry veya Amazon Bedrock gibi Microsoft olmayan sağlayıcılar dahil olmak üzere çeşitli ortamlarda dağıtılabilir.

  • Uzak MCP sunucuları ve A2A aracı API'leri

  • Kendi kendine barındırılan modeller ve uç noktalar

Azure API Yönetimi'nin yapay zeka ağ geçidi özelliklerini özetleyen diyagram.

Not

  • MCP sunucu özellikleri de dahil olmak üzere yapay zeka ağ geçidi, API Management'ın mevcut API ağ geçidini genişletir; Ayrı bir teklif değil.
  • Yetenek kullanılabilirliği API Management hizmet katmanına göre değişir. Ayrıntılar için bağlantılı belge makalelerine bakın.
  • İlgili idare ve geliştirici özellikleri Azure API Center içindedir.

Tip

Yapay zeka ağ geçidi artık doğrudan Microsoft Foundry ile tümleştirilebilir ve bu sayede Foundry ortamınızdan yapay zeka modellerini, aracılarını ve araçlarını yönetebilirsiniz. Microsoft Foundry bölümündeki AI ağ geçidinde daha fazla bilgi edinin.

Neden yapay zeka ağ geçidi kullanmalısınız?

Kuruluşlarda yapay zeka benimsemesi birkaç aşamayı kapsar:

  • Gereksinimleri tanımlama ve yapay zeka modellerini değerlendirme
  • Yapay zeka modellerine ve hizmetlerine erişmesi gereken yapay zeka uygulamaları ve aracıları oluşturma
  • Yapay zeka uygulamalarını ve arka uçlarını kullanıma hazır hale getirme ve üretime dağıtma

Özellikle büyük kuruluşlarda yapay zeka benimsemesi büyüdükçe yapay zeka ağ geçidi önemli zorlukların giderilmesine yardımcı olur. Size yardımcı olur:

  • Yapay zeka hizmetlerinin kimliğini doğrulama ve erişim yetkisi verme
  • Birden çok yapay zeka uç noktası arasında yük dengeleme
  • Yapay zeka etkileşimlerini izleme ve günlüğe kaydetme
  • Birden çok uygulamada belirteç kullanımını ve kotalarını yönetme
  • Geliştirici ekipler için kendi kendine hizmeti etkinleştirin

Trafik aracılık ve denetimi

AI ağ geçidini kullanarak şunları yapabilirsiniz:

  • OpenAI uyumlu veya geçişli LLM uç noktalarını API'ler olarak hızla içeri aktarıp yapılandırın
  • Microsoft Foundry'de veya Amazon Bedrock gibi sağlayıcılarda dağıtılan modelleri yönetme
  • Sohbet tamamlamalarını, yanıtları ve gerçek zamanlı API'leri yönetme
  • Mevcut REST API'lerinizi MCP sunucuları olarak kullanıma sunma ve MCP sunucuları için geçiş desteği
  • A2A aracı API'lerini içeri aktarma ve yönetme

Örneğin, Microsoft Foundry'de veya başka bir sağlayıcıda dağıtılan bir modeli eklemek için API Management, şemayı içeri aktarmak ve yönetilen kimlik kullanarak yapay zeka uç noktasına kimlik doğrulaması ayarlamak için el ile yapılandırma gereksinimini ortadan kaldıran kolaylaştırılmış sihirbazlar sağlar. Aynı kullanıcı dostu deneyimde API ölçeklenebilirliği, güvenliği ve gözlemlenebilirliği için ilkeleri önceden yapılandırabilirsiniz.

 Azure portalında Microsoft Döküm modeli içeri aktarma ekran görüntüsü.

Daha fazla bilgi:

Ölçeklenebilirlik ve performans

Üretici yapay zeka hizmetlerindeki ana kaynaklardan biri belirteçlerdir. Microsoft Foundry ve diğer sağlayıcılar, model dağıtımlarınız için dakika başına jeton (TPM) olarak kota atar. Bu belirteçleri farklı uygulamalar, geliştirici ekipleri veya şirket içindeki departmanlar gibi model tüketicilerinize dağıtırsınız.

Yapay zeka hizmeti arka ucuna bağlanan tek bir uygulamanız varsa, model dağıtımında doğrudan ayarladığınız TPM sınırıyla belirteç tüketimini kontrol edebilirsiniz. Ancak, uygulama portföyünüz büyüdükçe, tek veya birden çok yapay zeka hizmet uç noktasını çağıran birden çok uygulamanız olabilir. Bu uç noktalar, kullandıkça öde veya Sağlanan Aktarım Hızı Birimleri (PTU) olarak yapılandırılabilir. Bir uygulamanın TPM kotasının tamamını kullanmadığından emin olmanız ve diğer uygulamaların ihtiyaç duydukları arka uçlara erişmesini engellemeniz gerekir.

Jeton hız sınırlaması ve kotalar

LLM API'lerinizde, yapay zeka hizmeti belirteçlerinin kullanımına göre API tüketicisi başına sınırları yönetmek ve zorunlu kılmak için bir belirteç sınırı politikasını yapılandırın. Bu ilkeyi kullanarak, saatlik, günlük, haftalık, aylık veya yıllık gibi belirli bir süre boyunca bir TPM sınırı veya belirteç kotası ayarlayabilirsiniz.

Azure OpenAI Service belirteçlerini sınırlamaya yönelik diyagram API Management'te.

Bu ilke, abonelik anahtarı, kaynak IP adresi veya bir ilke ifadesi aracılığıyla tanımlanan rastgele anahtar gibi herhangi bir sayaç anahtarına belirteç tabanlı sınırlar atama esnekliği sağlar. İlke ayrıca Azure API Management tarafında istem belirteçlerinin önceden hesaplanmasına olanak tanır ve istem sınırı zaten aştığında yapay zeka hizmeti arka ucuna yönelik gereksiz istekleri en aza indirir.

Aşağıdaki temel örnekte abonelik anahtarı başına 500 TPM sınırının nasıl ayarlanacağı gösterilmektedir:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

Daha fazla bilgi:

Anlamsal önbelleğe alma

Anlamsal önbelleğe alma, önceki istemlerin sonuçlarını önbelleğe alarak (tamamlanmaları) ve istemle önceki isteklerin vektör yakınlığını karşılaştırarak bunları yeniden kullanarak LLM API'lerinin performansını geliştiren bir tekniktir. Bu teknik yapay zeka hizmeti arka ucuna yapılan çağrı sayısını azaltır, son kullanıcılar için yanıt sürelerini iyileştirir ve maliyetleri azaltmaya yardımcı olabilir.

API Management'ta Azure Managed Redis veya RediSearch ile uyumlu ve Azure API Management'a eklenen başka bir dış önbellek kullanarak anlamsal önbelleğe almayı etkinleştirin. Embeddings API'sini kullanarak llm-semantic-cache-store ve llm-semantic-cache-lookup ilkeleri önbellekten benzer istem tamamlamalarını depolar ve alır. Bu yaklaşım, tamamlanmaların yeniden kullanılmasını sağlayarak belirteç tüketiminin azalmasına ve yanıt performansının iyileştirilmesine neden olabilir.

API Management'ta anlamsal önbelleğe alma diyagramı.

Daha fazla bilgi:

API Management'ta yerel ölçeklendirme özellikleri

API Management, ağ geçidinin yapay zeka API'lerinize yönelik yüksek hacimli istekleri işlemesine yardımcı olmak için yerleşik ölçeklendirme özellikleri de sağlar. Bu özellikler ağ geçidi ölçek birimlerinin otomatik veya el ile eklenmesini ve çoklu bölge dağıtımları için bölgesel ağ geçitlerinin eklenmesini içerir. Belirli özellikler API Management hizmet katmanına bağlıdır.

Daha fazla bilgi:

Not

API Management ağ geçidi kapasitesini ölçeklendirebilir ancak artan yüke uyum sağlamak için trafiği ölçeklendirin ve yapay zeka arka uçlarınıza dağıtın ( dayanıklılık bölümüne bakın). Örneğin, çoklu bölge yapılandırmasında sisteminizin coğrafi dağılımından yararlanmak için arka uç yapay zeka hizmetlerini API Management ağ geçitlerinizle aynı bölgelere dağıtın.

Güvenlik ve güvenlik

Yapay zeka ağ geçidi, yapay zeka API'lerinize erişimi güvence altına alır ve denetler. AI ağ geçidini kullanarak şunları yapabilirsiniz:

  • Azure'da yapay zeka hizmetlerinde kimlik doğrulaması yapmak için yönetilen kimlikleri kullanma, böylece kimlik doğrulaması için API anahtarlarına ihtiyacınız yoktur
  • API Management'ın kimlik bilgisi yöneticisini kullanarak AI uygulamaları ve aracılarının API'lere veya MCP sunucularına erişmesi için OAuth yetkilendirmesini yapılandırma
  • Azure Yapay Zeka İçerik Güvenliği

API Management'ta içerik güvenliği ilkesinin diyagramı.

Daha fazla bilgi:

Resiliency

Akıllı uygulamalar oluştururken karşılaşılan zorluklardan biri, uygulamaların arka uç hatalarına dayanıklı olduğundan ve yüksek yükleri işleyebildiğinden emin olmaktır. LLM uç noktalarınızı Azure API Management backends ile yapılandırarak yükü bunlar arasında dengeleyebilirsiniz. Yanıt vermedikleri takdirde istekleri yapay zeka hizmeti arka uçlarına iletmeyi durdurmak için devre kesici kuralları da tanımlayabilirsiniz.

Yük Dengeleyici

Arka uç yük dengeleyici dönüşümlü, ağırlıklı, öncelik tabanlı ve oturum farkında yük dengelemeyi destekler. Özel gereksinimlerinizi karşılayan bir yük dağıtım stratejisi tanımlayabilirsiniz. Örneğin, özellikle PTU örneği olarak satın alınan belirli Microsoft Foundry uç noktalarının en iyi şekilde kullanımını sağlamak için yük dengeleyici yapılandırmasında öncelikleri tanımlayın.

API Management'ta arka uç yük dengelemeyi kullanma diyagramı.

Devre kesici

Arka uç devre kesicisi, arka uç tarafından sağlanan üst bilgideki Retry-After değerleri uygulayan dinamik kesme süresine sahiptir. Bu özellik arka uçların hassas ve zamanında kurtarılmasını sağlayarak öncelik arka uçlarınızın kullanımını en üst düzeye çıkarır.

API Management'ta arka uç devre kesici kullanma diyagramı.

Daha fazla bilgi:

Gözlemlenebilirlik ve idare

API Management, belirteç kullanım desenlerini izlemek, maliyetleri iyileştirmek, yapay zeka idare ilkelerinizle uyumluluğu sağlamak ve yapay zeka API'lerinizle ilgili sorunları gidermek için kapsamlı izleme ve analiz özellikleri sağlar. Aşağıdaki özellikleri kullanarak:

  • Azure İzleyici'a istem ve tamamlamaları günlüğe kaydet.
  • Application Insights'ta tüketici başına belirteç ölçümlerini izleyin.
  • Yerleşik izleme panosunu görüntüleyin.
  • İlkeleri özel ifadelerle yapılandırın.
  • Uygulamalar arasında belirteç kotalarını yönetme.

Örneğin, llm-emit-token-metric ilkesini kullanarak belirteç ölçümlerini yayabilir ve Azure İzleyici'da ölçümü filtrelemek için kullanabileceğiniz özel boyutlar ekleyebilirsiniz. Aşağıdaki örnek, istemci IP adresi, API kimliği ve kullanıcı kimliği (özel üst bilgiden) için boyutlara sahip belirteç ölçümlerini yayar:

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

API Management kullanarak belirteç ölçümlerini yayma diyagramı.

Ayrıca, faturalama ve denetim için belirteç kullanımını, istemleri ve tamamlamaları izlemek için Azure API Management'de LLM API'leri için günlüğe kaydetmeyi etkinleştirin. Günlüğü etkinleştirdikten sonra Application Insights'taki günlükleri analiz edebilir ve API Management'ta yerleşik bir pano kullanarak yapay zeka API'leri genelinde belirteç tüketimi desenlerini görüntüleyebilirsiniz.

Portalda dil modeli API'lerinin analizinin ekran görüntüsü.

Daha fazla bilgi:

Geliştirici deneyimi

Yapay zeka API'lerinizin, MCP sunucularınızın ve diğer yapay zeka varlıklarınızın geliştirilmesini ve dağıtımını kolaylaştırmak için yapay zeka ağ geçidini ve Azure API Center kullanın. API Management'taki yaygın yapay zeka senaryolarına yönelik kullanıcı dostu içeri aktarma ve ilke yapılandırma deneyimlerine ek olarak şunlardan yararlanabilirsiniz:

  • API'leri, MCP sunucularını, becerileri ve diğer varlıkları Azure API Center'daki bir kuruluş kataloğuna kolayca kaydetme
  • API Management ve API Center'daki geliştirici portalları aracılığıyla self servis erişim
  • Özelleştirme için API Management ilke araç seti
  • Api Center Copilot Studio bağlayıcısı, yapay zeka aracılarının özelliklerini genişletmek için

Portaldaki API Center'daki MCP sunucularının ekran görüntüsü.

Daha fazla bilgi:

Microsoft Foundry'de yapay zeka ağ geçidi (önizleme)

Artık yapay zeka ağ geçidini doğrudan Microsoft Foundry ile tümleştirerek, Foundry ortamınızdan yapay zeka trafiğini yönetmenizi sağlayabilirsiniz. Tek bir yapay zeka ağ geçidini bir Dökümhane kaynağıyla ilişkilendirebilirsiniz.

Not

Api Management örneğini Gerekli izinler ve desteklenen hizmet katmanları dahil olmak üzere Foundry'de yapay zeka ağ geçidi olarak kullanmayla ilgili ayrıntılı gereksinimler için Microsoft Foundry belgelerine bakın. Foundry portalından, yapay zeka ağ geçidi olarak kullanılacak yeni bir API Management örneği de oluşturabilirsiniz.

Bir AI ağ geçidi örneği oluşturduğunuzda veya Foundry kaynağınızla ilişkilendirdiğinizde, ağ geçidi aracılığıyla Foundry kaynaklarınızı yönetebilir, güvenlileştirebilir ve izleyebilirsiniz.

Models: Azure OpenAI ve diğer sağlayıcılar da dahil olmak üzere tüm model dağıtımları için belirteç kotalarını ve hız sınırlarını doğrudan Dökümhane arabiriminde yapılandırın.

Agents: Her yerde (Azure, diğer bulut hizmetleri veya şirket içi sistemlerde) çalışan aracıları merkezi envanter ve yönetim için Foundry kontrol düzlemine kaydedin. Telemetri verilerini Foundry veya Application Insights'ta görüntüleyin ve azaltma veya içerik güvenliği gibi ilkeler uygulayın.

Araçlar: Otomatik idare ve bulma için herhangi bir ortamda barındırılan MCP araçlarını kaydedin. Araçlar, Temsilciler tarafından kullanıma hazır olarak Dökümhane envanterinde görünür.

Özel ilkeler, kurumsal ağ iletişimi veya federasyon ağ geçitleri gibi gelişmiş senaryolar için, Foundry tarafından yönetilen kaynaklarla sürekliliği korurken tam Azure API Management deneyimine erişin.

Daha fazla bilgi:

Yapay zeka ağ geçidi özelliklerine erken erişim

API Management müşterisi olarak, AI Gateway Erken sürüm kanalı aracılığıyla yeni özelliklere ve özelliklere erken erişim elde edebilirsiniz. Bu erişim, genel kullanıma sunulmadan önce en son yapay zeka ağ geçidi yeniliklerini denemenize ve ürünü şekillendirmeye yardımcı olacak geri bildirim sağlamanıza olanak tanır. Şu anda yapay zeka ağ geçidi erken sürüm kanalı, Azure API Management klasik katmanlarında kullanılabilir.

Daha fazla bilgi:

Laboratuvarlar ve kod örnekleri

Mimari ve tasarım