Üretken yapay zekada gözlemlenebilirlik

Yapay zeka uygulama yaşam döngüsü, yapay zeka sistemlerinin doğru, ilgili ve güvenilir çıkışlar sunmasını sağlamak için sağlam değerlendirme çerçeveleri gerektirir. Sıkı değerlendirme olmadan yapay zeka sistemleri yanlış, tutarsız, zayıf topraklanmış veya zararlı olabilecek yanıtlar üretme riski taşır. Gözlemlenebilirlik, ekiplerin model seçiminden üretim izlemesine kadar geliştirme yaşam döngüsü boyunca yapay zeka çıkışlarının hem kalitesini hem de güvenliğini ölçmesini ve geliştirmesini sağlar.

Gözlemlenebilirlik nedir?

Yapay zeka gözlemlenebilirliği, yapay zeka sistemlerini yaşam döngüleri boyunca izleme, anlama ve sorunlarını giderme özelliğini ifade eder. Performans, kalite, güvenlik ve operasyonel sistem durumuyla ilgili görünürlük elde etmek için otomatik kalite geçitlerini izleyebilir, değerlendirebilir, CI/CD işlem hatlarıyla tümleştirebilir ve değerlendirme ölçümleri, günlükler, izlemeler ve model çıkışları gibi sinyalleri toplayabilirsiniz.

Temel gözlemlenebilirlik özellikleri

Microsoft Foundry, yapay zeka uygulama yaşam döngüsü boyunca kapsamlı gözlemlenebilirlik sağlamak için birlikte çalışan üç temel özellik sağlar:

Değerlendirme

Değerlendiriciler geliştirme boyunca yapay zeka yanıtlarının kalitesini, güvenliğini ve güvenilirliğini ölçer. Microsoft Foundry, genel amaçlı kalite ölçümleri (tutarlılık, akıcılık), RAG'a özgü ölçümler (temellilik, ilgi), güvenlik ve emniyet (nefret/adil olmama, şiddet, korunan materyaller) ve ajan(ta)ya özgü ölçümler (araç çağrısı doğruluğu, görev tamamlama) gibi yerleşik değerlendiriciler sağlar. Ayrıca, etki alanına özgü gereksinimlerinize göre uyarlanmış özel değerlendiriciler de oluşturabilirsiniz.

Yerleşik değerlendiricilerin tam listesi için bkz. Yerleşik değerlendirici referansı.

Izleme

Üretim izleme, dağıtılan yapay zeka uygulamalarınızın gerçek dünya koşullarında kaliteyi ve performansı korumasını sağlar. Azure İzleyici Application Insights ile tümleşik Microsoft Foundry, operasyonel ölçümleri, belirteç tüketimini, gecikme süresini, hata oranlarını ve kalite puanlarını izleyen gerçek zamanlı panolar sunar. Çıkışlar kalite eşiklerinde başarısız olduğunda veya zararlı içerik üreterek hızlı sorun çözümüne olanak tanıyan uyarılar ayarlayabilirsiniz.

Üretim izlemesini ayarlama hakkında ayrıntılı bilgi için bkz. Aracıları izleme panosu.

İzleme

Dağıtılmış izleme, yapay zeka uygulamalarının yürütme akışını yakalar ve LLM çağrıları, araç çağrıları, aracı kararları ve hizmetler arası bağımlılıklar hakkında görünürlük sağlar. OpenTelemetry standartlarında oluşturulan ve Azure İzleyici Application Insights ile tümleştirilmiş olan izleme, karmaşık aracı davranışlarında hata ayıklamaya, performans sorunlarını belirlemeye ve çok adımlı akıl yürütme zincirlerini anlamaya olanak tanır. Microsoft Foundry; LangChain, LangGraph, OpenAI Agents SDK ve Microsoft Agent Framework gibi popüler çerçeveler için izlemeyi destekler.

İzleme uygulama yönergeleri için bkz. İzleme aracısı genel bakış.

Değerlendiriciler nedir?

Değerlendiriciler, geliştirme yaşam döngüsü boyunca yapay zeka yanıtlarının kalitesini, güvenliğini ve güvenilirliğini ölçen özel araçlardır.

Yerleşik değerlendiricilerin tam listesi için bkz. Yerleşik değerlendirici referansı.

Değerlendiricilerin güvenilirlik, güvenlik ve etkinlik sağlamak için yapay zeka döngüsünün her aşamasına entegrasyonu sağlanır.

Model seçimini, yapay zeka uygulaması oluşturmayı ve kullanıma hazır hale getirmeyi gösteren yapay zeka uygulama yaşam döngüsü diyagramı.

Yapay zeka uygulama yaşam döngüsü değerlendirmesinin üç aşaması

Temel model seçimi

Farklı modellerdeki kalite, görev performansı, etik konular ve güvenlik profillerini karşılaştırarak doğru temel modeli seçin.

Mevcut Araçlar: Microsoft Foundry benchmark, genel veri kümelerindeki veya kendi verilerinizdeki modelleri karşılaştırmak için ve belirli model uç noktalarını test etmek için Azure Yapay Zeka Değerlendirme SDK'sı.

Üretim öncesi değerlendirme

Dağıtımdan önce kapsamlı test, yapay zeka aracınızın veya uygulamanızın üretime hazır olmasını sağlar. Bu aşama, değerlendirme veri kümeleri aracılığıyla performansı doğrular, uç durumları tanımlar, sağlamlığı değerlendirir ve görev uyumluluğu, temellik, ilgi ve güvenlik gibi önemli ölçümleri ölçer. Üretime hazır, çok aşamalı konuşmalar, araç çağrıları ve durum yönetimi ile çalışan aracılar oluşturmak için Foundry Agent Service'e bakın.

Altı adımlı modeller ve uygulamalar için üretim öncesi değerlendirme diyagramı.

Değerlendirme araçları ve yaklaşımları:

Üretim sonrası izleme

Dağıtımdan sonra sürekli izleme , yapay zeka uygulamanızın gerçek dünya koşullarında kaliteyi korumasını sağlar:

  • operasyonel ölçümler: Temel yapay zeka aracısı operasyonel ölçümlerinin düzenli ölçümü
  • Sürekli değerlendirme: Üretim trafiğinin örneklenmiş hızda kalite ve güvenlik değerlendirmesi
  • Zamanlanmış değerlendirme: Sistem kaymasını algılamak için test veri kümelerini kullanarak zamanlanmış kalite ve güvenlik değerlendirmesi
  • Zamanlanmış kırmızı ekip oluşturma: Güvenlik ve güvenlik açıklarını araştırmak için zamanlanmış saldırgan testler
  • Azure İzleyici uyarıları: Çıkışların kalite eşikleri başarısız olduğunda veya zararlı içerik ürettiğinde bildirimler

Azure İzleyici Application Insights ile tümleşik olan Foundry Gözlemlenebilirlik panosu performans, güvenlik ve kalite ölçümleri hakkında gerçek zamanlı içgörüler sunarak hızlı sorun çözümüne olanak tanır ve kullanıcı güvenini korur.

Değerlendirme hızlı referans kılavuzu

Amaç Işlem Parametreler, rehberlik ve örnekler
İz sürme nasıl ayarlanır? Dağıtılmış izlemeyi yapılandırma İzlemenin genel bakışı

Agentler SDK kullanarak izleme
Ne için değerlendirme yapıyorsun? İlgili değerlendiricileri tanımlama veya oluşturma Yerleşik değerlendiriciler

Özel değerlendiriciler

Python SDK örnekleri

C# SDK örnekleri
Hangi verileri kullanmalısınız? İlgili veri kümesini karşıya yükleyin veya oluşturun Veri kümesi seçme veya oluşturma
Değerlendirmeler nasıl çalıştırılır? Değerlendirmeyi çalıştırma Aracı değerlendirme çalıştırmaları

Uzak bulut işletimi
Model/yapay zeka uygulamam nasıl bir performans sergiledi? Sonuçları analiz etme Değerlendirme sonuçlarını görüntüleme

Küme analizi
Nasıl geliştirebilirim? Sonuçları analiz etme ve aracıları iyileştirme Küme analiziyle değerlendirme hatalarını analiz edin.

Aracıları iyileştirin ve yeniden değerlendirin.

Değerlendirme sonuçlarını gözden geçirin.

Bölge desteği, hız sınırları ve sanal ağ desteği

Hangi bölgelerin yapay zeka destekli değerlendiricileri desteklediğini, değerlendirme çalıştırmalarına uygulanan hız sınırlarını ve ağ yalıtımı için sanal ağ desteğinin nasıl yapılandırıldığını öğrenmek için bkz. bölge desteği, hız sınırları ve değerlendirme için sanal ağ desteği.

Fiyatlandırma

Gözlemlenebilirlik özellikleri, örneğin temsilci oyun alanındaki risk ve güvenlik değerlendirmeleri, Azure fiyatlandırma sayfamızda listelenen tüketime göre faturalandırılır.

Önemli

Aracılar oyun alanındaki değerlendirmeler, varsayılan olarak tüm Foundry projeleri için etkindir ve tüketim tabanlı faturalamaya dahil edilir. Oyun alanı değerlendirmelerini kapatmak için, aracıların oyun alanının sağ üst köşesindeki metrikler menüsünü seçin ve tüm değerlendiricilerin seçimini kaldırın.

Metriğin seçili olduğu ajan oyun alanının gösterildiği Foundry portalının ekran görüntüsü.