GenAI için MLflow 3

GenAI için MLflow 3, geliştirme ve üretim yaşam döngüsü boyunca GenAI uygulamaları ve aracıları için izleme, değerlendirme ve gözlemlenebilirliği birleştirir. Geliştirme sırasında uygulama kalitesini verimli bir şekilde değerlendirmenize ve iyileştirmenize ve üretimde kaliteyi izlemeye ve geliştirmeye devam etmenize yardımcı olmak için gerçek zamanlı izleme günlüğü, yerleşik ve özel puanlayıcılar, insan geri bildirimlerinin birleştirilmesi ve sürüm izleme içerir.

Databricks üzerinde Yönetilen MLflow, açık kaynak MLflow'un kapsamını kurumsal kullanıma hazır idare, tam olarak yönetilen barındırma, üretim düzeyinde ölçeklendirme ve Databricks lakehouse ve Unity Kataloğu'ndaki verilerinizle tümleştirme gibi üretim GenAI uygulamaları için tasarlanmış özelliklerle genişletir.

MLflow 2'de aracı değerlendirmesi hakkında bilgi için bkz . Mozaik AI Aracısı Değerlendirmesi (MLflow 2) ve geçiş kılavuzu. MLflow 3 için Aracı Değerlendirme SDK'sı yöntemleri Databricks tarafından yönetilen MLflow ile tümleştirilmiştir.

Başlamanıza yönelik bir dizi öğretici için bkz. Başlarken.

MLflow 3, GenAI uygulama kalitesini iyileştirmeye nasıl yardımcı olur?

GenAI uygulamalarını ve aracılarını değerlendirmek, geleneksel yazılımları değerlendirmekten daha karmaşıktır. Girişler ve çıkışlar genellikle serbest biçimli metindir ve birçok farklı çıkış doğru kabul edilebilir. Kalite yalnızca doğruluk düzeyine değil aynı zamanda duyarlık, uzunluk, tamlık, uygunluk ve kullanım örneğine özgü diğer ölçütler gibi faktörlere de bağlıdır. LLM'ler (Büyük Dil Modelleri) doğal olarak belirleyici olmadığından ve GenAI aracıları, bilgi getirici ve araçlar gibi ek bileşenler içerdiğinden, yanıtları her çalıştırmada farklılık gösterebilir.

Geliştiricilerin sağlam yapay zeka uygulamaları oluşturup dağıtmak için somut kalite ölçümlerine, otomatik değerlendirmeye ve sürekli izlemeye ihtiyacı vardır. GenAI için MLflow 3 verimli geliştirme, dağıtım ve sürekli iyileştirme için şu önemli parçaları sağlar:

İzleme girişleri, ara adımları ve çıkışları otomatik olarak günlüğe kaydeder ve değerlendirme ile izleme için veri temeli oluşturur.
Yerleşik ve özel LLM yargıçları ve puanlayıcıları , kalitenin çeşitli yönlerini tanımlamanıza ve ölçümleri kullanım örneğiniz için özelleştirmenize olanak sağlar.
Uzman geri bildirimleri için uygulamaları gözden geçirin , değerlendirme için veri kümelerini toplamanıza ve etiketlemenize ve otomatik yargıçları ve puanlayıcıları uzman yargısıyla uyumlu hale getirmenize olanak sağlar.
Otomatik değerlendirme ve izleme, geliştirme ve üretim sırasında aynı yargıçlardan ve puanlayıcılardan yararlanıyor.
Uygulama ve istem sürümü oluşturma, sürümleri karşılaştırmanıza ve yinelemeler üzerindeki iyileştirmeleri izlemenize olanak sağlar.

Databricks'te MLflow 3 kullanarak, kaliteyi derinden anlamanıza ve geliştirmenize yardımcı olmak için verilerinize yapay zeka getirebilirsiniz. Unity Kataloğu istemler, uygulamalar ve izlemeler için tutarlı idare sağlar. MLflow, herhangi bir model veya çerçeve kullanarak, geliştirme döngüsü boyunca ve üretim ortamına kadar sizi destekler.

Get started

Kapsamlı gözlemlenebilirlik ve değerlendirme araçlarıyla daha iyi GenAI uygulamaları oluşturmaya başlayın.

Görev	Açıklama
Hızlı başlangıç kılavuzu	Dakikalar içinde çalışmaya başlamak için, ilk uygulamanızı izleme, değerlendirme çalıştırma ve insan geri bildirimi toplama ile ilgili adım adım yönergelerle izleme araçlarını kurun.
Başlangıç: GenAI için MLflow İzleme (Databricks Not Defteri)	Hata ayıklama ve iyileştirme amacıyla ayrıntılı izlemeleri otomatik olarak yakalamak için basit bir GenAI uygulamasını uygulayın.
Öğretici: GenAI uygulamasını değerlendirme ve geliştirme	E-posta oluşturan ve Retrieval-Augmented Generation (RAG) kullanan bir uygulamayı değerlendirmenize yönelik adımları rehberlik eder.
10 dakikalık tanıtım: İnsan geri bildirimi toplama	Son kullanıcı geri bildirimlerini toplayın, geliştirici ek açıklamaları ekleyin, uzman inceleme oturumları oluşturun ve genAI uygulamanızın kalitesini değerlendirmek için bu geri bildirimi kullanın.

İz Sürme

MLflow İzleme Aracı, gözlemlenebilirlik sağlar ve değerlendirme ve izleme için gereken iz verilerini günlüğe kaydeder.

Özellik	Açıklama
MLflow İzleme	Karmaşık aracı tabanlı sistemler de dahil olmak üzere GenAI uygulamaları için uçtan uca gözlemlenebilirlik. Uygulamanızın nasıl davrandığını tam olarak gösteren bir resim için girişleri, çıkışları, ara adımları ve meta verileri izleyin.
İzleme nedir?	İzleme kavramları konularına giriş.
Uygulamanızın davranışını ve performansını gözden geçirme	Tam yürütme görünürlüğü, istemleri, almaları, araç çağrılarını, yanıtları, gecikme süresini ve maliyetleri yakalamanızı sağlar.
Üretim gözlemlenebilirliği	Tutarlı değerlendirme için geliştirme ve üretim ortamlarında aynı izleme özelliğini kullanın.
Değerlendirme veri kümeleri oluşturma	Kalite sorunlarını belirlemek, temsili izlemeleri seçmek, değerlendirme veri kümeleri oluşturmak ve uygulamanızı sistematik olarak iyileştirmek için izlemeleri analiz edin.
tümleştirmeleri izleme	MLflow İzleme, en az kurulum gereksinimiyle GenAI uygulamalarınıza anında gözlem yapmanıza olanak tanıyan otomatik izleme için birçok kitaplık ve çerçeveyle entegredir.

Değerlendirme ve izleme

Manuel testleri, insan uzmanlık seviyesine eşdeğer olan ve hem geliştirme hem de üretim aşamalarında kullanılabilen yerleşik ve özel LLM yargıçlarını ve puanlayıcılarını kullanarak otomatik değerlendirme ile değiştirin. Her üretim etkileşimi, tümleşik geri bildirim ve değerlendirme iş akışlarıyla geliştirme fırsatı haline gelir.

Özellik	Açıklama
GenAI aracılarını değerlendirme ve izleme	Databricks'te MLflow 3'ü kullanarak ajanların değerlendirilmesi ve izlenmesine genel bakış.
LLM yargıçları ve puanlayıcıları	MLflow 3, güvenlik, ilgi, kesinlik, geri çağırma kalitesi ve daha fazlası için yerleşik LLM değerlendirme mekanizmalarını içerir. Ayrıca, özel iş gereksinimleriniz için özel LLM yargıçları ve kod tabanlı puanlayıcılar da oluşturabilirsiniz.
Değerlendirme	Geliştirme sırasında veya bir yayın işleminin parçası olarak değerlendirmeyi çalıştırın.
Üretim izleme	LLM yargıçlarını ve puanlayıcılarını kullanarak üretim trafiğinin bir örneğini sürekli izleyin.
İnsan geri bildirimi toplama	Geliştirme sırasında ve üretim sırasında sürekli iyileştirme için etki alanı uzmanlarından ve son kullanıcılardan geri bildirim toplayın ve kullanın.

GenAI uygulama yaşam döngüsünü yönetme

Kurumsal sınıf yaşam döngüsü yönetimi ve idare araçlarıyla Tüm GenAI uygulamanızın sürümünü oluşturun, izleyin ve idare edin.

Özellik	Açıklama
Uygulama sürümü oluşturma	Her sürüm için kod, parametre ve değerlendirme ölçümlerini izleyin.
Komut İstemi Kayıt Defteri	A/B test özellikleri ve Unity Kataloğu tümleştirmesi ile kuruluşunuz genelinde sürüm oluşturma ve paylaşma istemleri için merkezi yönetim.
Kurumsal tümleştirme	Unity Catalog Kurumsal güvenlik, erişim denetimi ve uyumluluk özelliklerine sahip tüm yapay zeka varlıkları için birleşik idare. Veri zekası. GenAI verilerinizi Databricks Lakehouse'daki iş verilerinize bağlayın ve iş paydaşlarınıza özel analizler sağlayın. Mozaik AI Aracısı Hizmeti. Ölçeklendirme ve operasyonel titizlikle aracıları üretime dağıtın.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-11-26