LLM uçtan uca değerlendirme

Azure AI services

Azure AI Arama

Azure OpenAI Service

Azure Machine Learning

Bu aşamaya ulaştıktan sonra arama dizininizi oluşturdunuz ve hangi aramaları yapmak istediğinizi belirlediniz. Bu aşama, büyük dil modeline karşı alınan topraklama verilerini içeren beklenen kullanıcı istemlerini değerlendirme açısından Alma Artırılmış Nesil (RAG) çözümünüzü değerlendirme sürecini ele alır. Bu aşamaya ulaşmadan önce, test belgelerinizi ve sorgularınızı topladığınız, test belgelerinizi öbeklediğiniz, öbekleri zenginleştirdiğiniz, öbekleri eklediğiniz, bir arama dizini oluşturduğunuz ve bir arama stratejisi uyguladığınız hazırlık aşamasını tamamlamış olmanız gerekir. Bu aşamaların her birini değerlendirmiş olmanız ve sonuçlardan memnun olmanız gerekir. Bu noktada, çözümünüzün bir kullanıcı sorgusu için ilgili topraklama verilerini döndürdüğü konusunda rahat olmanız gerekir.

Bu temel oluşturma verileri, kullanıcının sorgusunu ele almak için büyük dil modeline gönderdiğiniz istem için bağlamı oluşturur. İstem mühendisliği stratejileri bu makalenin kapsamı dışındadır. Bu makalede, temel alma verileri açısından büyük dil modeline yönelik tasarlanmış çağrının değerlendirilmesi ele alınıyor. Bu makale, bazı yaygın büyük dil modeli değerlendirme ölçümlerini ve büyük dil modeli değerlendirme hesaplamalarında veya tek başına ölçümler olarak kullanılabilecek belirli benzerlik ve değerlendirme ölçümlerini kapsar.

Bu makale, büyük dil modeli ölçümlerinin veya benzerlik ve değerlendirme ölçümlerinin kapsamlı bir listesini sağlamaya çalışmaz. Bu ölçümlerin sayısı her geçen gün artıyor. Bu makaleden çıkarmanız gereken önemli olan, her biri ayrı kullanım örneğine sahip olan çeşitli ölçümler olmasıdır. İş yükünüzü bütünsel olarak anlayan tek kişi sizsiniz. Siz ve veri bilimciler, neyi ölçmek istediğinizi ve bu görevi gerçekleştirmenize yardımcı olacak ölçümleri belirlemeniz gerekir.

Bu makale, bir serinin bir parçasıdır. Tanıtımı okuyun.

Büyük dil modeli değerlendirme ölçümleri

Temellilik, eksiksizlik, kullanım ve ilgililik gibi büyük dil modelinin yanıtını değerlendirmek için kullanabileceğiniz çeşitli ölçümler vardır.

Önemli

Büyük dil modeli yanıtları belirleyici değildir, yani büyük bir dil modeline yönelik aynı istem farklı sonuçlar döndürebilir ve döndürebilir. Bu, değerlendirme sürecinizin bir parçası olarak büyük bir dil modeli kullanırken anlamanız önemlidir. Büyük bir dil modeli kullanarak değerlendirirken tek bir hedef üzerinde hedef aralığı kullanmayı göz önünde bulundurun.

Topraklanmışlık

Bazen sadakat olarak da adlandırılan topraklılık, yanıtın tamamen bağlama dayalı olup olmadığını ölçer. Yanıtın bağlamda var olandan başka bilgiler kullanmadığını doğrular. Düşük topraklama ölçümü, büyük dil modelinin halüsinasyon olarak bilinen hayali veya duyarsız bir bölgeye kayabileceğini gösterir.

Hesaplama

Azure AI content Kasa ty Service (AACS) tabanlı temel alma özelliği, taleplerin (bu örnekte öbekler) bir kaynak belge tarafından gerekip gerekmediğini belirlemek için Doğal Dil Çıkarımı (NLI) kullanan özel bir modeldir.
Büyük dil modeli tabanlı topraklama, yanıtın temel düzeyi belirlemek için büyük bir dil modeli kullanır.
Ragas sadakat kitaplığı
MLflow sadakat hesaplaması

Değerlendirmek

Topraklama düşükse, büyük dil modelinin öbekleri uygun olarak görmediğini gösterir. Kuruluşunuza veri eklemeniz, öbekleme stratejinizi veya öbek boyutunuzu ayarlamanız veya isteminizde ince ayar yapmanız gerekip gerekmediğini değerlendirmeniz gerekir.

Bütünlüğü

Tamlık, yanıtın sorgunun tüm bölümlerini yanıtlayıp yanıtlamadığını ölçer. Bu, bağlamdaki öbeklerin sorguyla ilgili ve doğrudan ilişkili olup olmadığını anlamanıza ve eksiksiz bir yanıt sağlamanıza yardımcı olur.

Hesaplama

Yapay zeka destekli: Alma Puanı istemi
Büyük bir dil modeli, büyük dil modeli yanıtının kalitesini ölçmenize yardımcı olabilir. Bunu yapmak için soruya, bağlama ve oluşturulan yanıta ihtiyacınız vardır. Aşağıda üst düzey işlem özetlenmiştir:
1. Soruyu yeniden ifade etmek, özetlemek veya basitleştirmek için büyük dil modelini kullanın. Bu, amacı tanımlar.
2. Modelden amacın veya amacın yanıtının bulunup bulunmadığını veya her belge için yanıtın "Hayır" veya "Evet" olabileceği alınan belgelerden türetilip türetilebileceğini denetlemesini isteyin. "Evet" ile başlayan yanıtlar, alınan belgelerin amaçla ilgili olduğunu veya amacın yanıtı olduğunu belirtir.
3. Yanıtı "Evet" ile başlayan amaçların oranını hesaplayın.
4. Hataları vurgulamak için puanın karesini belirleyin.

Değerlendirmek

Tamlık düşükse ekleme modelinizi değerlendirerek başlayın. İçeriğinizdeki kelime dağarcığını seçtiğiniz ekleme modelindeki sözcük dağarcığıyla karşılaştırın. Etki alanına özgü bir ekleme modeline mi ihtiyacınız olduğunu yoksa var olan bir modele ince ayar mı yapmanız gerektiğini belirleyin. Sonraki adım olarak öbekleme stratejinizi değerlendirin. Sabit uzunluk kullanıyorsanız öbek boyutunuzu artırmayı göz önünde bulundurun. Ayrıca test verilerinizin soruyu tamamen ele almak için yeterli veriye sahip olup olmadığını da değerlendirebilirsiniz.

Kullanım

Kullanım, yanıtın bağlam içindeki öbeklerden alınan bilgilerden ne ölçüde oluşturulduğuna ilişkin ölçüler. Amaç, her öbeklerin yanıtın parçası olduğu kapsamı belirlemektir. Kullanım düşükse bu, sonuçlarımızın sorguyla ilgili olmayabileceğini gösterir. Kullanım, yan tümlükle birlikte değerlendirilmelidir.

Hesaplama

Kullanımı hesaplamak için büyük bir dil modeli kullanabilirsiniz. Yanıtı ve öbekleri içeren bağlamı büyük dil modeline geçirebilirsiniz. Büyük dil modelinden yanıtı gerektiren öbek sayısını belirlemesini isteyebilirsiniz.

Değerlendirmek

Aşağıdaki tabloda, hem eksiksizlik hem de kullanım birlikte ele alınarak rehberlik sağlanmaktadır.

	Yüksek kullanım	Düşük kullanım
Yüksek eksiksizlik	Eyleme gerek yok	Bu durumda, döndürülen veriler soruyu ele alabiliyor, ancak ilgisiz öbekler döndürüldü. Daha olası/belirlenebilir sonuçlar elde etmek için üst k parametre değerini azaltmayı göz önünde bulundurun.
Düşük eksiksizlik	Bu durumda, sağladığınız öbekler kullanılır, ancak soruyu tam olarak ele almaz. Aşağıdaki topluluklara bir göz atın: Öbekler içindeki bağlamı artırmak için öbekleme stratejinizi gözden geçirin Top-k parametre değerini artırarak öbek sayısını artırın Tamlığı artırabilecek döndürülmemiş öbekleriniz olup olmadığını değerlendirin. Bu durumda, neden geri döndürülmediklerini araştırın. Tamlık bölümündeki yönergeleri izleyin	Bu durumda, soruyu tam olarak yanıtlamazsınız ve sağladığınız öbekler iyi kullanılmıyor. Bu sorunları gidermek için aşağıdakileri göz önünde bulundurun: Öbekler içindeki bağlamı artırmak için öbekleme stratejinizi gözden geçirin. Sabit boyutlu öbek kullanıyorsanız öbek boyutlarını artırmayı göz önünde bulundurun. Yanıtları geliştirmek için istemlerinizi ayarlama

İlgi

Büyük dil modelinin yanıtının sorguyla ne ölçüde ilişkili olduğunu ölçer.

Hesaplama

Yapay zeka destekli: Azure AI Studio'da ilgi - Hesaplamaları yapmak için Azure AI Studio'yu kullanabilir veya bu makaledeki kılavuzu kullanarak ilginizi hesaplayabilirsiniz.
Ragas yanıt ilgisi kitaplığı
MLflow ilgi hesaplaması

Değerlendirmek

İlgi düzeyi düşük olduğunda aşağıdakileri değerlendirin:

Büyük dil modeline sağlanan öbeklerin uygun olduğundan emin olun.
- Döndürülmeyen uygun öbekler olup olmadığını belirleyin. Varsa, ekleme modelinizi değerlendirin.
- Uygun öbekler yoksa ilgili verilerin mevcut olup olmadığına bakın. Varsa öbekleme stratejinizi değerlendirin.
İlgili öbekler döndürüldüyse, isteminizi değerlendirin.

Bütünlük gibi diğer değerlendirme yöntemleri hesaplanmalı ve ilgi ölçüsünde gözlemlenenlere benzer puanlar vermelidir.

Benzerlik ve değerlendirme ölçümleri

Giriş bölümünde belirtildiği gibi, veri biliminde kullanılan yüzlerce benzerlik ve değerlendirme ölçümü vardır. Bazı algoritmalar, konuşmayı metne dönüştürme veya dilden dile çeviri gibi bir etki alanına özeldir. Her algoritmanın ölçümünü hesaplamak için benzersiz bir stratejisi vardır.

Veri bilimcisi, neyi ölçmek istediğinizi ve bunu ölçmek için hangi ölçümleri veya ölçümleri kullanabileceğinizi belirler. Örneğin, dil çevirisi alanında Bleu ölçümü, aynı sözcükleri kullanarak benzerlikleri ölçmek için hem makine çevirisinde hem de insan çevirisinde kaç n gram göründüğünü denetler. Kosinüs benzerliği, anlamsal benzerliği ölçmek için makine ile insan çevirileri arasındaki eklemeleri kullanır. Amacınız yüksek anlamsal benzerliğe sahip olmak ve insan çevirisine benzer sözcükler kullanmak olsaydı, hedefiniz yüksek kosinüs benzerliğine sahip yüksek bir Bleu puanı olurdu. Yalnızca semantik benzerlikle ilgilendiyseniz kosinüs benzerliğine odaklanırsınız.

Aşağıdaki listede ortak benzerlik ve değerlendirme ölçümlerinin küçük bir örneği yer alır. Listelenen benzerlik ölçümlerinin belirteç tabanlı, sıra tabanlı veya düzenleme tabanlı olarak tanımlandığına dikkat edin ve benzerlik hesaplamada çok farklı yaklaşımları nasıl kullandıklarını gösterir. Ayrıca, listede bir dilden diğerine metin çevirisinin kalitesini değerlendirmek için üç algoritma bulunduğunu da unutmayın.

En uzun ortak alt dize - İki dize arasındaki en uzun ortak alt dizeyi bulan sıra tabanlı algoritma. En uzun ortak alt dize yüzdesi en uzun ortak alt dizeyi alır ve bunu daha küçük veya daha büyük giriş dizesinin karakter sayısına böler.
En uzun ortak alt sorgu (LCS) - İki dize arasındaki en uzun alt diziyi bulan sıra tabanlı algoritma. LCS, alt sorguların ardışık sırada olmasını gerektirmez.
Kosinüs benzerliği - İki vektör arasındaki açının kosinüsünü hesaplayan belirteç tabanlı algoritma.
Jaro Winkler - Bir dizeyi başka bir dizeye dönüştürmek için en az sayıda adımı sayan tabanlı algoritmayı düzenleyin.
Hamming - Bir dizeyi başka bir dizeye dönüştürmek için gereken en az değiştirme sayısını ölçen tabanlı algoritmayı düzenleyin.
Jaccard - İki dizenin kesişimini bu dizelerin birleşimine bölerek benzerliği hesaplayan belirteç tabanlı algoritma.
Levenshtein - Bir dizeyi diğerine dönüştürmek için gereken en az tek karakterli düzenleme sayısını belirleyerek benzerliği hesaplayan düzenleme tabanlı algoritma.
BLEU - Bir dilden diğerine makine çevirisinin sonucu olan metnin kalitesini değerlendirir. Bleu, bu değerlendirmeyi yapmak için makine çevirisi ile insan kalitesi çevirisi arasındaki n gram çakışmasını hesaplar.
ROUGE - Bir dilin makine çevirisini başka bir dille insan tarafından oluşturulan bir çeviriyle karşılaştırın. n-gram, skip-bigrams veya en uzun ortak alt dizi çakışmasını kullanan birkaç ROUGE değişkeni vardır.
METEOR - Tam eşleşmelere, köklendirmeden sonra eşleşmelere, eş anlamlılara, ifadelere ve hizalamaya bakarak makine çevirisinin sonucu olan metnin kalitesini değerlendirir.

Yaygın benzerlik ve değerlendirme ölçümleri için aşağıdaki kaynaklara bakın:

Belgeler, raporlama ve toplama

Hiper parametrelerin sonuçlarınız üzerindeki etkisini anlamak için hem deneme için seçtiğiniz hiper parametreleri hem de sonuçta elde edilen değerlendirme ölçümlerini belgelemeniz gerekir. Hiper parametreleri ve sonuçları ekleme veya arama değerlendirmesi gibi ayrıntılı düzeylerde ve sistemin tamamını uçtan uca test etme gibi makro düzeyinde belgelemeniz gerekir.

Tasarım ve geliştirme sırasında hiper parametreleri ve sonuçları el ile izleyebilirsiniz. Ancak, tüm test belgenizde ve test sorgusu corpus'unuzda birden çok değerlendirme gerçekleştirirken yüzlerce değerlendirme çalıştırması ve binlerce sonuç içerebilir. Değerlendirmeleriniz için parametrelerin ve sonuçların kalıcılığını otomatikleştirmeniz gerekir.

Hiper parametreleriniz ve sonuçlarınız kalıcı olduktan sonra, hiper parametre seçimlerinin ölçümler üzerindeki etkilerini daha kolay görselleştirmenize olanak sağlamak için grafikler ve grafikler oluşturmayı düşünmelisiniz. Bu, performans düşüşlerine veya ani artışlara neden olan seçenekleri belirlemenize yardımcı olur.

RAG çözümünüzü tasarlamanın ve değerlendirmenin tek seferlik bir işlem olmadığını anlamanız önemlidir. Belgeleriniz zaman içinde değişecektir. Müşterilerinizin sorduğu sorular zaman içinde değişecek ve üretimden öğrendikleriniz boyunca soru türlerini anlamanız gelişecektir. Bu işlemi tekrar tekrar ziyaret etmelisiniz. Geçmiş değerlendirmelerin belgelerinin korunması, gelecekteki tasarım ve değerlendirme çalışmaları için kritik öneme sahiptir.

RAG Deneme Hızlandırıcısı

Bu makaleler, RAG çözümünü tasarlama ve değerlendirme sürecindeki tüm aşamalarda ve tasarım seçimlerinde size yol gösterir. Makaleler, bunu nasıl yapacağınıza değil, yapmanız gerekenlere odaklanır. Microsoft'un en iyi müşterileri ile çalışan bir mühendislik ekibi RAG Deneme Hızlandırıcısı adlı bir araç geliştirmiştir. RAG Deneme Hızlandırıcısı, Alma Artırılmış Nesil (RAG) çözümlerinin geliştirilmesini iyileştirmek ve iyileştirmek için tasarlanmış son model bir deneme çerçevesidir. RAG Deneme Hızlandırıcısı, araştırmacıların ve geliştiricilerin RAG performansını yönlendiren kritik bileşenleri verimli bir şekilde keşfetmelerine ve hassas ayarlamalarına olanak sağlar ve sonuç olarak daha doğru ve tutarlı metin üretimine yol açar.

CLI tabanlı arabirimiyle çeşitli ekleme modellerini zahmetsizce deneyebilir, öbekleme stratejilerini geliştirebilir ve RAG sisteminizin tüm potansiyelini ortaya çıkarabilmek için farklı arama yaklaşımlarını değerlendirebilirsiniz. Basit yapılandırmayı kullanarak hiper parametre ayarlamanın karmaşıklıklarını soyutlarken RAG geliştirmenin temel yönlerine odaklanmanızı sağlar.

Ayrıca çerçeve, büyük dil modeli yapılandırması için kapsamlı destek sağlayarak model karmaşıklığı ve üretim kalitesi arasında mükemmel dengeyi sağlamanıza olanak tanır. Bu araç deneme sürecini kolaylaştırmanızı, değerli zaman kazanmanızı ve RAG modellerinizin performansını önemli ölçüde geliştirmenizi sağlar.

İster doğal dil anlama sınırlarını zorlayan deneyimli bir araştırmacı ister metin oluşturma özelliklerini geliştirmek isteyen bir sektör uzmanı olun, bu deneme çerçevesi RAG geliştirme yolculuğunuzu hızlandırmak için nihai çözümdür. Bu son teknoloji araçla RAG denemelerinin geleceğini benimseyin ve modellerinizin gerçek potansiyelini ortaya çıkarın.

Katkıda Bulunanlar

Sonraki adımlar

Bez hızlandırıcı

Azure AI Studio'da değerlendirme akışı geliştirme

Aracılığıyla paylaş

LLM uçtan uca değerlendirme

Büyük dil modeli değerlendirme ölçümleri

Topraklanmışlık

Bütünlüğü

Kullanım

İlgi

Benzerlik ve değerlendirme ölçümleri

Belgeler, raporlama ve toplama

RAG Deneme Hızlandırıcısı

Katkıda Bulunanlar

Sonraki adımlar

Geri Bildirim

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

LLM uçtan uca değerlendirme

Büyük dil modeli değerlendirme ölçümleri

Topraklanmışlık

Bütünlüğü

Kullanım

İlgi

Benzerlik ve değerlendirme ölçümleri

Belgeler, raporlama ve toplama

RAG Deneme Hızlandırıcısı

Katkıda Bulunanlar

Sonraki adımlar

İlgili kaynaklar

Geri Bildirim

Geri Bildirim

Ek kaynaklar