Microsoft Foundry portalında model puan tabloları (önizleme) (klasik)

Uyarı

Bu belge , Microsoft Foundry (klasik) portalını ifade eder.

🔍Yeni portal hakkında bilgi edinmek için Microsoft Foundry (yeni) belgelerini görüntüleyin.

Önemli

Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.

Microsoft Foundry portalındaki model puan tabloları (önizleme), endüstri standardı karşılaştırmaları kullanarak Foundry model kataloğundaki modelleri karşılaştırmanıza yardımcı olur. Model kataloğunun model puan tabloları bölümünden, kullanılabilir modelleri karşılaştırmak için puan tablolarına göz atabilirsiniz :

Tek bir ölçümde (kalite, güvenlik, maliyet veya aktarım hızı) önde gelen modelleri belirlemek için kalite, güvenlik, maliyet ve performans puan tabloları
İki ölçüt, örneğin kalite ve maliyet, arasında performansı karşılaştırmak için ödünleşim grafikleri
Belirli kullanım örneklerine uygun modelleri bulmak için senaryoya göre puan tabloları

Uygun bir model bulduğunuzda ayrıntılı karşılaştırma sonuçlarını model kataloğunda açabilirsiniz. Buradan modeli dağıtabilir, oyun alanında deneyebilir veya kendi verilerinizle değerlendirebilirsiniz. Puan tabloları, metin dili modelleri (büyük dil modelleri (LLM'ler) ve küçük dil modelleri (SLM'ler) dahil) ve ekleme modelleri için karşılaştırmayı destekler.

Model karşılaştırmaları kalite, güvenlik, maliyet ve aktarım hızı genelinde LLM'leri ve SLM'leri değerlendirir. Ekleme modelleri standart kalite karşılaştırmaları kullanılarak değerlendirilir. Yeni modeller ve karşılaştırma veri kümeleri kullanıma sunuldukçe puan tabloları güncelleştirilir.

Model karşılaştırma kapsamı

Model puan tabloları, Foundry model kataloğundan seçilen metin tabanlı dil modellerini içerir. Modeller aşağıdaki ölçütlere göre dahil edilir:

Azure Doğrudan Modelleri önceliklendirildi: Azure Doğrudan Modelleri, yaygın olarak oluşturulan yapay zeka senaryolarıyla ilgili olarak seçilir.
Temel karşılaştırma uygulanabilirliği: Modeller, akıl yürütme, bilgi, soru yanıtlama, matematiksel mantık ve kodlama gibi genel amaçlı dil görevlerini desteklemelidir. Özel modeller (örneğin, protein katlama veya etki alanına özgü QA) ve diğer modaliteler desteklenmez.

Bu kapsam belirleme, puan tablolarının temel yapay zeka senaryolarıyla ilgili geçerli ve yüksek kaliteli modelleri yansıtmasını sağlar.

Puan tablosu sonuçlarını yorumlama

Puan tabloları, kullanım örneğiniz için doğru modeli seçebilmeniz için modelleri birden çok boyutta karşılaştırmanıza yardımcı olur. Sonuçları yorumlamaya yönelik bazı yönergeler şunlardır:

Kalite dizini: Yüksek kalite dizini, akıl yürütme, kodlama, matematik ve bilgi görevleri arasında genel performansın daha güçlü olduğunu gösterir. Genel amaçlı dil görevleri için en iyi performans gösterenleri belirlemek için modellerdeki kalite dizinini karşılaştırın.
Güvenlik puanları: Saldırı başarı oranlarının daha düşük olması daha güçlü modelleri gösterir. Özellikle zararlı çıkışın önemli bir sorun olduğu müşterilere yönelik uygulamalar için kalite puanlarının yanı sıra güvenlik puanlarını da göz önünde bulundurun.
Performans dengeleri: Modelin gerçek dünyadaki yanıt hızını anlamak için gecikme süresi ve aktarım hızı ölçümlerini kullanın. Yüksek kaliteli ancak yüksek gecikme süresine sahip bir model gerçek zamanlı uygulamalara uygun olmayabilir.
Maliyetle ilgili dikkat edilmesi gerekenler: Tahmini maliyet ölçümü üçe bir giriş-çıkış belirteci oranını kullanır. Gerçek iş yükünüzün giriş-çıkış oranına göre beklentilerinizi ayarlayın.
Senaryo puan tabloları: Kullanım örneğiniz belirli bir senaryoyla eşleniyorsa (örneğin, kodlama veya matematik), yalnızca genel kalite dizinine güvenmek yerine söz konusu görev için en iyi duruma getirilmiş modelleri bulmak için senaryo puan tablosuyla başlayın.

Tavsiye

Puan tablosu karşılaştırmaları, genel veri kümelerini kullanan modeller arasında standartlaştırılmış karşılaştırmalar sağlar. Belirli verileriniz ve kullanım örneğinizdeki model performansını değerlendirmek için bkz. Üretken yapay zeka uygulamalarınızı değerlendirme.

Dil modellerinin kalite karşılaştırmaları

Dökümhane, akıl yürütme, bilgi, soru yanıtlama, matematik ve kodlama özelliklerini ölçen standart karşılaştırma veri kümelerinden alınan doğruluk puanlarını kullanarak LLM'lerin ve SLM'lerin kalitesini değerlendirir.

Index	Description
Kalite indeksi	Karşılaştırma veri kümelerinde geçerli doğruluk puanlarının (`exact_match`, `pass@1`, `arena_hard`) ortalaması kullanılarak hesaplanır.

Kalite dizini değerleri sıfırdan bire kadar değişir ve burada yüksek değerler daha iyi performans gösterir. Kalite dizinine dahil edilen veri kümeleri şunlardır:

Veri Kümesi Adı	Kategori
arena_hard	Kalite Güvencesi
bigbench_hard (1.000 örneğe düşürülmüş)	Mantık yürütme
gpqa	Kalite Güvencesi
humanevalplus	Coding
ifeval	Mantık yürütme
matematik	Matematik
mbppplus	Coding
mmlu_pro (1.000 örneğe küçültüldü)	Genel bilgi

Doğruluk puanlarında daha fazla ayrıntıya bakın:

Ölçü birimi Description

Doğruluk Doğruluk puanları veri kümesinde ve model düzeylerinde kullanılabilir. Veri kümesi düzeyinde puan, veri kümesindeki tüm örnekler üzerinde hesaplanan doğruluk ölçümünün ortalama değeridir. Kullanılan doğruluk ölçümü, bir exact_match ölçümü kullanan HumanEval ve MBPP veri kümeleri dışında her durumda geçerlidirpass@1. Tam eşleşme, model tarafından oluşturulan metni veri kümesine göre doğru yanıtla karşılaştırır. Oluşturulan metin yanıtla tam olarak eşleşiyorsa bir değerini raporlar, aksi halde sıfır değerini rapor eder. Ölçüm, pass@1 bir kod oluşturma görevinde birim testleri kümesini geçiren model çözümlerinin oranını ölçer. Model düzeyinde doğruluk puanı, her model için veri kümesi düzeyindeki doğrulukların ortalamasıdır.

Ölçü birimi	Description
Doğruluk	Doğruluk puanları veri kümesinde ve model düzeylerinde kullanılabilir. Veri kümesi düzeyinde puan, veri kümesindeki tüm örnekler üzerinde hesaplanan doğruluk ölçümünün ortalama değeridir. Kullanılan doğruluk ölçümü, bir `exact_match` ölçümü kullanan HumanEval ve MBPP veri kümeleri dışında her durumda geçerlidir`pass@1`. Tam eşleşme, model tarafından oluşturulan metni veri kümesine göre doğru yanıtla karşılaştırır. Oluşturulan metin yanıtla tam olarak eşleşiyorsa bir değerini raporlar, aksi halde sıfır değerini rapor eder. Ölçüm, `pass@1` bir kod oluşturma görevinde birim testleri kümesini geçiren model çözümlerinin oranını ölçer. Model düzeyinde doğruluk puanı, her model için veri kümesi düzeyindeki doğrulukların ortalamasıdır.

Doğruluk puanları, daha yüksek değerlerin daha iyi olduğu sıfırdan bire kadar değişir.

Dil modellerinin güvenlik karşılaştırmaları

Güvenlik karşılaştırmaları, hem ilgi hem de titizlik sağlamak için tasarlanmış yapılandırılmış bir filtreleme ve doğrulama işlemiyle seçilir. Yüksek öncelikli riskleri ele alan bir kıyaslama, eklemeye uygun olur. Güvenlik puan tabloları, güvenlikle ilgili olarak ilgilenilen konularda anlamlı sinyaller sağlayacak kadar güvenilir karşılaştırmalar içerir. Puan tabloları, model güvenliğini temsil etmek için HarmBench kullanır ve senaryo tabanlı puan tablolarını aşağıdaki gibi düzenler:

Veri Kümesi Adı	Lider Tablosu Senaryosu	Ölçü birimi	Yorumlama
HarmBench (standart)	Standart zararlı davranışlar	Saldırı Başarı Oranı	Düşük değerler, standart zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir
HarmBench (bağlamsal)	Bağlamsal olarak zararlı davranışlar	Saldırı Başarı Oranı	Düşük değerler, bağlamsal olarak zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir
HarmBench (telif hakkı ihlalleri)	Telif hakkı ihlalleri	Saldırı Başarı Oranı	Düşük değerler telif hakkı ihlallerine karşı daha güçlü bir sağlamlığa işaret eder
WMDP	Hassas etki alanlarında bilgi	Doğruluk	Daha yüksek değerler hassas etki alanlarında daha fazla bilgi olduğunu gösterir
Toxigen	Toksik içerik algılama	F1 Puanı	Daha yüksek değerler daha iyi algılama performansını gösterir

Zararlı davranış algılama

HarmBench karşılaştırması, güvenli olmayan yanıtlar almak için tasarlanmış istemleri kullanarak zararlı davranışları ölçer. Yedi semantik kategoriyi kapsar:

Siber suç ve yetkisiz izinsiz giriş
Kimyasal ve biyolojik silahlar veya ilaçlar
Telif hakkı ihlalleri
Yanlış bilgi ve dezenformasyon
Taciz ve zorbalık
Yasa dışı etkinlikler
Genel zarar

Bu kategoriler üç işlevsel alanda gruplandırılır:

Standart zararlı davranışlar
Bağlamsal olarak zararlı davranışlar
Telif hakkı ihlalleri

Her işlevsel kategori ayrı bir senaryo puan tablosunda yer alır. Değerlendirme, Saldırı Başarı Oranını (ASR) hesaplamak için herhangi bir saldırı olmadan HarmBench'ten ve HarmBench değerlendiricilerinden doğrudan istemler kullanır. Daha düşük ASR değerleri daha güvenli modeller anlamına gelir. Değerlendirme için herhangi bir saldırı stratejisi kullanılmaz ve Foundry Guardrails (önceki içerik filtreleri) kapalıyken model karşılaştırması gerçekleştirilir.

Toksik içerik algılama

Toxigen , saldırgan ve örtük nefret konuşmasını algılamaya yönelik büyük ölçekli bir veri kümesidir. 13 azınlık grubunu ifade eden örtük olarak toksik ve zararsız cümleler içeriyor. Foundry açıklamalı Toxigen örnekleri kullanır ve sınıflandırma performansını ölçmek için F1 puanlarını hesaplar. Daha yüksek puanlar daha iyi toksik içerik algılamayı gösterir. Karşılaştırma, Foundry Guardrails (önceki içerik filtreleri) kapalıyken gerçekleştirilir.

Hassas etki alanı bilgisi

Kitle İmha Silahları Vekili (WMDP) karşılaştırması biyogüvenlik, siber güvenlik ve kimyasal güvenlik gibi hassas alanlardaki model bilgisini ölçer. Puan tablosu siber güvenlik, biyogüvenlik ve kimyasal güvenlik genelinde ortalama doğruluk puanlarını kullanır. Daha yüksek bir WMDP doğruluk puanı, tehlikeli özellikler hakkında daha fazla bilgi (güvenlik açısından daha kötü davranış) belirtir. Model karşılaştırması, varsayılan Foundry Guardrails (önceki içerik filtreleri) açıkken gerçekleştirilir. Bu korumalar şiddet, kendine zarar verme, cinsel, nefret ve adaletsizlikte içerik zararlarını algılar ve engeller, ancak siber güvenlik, biyogüvenlik ve kimyasal güvenlik kategorilerini hedeflemez.

Güvenlik karşılaştırmalarının sınırlamaları

Güvenlik, çeşitli boyutları olan karmaşık bir konudur. Hiçbir tek bir açık kaynak karşılaştırması, tüm senaryolarda bir sistemin tam güvenliğini test edemez veya temsil edemez. Buna ek olarak, birçok kıyaslama, karşılaştırma tasarımı ve risk tanımı arasında doygunluk veya yanlış hizalamadan muzdariptir. Bazı kıyaslamalar, hedeflerin risklerinin kavramsallaştırılıp operasyonel hale getirildiğine ilişkin net belgelere de sahip değildir ve bu da sonuçların gerçek dünya risklerinin nüanslarını doğru bir şekilde yakalayıp yakalamadığını değerlendirmeyi zorlaştırıyor. Bu sınırlamalar, gerçek dünya güvenlik senaryolarında model performansını fazla tahmin etmeye veya düşük tahmine neden olabilir.

Dil modellerinin performans karşılaştırmaları

Performans ölçümleri günde 24 deneme kullanılarak 14 gün boyunca toplanır ve deneme başına bir saatlik aralıklarla iki istek gönderilir. Aksi belirtilmediği sürece, aşağıdaki varsayılan parametreler hem sunucusuz API dağıtımları hem de Azure OpenAI için geçerlidir:

Parametre	Değer	Geçerli
Bölge	Doğu ABD/Doğu ABD2	sunucusuz API dağıtımları ve Azure OpenAI
Dakika başına token (TPM) sınırı	Muhakeme gerektirmeyen modeller için 30 bin (Azure OpenAI tabanlı 180 RPM) ve muhakeme modelleri için 100 bin Yok (sunucusuz API dağıtımları)	Azure OpenAI modellerinde, dağıtım türüne (sunucusuz API, genel, genel standart vb.) göre hız sınırı aralıkları olan kullanıcılar için seçim kullanılabilir. Sunucusuz API dağıtımları için bu ayar soyutlanır.
İstek sayısı	Bir deneme sürümünde her saat için iki istek (günde 24 deneme)	sunucusuz API dağıtımları, Azure OpenAI
Deneme/çalıştırma sayısı	14 gün boyunca, günde 24 test denemesi ile 336 çalıştırma.	sunucusuz API dağıtımları, Azure OpenAI
İstem/Bağlam uzunluğu	Orta uzunlukta	sunucusuz API dağıtımları, Azure OpenAI
İşlenen belirteç sayısı (orta düzeyde)	80:20 giriş çıkış belirteçleri için oran, yani 800 giriş belirteci ile 200 çıkış belirteci.	sunucusuz API dağıtımları, Azure OpenAI
Eşzamanlı istek sayısı	Biri (istekler ardışık olarak gönderilir)	sunucusuz API dağıtımları, Azure OpenAI
Veri	Yapay (statik metinden hazırlanan giriş istemleri)	sunucusuz API dağıtımları, Azure OpenAI
Dağıtım türü	sunucusuz API	Yalnızca Azure OpenAI için geçerlidir
Yayın	Doğru	Sunucusuz API dağıtımları ve Azure OpenAI için geçerlidir. Yönetilen işlem aracılığıyla dağıtılan modellerde veya akış desteklenmediğinde uç noktalar için TTFT, P50 gecikme süresi ölçümü olarak temsil edilir.
SKU	Standard_NC24ads_A100_v4 (24 çekirdek, 220 GB RAM, 64 GB depolama)	Yalnızca Yönetilen İşlem için geçerlidir (maliyet ve performans ölçümlerini tahmin etmek için)

LLM'lerin ve SLM'lerin performansı aşağıdaki ölçümlerde değerlendirilir:

Ölçü birimi	Description
Gecikme süresi ortalaması	Birden çok istek üzerinden hesaplanan bir isteği işlemek için saniye olarak ortalama süre. uç noktaya iki hafta boyunca saatte bir istek gönderilir ve ortalama hesaplanır.
Gecikme Süresi P50	Ortanca (50. yüzdebirlik) gecikme süresi. 50% istek bu süre içinde tamamlandı.
Gecikme Süresi P90	90. yüzdebirlik gecikme süresi. İsteklerin 90% bu süre içinde tamamlandı.
Gecikme Süresi P95	95. yüzdebirlik gecikme süresi. İsteklerin 95% bu süre içinde tamamlandı.
Gecikme Süresi P99	99. yüzdebirlik gecikme süresi. İsteklerin 99% bu süre içinde tamamlandı.
Aktarım hızı GTPS	Saniye başına oluşturulan belirteçler (GTPS), isteğin uç noktaya gönderildiği zamandan saniye başına oluşturulan çıkış belirteçlerinin sayısıdır.
Aktarım Hızı TTPS	Saniye başına toplam belirteç sayısı (TTPS), hem giriş isteminden hem de oluşturulan çıkış belirteçleri dahil olmak üzere saniyede işlenen toplam belirteç sayısıdır. Akışı desteklemeyen modeller için, ilk belirtece ulaşma süresi (ttft), yanıtın alınması için geçen sürenin P50 gecikme metriği değerini temsil eder.
Gecikme Süresi TTFT	İlk belirtece kadar toplam süre (TTFT), akış etkinleştirildiğinde yanıttaki ilk belirtecin uç noktadan geri döndürülmesi için geçen süredir.
Jetonlar arasındaki süre	Bu ölçüm, alınan belirteçler arasındaki zaman dilimidir.

Dökümhane, aşağıdakileri kullanarak performansı özetler:

Ölçü birimi	Description
Gecikme	İlk belirtece kadar geçen ortalama süre. Daha düşük daha iyidir.
Throughput	Saniye başına ortalama oluşturulan belirteç sayısı. Daha yüksek daha iyidir.

Gecikme süresi veya aktarım hızı gibi performans ölçümleri için ilk belirtecin zamanı ve saniye başına oluşturulan belirteçler, modelin tipik performansı ve davranışı hakkında genel olarak daha iyi bir fikir verir. Performans numaraları, en son dağıtım yapılandırmalarını yansıtacak şekilde düzenli aralıklarla yenilenir.

Dil modellerinin maliyet karşılaştırmaları

Maliyet hesaplamaları, Foundry platformunda barındırılan bir LLM veya SLM modeli uç noktasını kullanmaya yönelik tahminlerdir. Dökümhane sunucusuz API dağıtımlarının ve Azure OpenAI modellerinin maliyetinin görüntülenmesini destekler. Bu maliyetler değiştirilebilir olduğundan, maliyet hesaplamaları en son fiyatlandırmayı yansıtacak şekilde düzenli aralıklarla yenilenir.

LLM'lerin ve SLM'lerin maliyeti aşağıdaki ölçümlerde değerlendirilir:

Ölçü birimi	Description
Giriş belirteçleri başına maliyet	1 milyon giriş belirteci için sunucusuz API dağıtımı maliyeti
Çıkış belirteçleri başına maliyet	1 milyon çıkış belirteci için sunucusuz API dağıtımı maliyeti
Tahmini maliyet	3:1 oranında giriş belirteçleri başına maliyet ve çıkış belirteçleri başına maliyet toplamı için maliyet.

Dökümhane ayrıca maliyeti aşağıdaki gibi görüntüler:

Ölçü birimi	Description
Maliyet	1 milyon belirteç başına tahmini ABD doları maliyeti. Tahmini iş yükü, giriş ve çıkış belirteçleri arasındaki üçe bir oranını kullanır. Düşük değerler daha iyidir.

Senaryo puan tablosu karşılaştırması

Senaryo puan tabloları, karşılaştırma veri kümelerini ortak gerçek dünya değerlendirme hedeflerine göre gruplandırarak bir modelin güçlü ve zayıf yönlerini kullanım örneğine göre hızla belirleyebilmenizi sağlar. Her senaryo bir veya daha fazla genel karşılaştırma veri kümesini toplar.

Senaryo sütununda kullanım örneğinizi bulmak için aşağıdaki tabloyu kullanın, ardından ilişkili karşılaştırma veri kümelerini ve sonuçların neleri gösterdiğini gözden geçirin. Aşağıdaki tablo, kullanılabilir senaryo puan tablolarını ve bunların ilişkili veri kümelerini ve açıklamalarını özetler:

Scenario	Veri Setleri	Description
Standart zararlı davranış	HarmBench (standart)	Standart zararlı istemlerde saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama.
Bağlamsal olarak zararlı davranış	HarmBench (bağlamsal)	Bağlamsal zararlı istemlerde saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama.
Telif hakkı ihlalleri	HarmBench (telif hakkı)	Telif hakkı ihlali istemleri için saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama.
Hassas etki alanlarında bilgi	WMDP (biyogüvenlik, kimyasal güvenlik, siber güvenlik)	Üç hassas etki alanı alt kümesinde doğruluk. Daha yüksek doğruluk, hassas özellikler hakkında daha fazla bilgi olduğunu gösterir. Bkz . Hassas etki alanı bilgisi.
Toksisite algılama	ToxiGen (açıklamalı)	Toksik içerik algılama yeteneği için F1 puanı. Daha yüksek daha iyidir. Bkz . Toksik içerik algılama.
Mantık yürütme	BIG-Bench Sabit (1000 alt örnek)	Akıl yürütme özellikleri değerlendirmesi. Daha yüksek değerler daha iyidir.
Coding	BigCodeBench (yönerge), HumanEvalPlus, LiveBench (kodlama), MBPPPlus	Kodla ilgili görevlerde doğruluğu ölçer. Daha yüksek değerler daha iyidir.
Genel bilgi	MMLU-Pro (1K İngilizce alt örnek)	MMLU-Pro'nun, yalnızca İngilizceden oluşan 1.000 örneklik alt örneği.
Soru ve yanıt	Arena-Hard, GPQA (elmas)	Saldırgan insan tercihi QA (Arena-Hard) ve lisansüstü düzeyde çok disiplinli QA (GPQA elmas). Daha yüksek değerler daha iyidir.
Matematik	MATH (500 alt örnek)	Dil modellerinin matematiksel mantık özelliklerini ölçer. Daha yüksek değerler daha iyidir.
Groundedness	TruthfulQA (MC1)	Dil modellerinin çoktan seçmeli temellilik/ doğruluk değerlendirmesi. Daha yüksek değerler daha iyidir.

Ekleme modellerinin kalite karşılaştırmaları

Ekleme modellerinin kalite dizini, Bilgi Alma, Belge Kümelemesi ve Özetleme görevlerini hedefleyen kapsamlı bir sunucusuz API karşılaştırma veri kümesinin ortalama doğruluk puanları olarak tanımlanır.

Ölçü birimi	Description
Doğruluk	Doğruluk, işlenen toplam tahmin sayısı arasında doğru tahminlerin oranıdır.
F1 Puanı	F1 Skoru, kesinlik ve geri çağırmanın ağırlıklı ortalamasıdır; en iyi değer bir (mükemmel kesinlik ve geri çağırma), en kötü değer sıfırdır.
Ortalama kesinlik (MAP)	MAP, derecelendirme ve öneren sistemlerin kalitesini değerlendirir. Hem önerilen öğelerin ilgi düzeyini hem de sistemin en üste daha ilgili öğeler yerleştirme konusunda ne kadar iyi olduğunu ölçer. Değerler sıfırdan bire kadar değişebilir ve MAP ne kadar yüksek olursa sistem ilgili öğeleri o kadar yüksek bir listeye yerleştirebilir.
Normalleştirilmiş indirimli kümülatif kazanç (NDCG)	NDCG, makine öğrenmesi algoritmasının ilgi düzeyine göre öğeleri sıralama becerisini değerlendirir. Derecelendirmeleri, tüm ilgili öğelerin listenin en üstünde yer aldığı ideal bir sıralamayla karşılaştırır; burada k, derecelendirme kalitesini değerlendirirken listenin uzunluğudur. Bu karşılaştırmalarda, k=10, ölçümüyle `ndcg_at_10`gösterilir; yani ilk 10 öğe değerlendirilir.
Hassasiyet	Modelin belirli bir sınıfın örneklerini doğru tanımlama becerisini ölçen metrik hassasiyettir. Duyarlık, hedef sınıfı tahmin ederken makine öğrenmesi modelinin ne sıklıkta doğru olduğunu gösterir.
Spearman bağıntısı	Kosinüs benzerliğine dayalı Spearman bağıntısı, önce değişkenler arasındaki kosinüs benzerliğini hesaplayarak, sonra bu puanları derecelendirmek ve Spearman bağıntısını hesaplamak için dereceleri kullanarak hesaplanır.
V ölçüsü	V ölçüsü, kümelemenin kalitesini değerlendirmek için kullanılan bir ölçümdür. V ölçüsü homojenlik ve bütünlük harmonik ortalaması olarak hesaplanır ve anlamlı bir puan için ikisi arasında bir denge sağlar. Olası puanlar sıfır ile bir arasında yer alır ve bir puan, etiketlemenin mükemmel bir şekilde tamamlandığını gösterir.

Puanların hesaplanması

Bireysel puanlar

Karşılaştırma sonuçları, dil modeli değerlendirmesi için yaygın olarak kullanılan genel veri kümelerinden kaynaklanır. Çoğu durumda veriler, verilerin oluşturucuları veya küratörleri tarafından tutulan GitHub depolarında barındırılır. Döküm değerlendirme işlem hatları özgün kaynaklarından veri indirir, her örnek satırdan istemleri ayıklar, model yanıtları oluşturur ve ardından ilgili doğruluk ölçümlerini hesaplar.

Veri kümesini tanıtan makale ve sektör standartlarında belirtildiği gibi, komut oluşturma her veri kümesi için en iyi yöntemleri izler. Çoğu durumda, her istem çeşitli örnekler içerir, yani bu modeli görev için hazırlamak amacıyla eksiksiz soruların ve yanıtların birkaç örneği. Çekim sayısı veri kümesine göre değişir ve her veri kümesinin özgün yayınında belirtilen metodolojiyi izler. Değerlendirme işlem hatları, değerlendirmeden geri tutulan verilerin bir bölümünden soruları ve yanıtları örnekleme yoluyla sahneler yaratır.

Karşılaştırma sınırlamaları

Tüm karşılaştırmalar, sonuçları yorumlarken göz önünde bulundurmanız gereken doğal sınırlamalara sahiptir:

Kalite karşılaştırmaları: Modeller benzer veriler üzerinde eğitildikçe veya ayarlandıklarından kıyaslama veri kümeleri zaman içinde doygun hale gelebilir. Değerlendirme sonuçları, istem yapısına ve kullanılan az sayıda örneğin miktarına bağlı olarak da farklılık gösterebilir.
Performans karşılaştırmaları: Ölçümler, sabit giriş-çıkış belirteci oranına ve tek bölgeli dağıtımlara sahip yapay iş yükleri kullanılarak toplanır. Gerçek dünya performansı iş yükü desenlerine, eşzamanlılığa, bölgeye ve dağıtım yapılandırmasına göre farklılık gösterebilir.
Maliyet karşılaştırmaları: Maliyet tahminleri, üçe bir giriş-çıkış belirteci oranını ve ölçüm sırasında geçerli fiyatlandırmayı temel alır. Gerçek maliyetler iş yükünüze bağlıdır ve fiyatlandırma değişikliklerine tabidir.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-02-28