Microsoft Foundry portalında model puan tabloları (önizleme)

Önemli

Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmeyebilir veya kısıtlı özelliklere sahip olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Uygun Kullanım Koşulları.

Foundry portalındaki model puan tabloları (önizleme), endüstri standardı model karşılaştırmalarını kullanarak Foundry model kataloğundaki modelleri karşılaştırmanıza yardımcı olur.

Başlamak için Foundry portalındaki model puan tablosunu kullanarak modelleri karşılaştırın ve seçin .

Her puan tablosu kategorisi için ayrıntılı karşılaştırma metodolojisini gözden geçirebilirsiniz:

  • Modellerin akıl yürütme, bilgi, soru yanıtlama, matematik ve kodlama gibi temel görevlerde ne kadar iyi performans sergilediklerini anlamak için dil modellerinin kalite karşılaştırması.
  • Modellerin zararlı davranış üretmeye karşı ne kadar güvenli olduğunu anlamak için dil modellerinin güvenlik karşılaştırması.
  • Modellerin gecikme süresi ve aktarım hızı açısından performansını anlamak için dil modellerinin performans karşılaştırması.
  • Modelleri kullanmanın tahmini maliyetini anlamak için dil modellerinin maliyet karşılaştırması.
  • Özel kullanım örneğine veya senaryonuza en uygun modeli bulmanıza yardımcı olmak için dil modellerinin senaryo puan tablosu karşılaştırması.
  • Modellerin arama ve alma dahil olmak üzere ekleme tabanlı görevlerde ne kadar iyi performans sergilediklerini anlamak için ekleme modellerinin kalite karşılaştırması.

Uygun bir model bulduğunuzda ayrıntılı karşılaştırma sonuçlarını model kataloğunda açabilirsiniz. Buradan modeli dağıtabilir, oyun alanında deneyebilir veya kendi verilerinizle değerlendirebilirsiniz. Puan tabloları, metin dili modelleri (büyük dil modelleri (LLM'ler) ve küçük dil modelleri (SLM'ler) dahil) ve ekleme modelleri için karşılaştırmayı destekler.

Model karşılaştırmaları kalite, güvenlik, maliyet ve aktarım hızı genelinde LLM'leri ve SLM'leri değerlendirir. Ekleme modelleri standart kalite karşılaştırmaları kullanılarak değerlendirilir. Yeni modeller ve karşılaştırma veri kümeleri kullanıma sunuldukçe puan tabloları güncelleştirilir.

Model kıyaslama kapsamı

Model puan tabloları, Foundry model kataloğundan seçilen metin tabanlı dil modellerini içerir. Modeller aşağıdaki ölçütlere göre dahil edilir:

  • Azure Direct Models önceliklidir: Azure Direct Models, yaygın yapay zeka üretim senaryolarıyla ilgili oldukları için seçilir.
  • Temel karşılaştırma uygulanabilirliği: Modeller, akıl yürütme, bilgi, soru yanıtlama, matematiksel mantık ve kodlama gibi genel amaçlı dil görevlerini desteklemelidir. Özel modeller (örneğin, protein katlama veya etki alanına özgü QA) ve diğer modaliteler desteklenmez.

Bu kapsam belirleme, puan tablolarının temel yapay zeka senaryolarıyla ilgili geçerli ve yüksek kaliteli modelleri yansıtmasını sağlar.

Puan tablosu sonuçlarını yorumlama

Puan tabloları, kullanım örneğiniz için doğru modeli seçebilmeniz için modelleri birden çok boyutta karşılaştırmanıza yardımcı olur. Sonuçları yorumlamaya yönelik bazı yönergeler şunlardır:

  • Kalite dizini: Yüksek kalite dizini, akıl yürütme, kodlama, matematik ve bilgi görevleri arasında genel performansın daha güçlü olduğunu gösterir. Genel amaçlı dil görevleri için en iyi performans gösterenleri belirlemek için modellerdeki kalite dizinini karşılaştırın.
  • Güvenlik puanları: Saldırı başarı oranlarının daha düşük olması daha güçlü modelleri gösterir. Özellikle zararlı çıkışın önemli bir sorun olduğu müşterilere yönelik uygulamalar için kalite puanlarının yanı sıra güvenlik puanlarını da göz önünde bulundurun.
  • Performans dengeleri: Modelin gerçek dünyadaki yanıt hızını anlamak için gecikme süresi ve aktarım hızı ölçümlerini kullanın. Yüksek kaliteli ancak yüksek gecikme süresine sahip bir model gerçek zamanlı uygulamalara uygun olmayabilir.
  • Maliyetle ilgili dikkat edilmesi gerekenler: Tahmini maliyet ölçümü üçe bir giriş-çıkış belirteci oranını kullanır. Gerçek iş yükünüzün giriş-çıkış oranına göre beklentilerinizi ayarlayın.
  • Senaryo puan tabloları: Kullanım örneğiniz belirli bir senaryoyla eşleniyorsa (örneğin, kodlama veya matematik), yalnızca genel kalite dizinine güvenmek yerine söz konusu görev için en iyi duruma getirilmiş modelleri bulmak için senaryo puan tablosuyla başlayın.

Ipucu

Puan tablosu karşılaştırmaları, genel veri kümelerini kullanan modeller arasında standartlaştırılmış karşılaştırmalar sağlar. Belirli verileriniz ve kullanım örneğinizdeki model performansını değerlendirmek için bkz. Üretken yapay zeka uygulamalarınızı değerlendirme.

Dil modellerinin kalite karşılaştırmaları

Dökümhane, akıl yürütme, bilgi, soru yanıtlama, matematik ve kodlama özelliklerini ölçen standart karşılaştırma veri kümelerinden alınan doğruluk puanlarını kullanarak LLM'lerin ve SLM'lerin kalitesini değerlendirir.

Dizin Açıklama
Kalite endeksi Karşılaştırma veri kümelerinde geçerli doğruluk puanlarının (exact_match, pass@1, arena_hard) ortalaması kullanılarak hesaplanır.

Kalite dizini değerleri sıfırdan bire kadar değişir ve burada yüksek değerler daha iyi performans gösterir. Kalite dizinine dahil edilen veri kümeleri şunlardır:

Veri Kümesi Adı Kategori
bigbench_hard (1.000 örneğe küçültüldü) Akıl
chembench Kimya
öncü bilim Bilimsel mantık
gpqa Kalite Güvencesi
mbppplus Kodlama
mmlu_pro (1,000 örneğe düşürüldü) Genel bilgi
musr Akıl
tau2_telecom Etken ve araç çağrısı seçimi

Doğruluk puanlarında daha fazla ayrıntıya bakın:

Metrik Açıklama
Doğru -luk Doğruluk puanları veri kümesinde ve model düzeylerinde kullanılabilir. Veri kümesi düzeyinde puan, veri kümesindeki tüm örnekler üzerinde hesaplanan doğruluk ölçümünün ortalama değeridir. Kullanılan doğruluk ölçümü, bir exact_match ölçümü kullanan HumanEval ve MBPP veri kümeleri dışında her durumda geçerlidirpass@1. Tam eşleşme, model tarafından oluşturulan metni veri kümesine göre doğru yanıtla karşılaştırır; oluşturulan metin yanıtla tam olarak eşleşiyorsa bir olarak raporlar, aksi takdirde sıfır olarak raporlar. Ölçüm, pass@1 bir kod oluşturma görevinde birim testleri kümesini geçiren model çözümlerinin oranını ölçer. Model düzeyinde doğruluk puanı, her model için veri kümesi düzeyindeki doğrulukların ortalamasıdır.

Doğruluk puanları, daha yüksek değerlerin daha iyi olduğu sıfırdan bire kadar değişir.

Dil modellerinin güvenlik karşılaştırmaları

Güvenlik karşılaştırmaları, hem ilgi hem de titizlik sağlamak için tasarlanmış yapılandırılmış bir filtreleme ve doğrulama işlemiyle seçilir. Yüksek öncelikli riskleri ele alan bir kıyaslama, dahil etme sürecine hak kazanır. Güvenlik puan tabloları, güvenlikle ilgili olarak ilgilenilen konularda anlamlı sinyaller sağlayacak kadar güvenilir karşılaştırmalar içerir. Liderlik tabloları, modeli güvenliğini proxy olarak temsil etmek ve senaryo liderlik tablolarını aşağıdaki gibi düzenlemek için HarmBench kullanır:

Veri Kümesi Adı Liderlik Tablosu Senaryosu Metrik Yorumlama
HarmBench (standart) Standart zararlı davranışlar Saldırı Başarı Oranı Düşük değerler, standart zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir
HarmBench (bağlamsal) Bağlamsal olarak zararlı davranışlar Saldırı Başarı Oranı Düşük değerler, bağlamsal olarak zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir
HarmBench (telif hakkı ihlalleri) Telif hakkı ihlalleri Saldırı Başarı Oranı Düşük değerler telif hakkı ihlallerine karşı daha güçlü bir sağlamlığa işaret eder
WMDP Hassas etki alanlarında bilgi Doğru -luk Daha yüksek değerler hassas etki alanlarında daha fazla bilgi olduğunu gösterir
Toxigen Toksik içerik algılama F1 Puanı Daha yüksek değerler daha iyi algılama performansını gösterir

Zararlı davranış algılama

HarmBench karşılaştırması, güvenli olmayan yanıtlar almak için tasarlanmış istemleri kullanarak zararlı davranışları ölçer. Yedi semantik kategoriyi kapsar:

  • Siber suç ve yetkisiz izinsiz giriş
  • Kimyasal ve biyolojik silahlar veya ilaçlar
  • Telif hakkı ihlalleri
  • Yanlış bilgi ve dezenformasyon
  • Taciz ve zorbalık
  • Yasa dışı etkinlikler
  • Genel zarar

Bu kategoriler üç işlevsel alanda gruplandırılır:

  • Standart zararlı davranışlar
  • Bağlamsal olarak zararlı davranışlar
  • Telif hakkı ihlalleri

Her işlevsel kategori ayrı bir senaryo puan tablosunda yer alır. Değerlendirme, Saldırı Başarı Oranını (ASR) hesaplamak için HarmBench (saldırı yok) ve HarmBench değerlendiricilerinden doğrudan istemler kullanır. Daha düşük ASR değerleri daha güvenli modeller anlamına gelir. Değerlendirme için herhangi bir saldırı stratejisi kullanılmaz ve Foundry Guardrails (önceki içerik filtreleri) kapalıyken model karşılaştırması gerçekleştirilir.

Toksik içerik algılama

Toxigen , saldırgan ve örtük nefret konuşmasını algılamaya yönelik büyük ölçekli bir veri kümesidir. 13 azınlık grubunu ifade eden örtük olarak toksik ve zararsız cümleler içeriyor. Foundry açıklamalı Toxigen örnekleri kullanır ve sınıflandırma performansını ölçmek için F1 puanlarını hesaplar. Daha yüksek puanlar daha iyi toksik içerik algılamayı gösterir. Karşılaştırma, Foundry Guardrails (önceki içerik filtreleri) kapalıyken gerçekleştirilir.

Hassas etki alanı bilgisi

Kitle İmha Silahları Proxy'si (WMDP) ölçütü, biyogüvenlik, siber güvenlik ve kimyasal güvenlik gibi hassas alanlardaki model bilgisini ölçer. Puan tablosu siber güvenlik, biyogüvenlik ve kimyasal güvenlik genelinde ortalama doğruluk puanlarını kullanır. Daha yüksek bir WMDP doğruluk puanı, tehlikeli özellikler hakkında daha fazla bilgi (güvenlik açısından daha kötü davranış) belirtir. Model karşılaştırması, varsayılan Foundry Guardrails (eski adıyla içerik filtreleri) açıkken gerçekleştirilir. Bu korumalar şiddet, kendine zarar verme, cinsel, nefret ve adaletsizlikte içerik zararlarını algılar ve engeller, ancak siber güvenlik, biyogüvenlik ve kimyasal güvenlik kategorilerini hedeflemez.

Güvenlik karşılaştırmalarının sınırlamaları

Güvenlik, çeşitli boyutları olan karmaşık bir konudur. Tek bir açık kaynaklı değerlendirme, tüm senaryolar karşısında bir sistemin tam güvenliğini test edemez veya temsil edemez. Buna ek olarak, birçok kıyaslama, karşılaştırma tasarımı ve risk tanımı arasında doygunluk veya yanlış hizalamadan muzdariptir. Bazı kıyaslamalar, hedeflerin risklerinin kavramsallaştırılıp operasyonel hale getirildiğine ilişkin net belgelere de sahip değildir ve bu da sonuçların gerçek dünya risklerinin nüanslarını doğru bir şekilde yakalayıp yakalamadığını değerlendirmeyi zorlaştırıyor. Bu sınırlamalar, gerçek dünya güvenlik senaryolarında model performansını fazla tahmin etmeye veya düşük tahmine neden olabilir.

Dil modellerinin performans karşılaştırmaları

Performans ölçümleri günde 24 deneme kullanılarak 14 gün boyunca toplanır ve deneme başına bir saatlik aralıklarla iki istek gönderilir. Aksi belirtilmediği sürece, aşağıdaki varsayılan parametreler hem sunucusuz API dağıtımları hem de OpenAI Azure için geçerlidir:

Parametre Değer Uygulanabilir
Bölge Doğu ABD/Doğu ABD2 sunucusuz API dağıtımları ve OpenAI Azure
Dakika başına jeton (TPM) hız sınırı 30k (Azure OpenAI tabanlı 180 RPM) mantık dışı modeller için ve 100k mantık modelleri için
Yok (sunucusuz API dağıtımları)
Azure OpenAI modellerinde, dağıtım türüne (sunucusuz API, genel, genel standart vb.) göre hız sınırı aralıkları olan kullanıcılar için seçim kullanılabilir.
Sunucusuz API dağıtımları için bu ayar soyutlanır.
İstek sayısı Bir deneme sürümünde her saat için iki istek (günde 24 deneme) sunucusuz API dağıtımları Azure OpenAI
Deneme/çalıştırma sayısı 14 gün boyunca günde 24 deneme ile toplam 336 çalıştırma sunucusuz API dağıtımları Azure OpenAI
İstem/Bağlam uzunluğu Orta uzunlukta sunucusuz API dağıtımları Azure OpenAI
İşlenen belirteç sayısı (orta) 80:20 giriş çıkış belirteçleri için oran, yani 800 giriş belirteci ile 200 çıkış belirteci. sunucusuz API dağıtımları Azure OpenAI
Eşzamanlı istek sayısı Biri (istekler ardışık olarak gönderilir) sunucusuz API dağıtımları Azure OpenAI
Veri Yapay (statik metinden hazırlanan giriş istemleri) sunucusuz API dağıtımları Azure OpenAI
Dağıtım türü sunucusuz API Yalnızca Azure OpenAI için geçerlidir
Yayın Akışı Doğru Sunucusuz API dağıtımları ve OpenAI Azure için geçerlidir. Yönetilen işlem aracılığıyla dağıtılan modellerde veya akış desteklenmediğinde uç noktalar için TTFT, P50 gecikme süresi ölçümü olarak temsil edilir.
SKU Standard_NC24ads_A100_v4 (24 çekirdek, 220 GB RAM, 64 GB depolama) Yalnızca Yönetilen İşlem için geçerlidir (maliyet ve performans ölçümlerini tahmin etmek için)

LLM'lerin ve SLM'lerin performansı aşağıdaki ölçümlerde değerlendirilir:

Metrik Açıklama
Gecikme süresi ortalaması Birden çok istek üzerinden hesaplanan bir isteği işlemek için saniye olarak ortalama süre. uç noktaya iki hafta boyunca saatte bir istek gönderilir ve ortalama hesaplanır.
Gecikme Süresi P50 Ortanca (50. yüzdebirlik) gecikme süresi. 50% istek bu süre içinde tamamlandı.
Gecikme Süresi P90 90. yüzdebirlik gecikme süresi. İsteklerin 90% bu süre içinde tamamlandı.
Gecikme Süresi P95 95. yüzdebirlik gecikme süresi. İsteklerin 95% bu süre içinde tamamlandı.
Gecikme Süresi P99 99. yüzdebirlik gecikme süresi. İsteklerin 99% bu süre içinde tamamlandı.
Aktarım hızı GTPS Saniye başına oluşturulan belirteçler (GTPS), isteğin uç noktaya gönderildiği zamandan saniye başına oluşturulan çıkış belirteçlerinin sayısıdır.
İletim Kapasitesi TTPS Saniye başına toplam belirteç sayısı (TTPS), hem giriş isteminden hem de oluşturulan çıkış belirteçleri dahil olmak üzere saniyede işlenen toplam belirteç sayısıdır. Akışı desteklemeyen modeller için, ilk belirteç için süre (ttft), P50 gecikme süresi değerini (yanıtın alınması için geçen süre) temsil eder
Gecikme Süresi TTFT Yanıttaki ilk belirteci geri döndürme toplam süresi (TTFT), akış etkinleştirildiğinde uç noktadan geri döndürülmesi için geçen süredir.
Tokenlar arasındaki süre Bu ölçüm, alınan belirteçler arasındaki süredir.

Dökümhane, aşağıdakileri kullanarak performansı özetler:

Metrik Açıklama
Gecikme İlk belirtece kadar geçen ortalama süre. Daha düşük olan daha iyidir.
Veri Aktarımı Saniye başına ortalama oluşturulan belirteç sayısı. Daha yüksek daha iyidir.

Gecikme süresi veya aktarım hızı gibi performans ölçümleri için ilk belirtecin zamanı ve saniye başına oluşturulan belirteçler, modelin tipik performansı ve davranışı hakkında genel olarak daha iyi bir fikir verir. Performans numaraları, en son dağıtım yapılandırmalarını yansıtacak şekilde düzenli aralıklarla yenilenir.

Dil modellerinin maliyet karşılaştırmaları

Maliyet karşılaştırmaları, belirteç fiyatlandırmasına dayalı tahmini maliyet yerine kalite karşılaştırması veri kümelerinde her modeli yürütmek için gerçek maliyeti ölçer.

Karşılaştırma maliyeti şu şekilde hesaplanır:

  • Karşılaştırma yürütmesi sırasında kullanılan gerçek giriş, mantık ve çıkış belirteci sayısı.
  • Değerlendirme için kullanılan modele özgü mantık eforu yapılandırması (genellikle high veya xhigh).
  • Belirteç kullanımını ve çalışma süresini etkileyen veri kümesi özellikleri ve karmaşıklığı.

Sabit belirteç oranına dayalı tahminlerden farklı olarak, bu yaklaşım karşılaştırma iş yüklerini çalıştırmanın gerçek uçtan uca maliyetini yansıtır.

Maliyet sonuçlarını yorumlama

  • Maliyet, standart kalite veri kümelerinde yapılan karşılaştırma başına ABD doları cinsinden raporlanır.
  • Değerler gerçek yürütme maliyetini temsil eder ve modeller arasında doğrudan karşılaştırmayı etkinleştirir.
  • Düşük değerler, kıyaslama paketinde daha uygun maliyetli bir performans olduğunu gösterir.

Senaryo puan tablosu karşılaştırması

Senaryo puan tabloları, karşılaştırma veri kümelerini ortak gerçek dünya değerlendirme hedeflerine göre gruplandırıyor. Kullanım örneğini kullanarak modelin güçlü ve zayıf yönlerini hızla belirleyebilirsiniz. Her senaryo bir veya daha fazla genel karşılaştırma veri kümesini toplar.

Senaryo sütununda kullanım örneğinizi bulmak için aşağıdaki tabloyu kullanın ve ardından ilişkili karşılaştırma veri kümelerini ve sonuçların neleri gösterdiğini gözden geçirin. Aşağıdaki tablo, kullanılabilir senaryo puan tablolarını ve bunların ilişkili veri kümelerini ve açıklamalarını özetler:

Senaryo Veri Setleri Açıklama
Standart zararlı davranış HarmBench (standart) Standart zararlı istemlerde saldırı başarı oranı. Daha düşük olan daha iyidir. Bkz . Zararlı davranış algılama.
Bağlamsal olarak zararlı davranış HarmBench (bağlamsal) Bağlamsal zararlı istemlerde saldırı başarı oranı. Daha düşük olan daha iyidir. Bkz . Zararlı davranış algılama.
Telif hakkı ihlalleri HarmBench (telif hakkı) Telif hakkı ihlali istemleri için saldırı başarı oranı. Daha düşük olan daha iyidir. Bkz . Zararlı davranış algılama.
Hassas etki alanlarında bilgi WMDP (biyogüvenlik, kimyasal güvenlik, siber güvenlik) Üç hassas etki alanı alt kümesinde doğruluk. Daha yüksek doğruluk, hassas özellikler hakkında daha fazla bilgi olduğunu gösterir. Bkz . Hassas etki alanı bilgisi.
Toksisite algılama ToxiGen (açıklamalı) Toksik içerik algılama yeteneği için F1 puanı. Daha yüksek daha iyidir. Bkz . Toksik içerik algılama.
Akıl BIG-Bench Sabit (1000 alt örnek) Akıl yürütme özellikleri değerlendirmesi. Daha yüksek değerler daha iyidir.
Kodlama BigCodeBench (yönerge), LiveBench (kodlama), LiveCodeBench orta, MBPPPlus Kodla ilgili görevlerde doğruluğu ölçer. Daha yüksek değerler daha iyidir.
Genel bilgi MMLU-Pro (1K İngilizce alt örnek) MMLU-Pro'nun, 1.000 örnekten oluşan yalnızca İngilizceden oluşan bir alt örneği.
Soru ve yanıt Arena-Hard, GPQA (elmas) Saldırgan insan tercihi SSS (Arena-Hard) ve lisansüstü düzeyde çok disiplinli SSS (GPQA elmas). Daha yüksek değerler daha iyidir.
Matematik MATH (500 alt örnek) Dil modellerinin matematiksel mantık özelliklerini ölçer. Daha yüksek değerler daha iyidir.
Topraklanmışlık TruthfulQA (MC1) Dil modellerinin çoktan seçmeli temellilik/ doğruluk değerlendirmesi. Daha yüksek değerler daha iyidir.

Ekleme modellerinin kalite karşılaştırmaları

Ekleme modellerinin kalite dizini, Bilgi Alma, Belge Kümelemesi ve Özetleme görevlerini hedefleyen kapsamlı bir sunucusuz API karşılaştırma veri kümesinin ortalama doğruluk puanları olarak tanımlanır.

Metrik Açıklama
Doğru -luk Doğruluk, işlenen toplam tahmin sayısı arasında doğru tahminlerin oranıdır.
F1 Puanı F1 Puanı, en iyi değerin bir (mükemmel doğruluk ve dönüş) ve en kötüsünün sıfır olduğu doğruluk ve dönüşün ağırlıklı ortalamasıdır.
Ortalama ortalama duyarlık (MAP) MAP, derecelendirme ve öneren sistemlerin kalitesini değerlendirir. Hem önerilen öğelerin ilgi düzeyini hem de sistemin en üste daha ilgili öğeler yerleştirme konusunda ne kadar iyi olduğunu ölçer. Değerler sıfırdan bire kadar değişebilir ve MAP ne kadar yüksek olursa sistem ilgili öğeleri o kadar yüksek bir listeye yerleştirebilir.
Normalleştirilmiş indirimli kümülatif kazanç (NDCG) NDCG, makine öğrenmesi algoritmasının ilgi düzeyine göre öğeleri sıralama becerisini değerlendirir. Derecelendirmeleri, tüm ilgili öğelerin listenin en üstünde yer aldığı ideal bir sıralamayla karşılaştırır; burada k, derecelendirme kalitesini değerlendirirken listenin uzunluğudur. Bu karşılaştırmalarda, k=10, ölçümüyle ndcg_at_10gösterilir; yani ilk 10 öğe değerlendirilir.
Kesinlik Kesinlik, modelin belirli bir sınıfın örneklerini doğru şekilde tanımlama becerisini ölçer. Duyarlık, hedef sınıfı tahmin ederken makine öğrenmesi modelinin ne sıklıkta doğru olduğunu gösterir.
Spearman bağıntısı Kosinüs benzerliğine dayalı Spearman bağıntısı, önce değişkenler arasındaki kosinüs benzerliğini hesaplayarak, sonra bu puanları derecelendirmek ve Spearman bağıntısını hesaplamak için dereceleri kullanarak hesaplanır.
V ölçüsü V ölçüsü, kümelemenin kalitesini değerlendirmek için kullanılan bir ölçümdür. V ölçüsü homojenlik ve bütünlük harmonik ortalaması olarak hesaplanır ve anlamlı bir puan için ikisi arasında bir denge sağlar. Olası puanlar sıfır ile bir arasında yer alır ve bir puan mükemmel bir şekilde tam etiketleme anlamına gelir.

Puanların hesaplanması

Bireysel puanlar

Karşılaştırma sonuçları, dil modeli değerlendirmesi için yaygın olarak kullanılan genel veri kümelerinden kaynaklanır. Çoğu durumda veriler, verilerin oluşturucuları veya küratörleri tarafından tutulan GitHub depolarda barındırılır. Kuruluş değerlendirme süreçleri, orijinal kaynaklarından veri indirir, her örnek satırdan istem cümlelerini ayıklar, model cevapları oluşturur ve ardından uygun doğruluk metriklerini hesaplar.

İstem oluşturma, her veri kümesi için tanıtım yazısında ve sektör standartlarında belirtilen en iyi uygulamaları takip eder. Çoğu durumda, her istem, modelin göreve hazırlanması için birkaç eksiksiz soru ve yanıt örneği, yani, çeşitli örnekler içerir. Çekim sayısı veri kümesine göre değişir ve her veri kümesinin özgün yayınında belirtilen metodolojiyi izler. Değerlendirme süreçleri, değerlendirmeden ayrı tutulan verilerin bir bölümünden soruları ve yanıtları örnekleyerek veri kümesi oluşturur.

Karşılaştırma sınırlamaları

Tüm karşılaştırmalar, sonuçları yorumlarken göz önünde bulundurmanız gereken doğal sınırlamalara sahiptir:

  • Kalite karşılaştırmaları: Modeller benzer veriler üzerinde eğitildikçe veya ayarlandıklarından kıyaslama veri kümeleri zaman içinde doygun hale gelebilir. Değerlendirme sonuçları, istem yapısına ve kullanılan birkaç örnek sayısına da bağlı olarak farklılık gösterebilir.
  • Performans karşılaştırmaları: Ölçümler, sabit giriş-çıkış belirteci oranına ve tek bölgeli dağıtımlara sahip yapay iş yükleri kullanılarak toplanır. Gerçek dünya performansı iş yükü desenlerine, eşzamanlılığa, bölgeye ve dağıtım yapılandırmasına göre farklılık gösterebilir.
  • Maliyet karşılaştırmaları: Maliyet tahminleri, üçe bir giriş-çıkış belirteci oranını ve ölçüm sırasında geçerli fiyatlandırmayı temel alır. Gerçek maliyetler iş yükünüze bağlıdır ve fiyatlandırma değişikliklerine tabidir.