Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Uyarı
Bu belge , Microsoft Foundry (klasik) portalını ifade eder.
🔍Yeni portal hakkında bilgi edinmek için Microsoft Foundry (yeni) belgelerini görüntüleyin.
Önemli
Bu makalede işaretlenen (önizleme) öğeler şu anda genel önizleme aşamasındadır. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmiyor olabileceği gibi özellikleri sınırlandırılmış da olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.
Microsoft Foundry portalındaki model puan tabloları (önizleme), endüstri standardı karşılaştırmaları kullanarak Foundry model kataloğundaki modelleri karşılaştırmanıza yardımcı olur. Model kataloğunun model puan tabloları bölümünden, kullanılabilir modelleri karşılaştırmak için puan tablolarına göz atabilirsiniz :
- Tek bir ölçümde (kalite, güvenlik, maliyet veya aktarım hızı) önde gelen modelleri belirlemek için kalite, güvenlik, maliyet ve performans puan tabloları
- İki ölçüt, örneğin kalite ve maliyet, arasında performansı karşılaştırmak için ödünleşim grafikleri
- Belirli kullanım örneklerine uygun modelleri bulmak için senaryoya göre puan tabloları
Uygun bir model bulduğunuzda ayrıntılı karşılaştırma sonuçlarını model kataloğunda açabilirsiniz. Buradan modeli dağıtabilir, oyun alanında deneyebilir veya kendi verilerinizle değerlendirebilirsiniz. Puan tabloları, metin dili modelleri (büyük dil modelleri (LLM'ler) ve küçük dil modelleri (SLM'ler) dahil) ve ekleme modelleri için karşılaştırmayı destekler.
Model karşılaştırmaları kalite, güvenlik, maliyet ve aktarım hızı genelinde LLM'leri ve SLM'leri değerlendirir. Ekleme modelleri standart kalite karşılaştırmaları kullanılarak değerlendirilir. Yeni modeller ve karşılaştırma veri kümeleri kullanıma sunuldukçe puan tabloları güncelleştirilir.
Model karşılaştırma kapsamı
Model puan tabloları, Foundry model kataloğundan seçilen metin tabanlı dil modellerini içerir. Modeller aşağıdaki ölçütlere göre dahil edilir:
- Azure Doğrudan Modelleri önceliklendirildi: Azure Doğrudan Modelleri, yaygın olarak oluşturulan yapay zeka senaryolarıyla ilgili olarak seçilir.
- Temel karşılaştırma uygulanabilirliği: Modeller, akıl yürütme, bilgi, soru yanıtlama, matematiksel mantık ve kodlama gibi genel amaçlı dil görevlerini desteklemelidir. Özel modeller (örneğin, protein katlama veya etki alanına özgü QA) ve diğer modaliteler desteklenmez.
Bu kapsam belirleme, puan tablolarının temel yapay zeka senaryolarıyla ilgili geçerli ve yüksek kaliteli modelleri yansıtmasını sağlar.
Puan tablosu sonuçlarını yorumlama
Puan tabloları, kullanım örneğiniz için doğru modeli seçebilmeniz için modelleri birden çok boyutta karşılaştırmanıza yardımcı olur. Sonuçları yorumlamaya yönelik bazı yönergeler şunlardır:
- Kalite dizini: Yüksek kalite dizini, akıl yürütme, kodlama, matematik ve bilgi görevleri arasında genel performansın daha güçlü olduğunu gösterir. Genel amaçlı dil görevleri için en iyi performans gösterenleri belirlemek için modellerdeki kalite dizinini karşılaştırın.
- Güvenlik puanları: Saldırı başarı oranlarının daha düşük olması daha güçlü modelleri gösterir. Özellikle zararlı çıkışın önemli bir sorun olduğu müşterilere yönelik uygulamalar için kalite puanlarının yanı sıra güvenlik puanlarını da göz önünde bulundurun.
- Performans dengeleri: Modelin gerçek dünyadaki yanıt hızını anlamak için gecikme süresi ve aktarım hızı ölçümlerini kullanın. Yüksek kaliteli ancak yüksek gecikme süresine sahip bir model gerçek zamanlı uygulamalara uygun olmayabilir.
- Maliyetle ilgili dikkat edilmesi gerekenler: Tahmini maliyet ölçümü üçe bir giriş-çıkış belirteci oranını kullanır. Gerçek iş yükünüzün giriş-çıkış oranına göre beklentilerinizi ayarlayın.
- Senaryo puan tabloları: Kullanım örneğiniz belirli bir senaryoyla eşleniyorsa (örneğin, kodlama veya matematik), yalnızca genel kalite dizinine güvenmek yerine söz konusu görev için en iyi duruma getirilmiş modelleri bulmak için senaryo puan tablosuyla başlayın.
Tavsiye
Puan tablosu karşılaştırmaları, genel veri kümelerini kullanan modeller arasında standartlaştırılmış karşılaştırmalar sağlar. Belirli verileriniz ve kullanım örneğinizdeki model performansını değerlendirmek için bkz. Üretken yapay zeka uygulamalarınızı değerlendirme.
Dil modellerinin kalite karşılaştırmaları
Dökümhane, akıl yürütme, bilgi, soru yanıtlama, matematik ve kodlama özelliklerini ölçen standart karşılaştırma veri kümelerinden alınan doğruluk puanlarını kullanarak LLM'lerin ve SLM'lerin kalitesini değerlendirir.
| Index | Description |
|---|---|
| Kalite indeksi | Karşılaştırma veri kümelerinde geçerli doğruluk puanlarının (exact_match, pass@1, arena_hard) ortalaması kullanılarak hesaplanır. |
Kalite dizini değerleri sıfırdan bire kadar değişir ve burada yüksek değerler daha iyi performans gösterir. Kalite dizinine dahil edilen veri kümeleri şunlardır:
| Veri Kümesi Adı | Kategori |
|---|---|
| arena_hard | Kalite Güvencesi |
| bigbench_hard (1.000 örneğe düşürülmüş) | Mantık yürütme |
| gpqa | Kalite Güvencesi |
| humanevalplus | Coding |
| ifeval | Mantık yürütme |
| matematik | Matematik |
| mbppplus | Coding |
| mmlu_pro (1.000 örneğe küçültüldü) | Genel bilgi |
Doğruluk puanlarında daha fazla ayrıntıya bakın:
| Ölçü birimi | Description |
|---|---|
| Doğruluk | Doğruluk puanları veri kümesinde ve model düzeylerinde kullanılabilir. Veri kümesi düzeyinde puan, veri kümesindeki tüm örnekler üzerinde hesaplanan doğruluk ölçümünün ortalama değeridir. Kullanılan doğruluk ölçümü, bir exact_match ölçümü kullanan HumanEval ve MBPP veri kümeleri dışında her durumda geçerlidirpass@1. Tam eşleşme, model tarafından oluşturulan metni veri kümesine göre doğru yanıtla karşılaştırır. Oluşturulan metin yanıtla tam olarak eşleşiyorsa bir değerini raporlar, aksi halde sıfır değerini rapor eder. Ölçüm, pass@1 bir kod oluşturma görevinde birim testleri kümesini geçiren model çözümlerinin oranını ölçer. Model düzeyinde doğruluk puanı, her model için veri kümesi düzeyindeki doğrulukların ortalamasıdır. |
Doğruluk puanları, daha yüksek değerlerin daha iyi olduğu sıfırdan bire kadar değişir.
Dil modellerinin güvenlik karşılaştırmaları
Güvenlik karşılaştırmaları, hem ilgi hem de titizlik sağlamak için tasarlanmış yapılandırılmış bir filtreleme ve doğrulama işlemiyle seçilir. Yüksek öncelikli riskleri ele alan bir kıyaslama, eklemeye uygun olur. Güvenlik puan tabloları, güvenlikle ilgili olarak ilgilenilen konularda anlamlı sinyaller sağlayacak kadar güvenilir karşılaştırmalar içerir. Puan tabloları, model güvenliğini temsil etmek için HarmBench kullanır ve senaryo tabanlı puan tablolarını aşağıdaki gibi düzenler:
| Veri Kümesi Adı | Lider Tablosu Senaryosu | Ölçü birimi | Yorumlama |
|---|---|---|---|
| HarmBench (standart) | Standart zararlı davranışlar | Saldırı Başarı Oranı | Düşük değerler, standart zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir |
| HarmBench (bağlamsal) | Bağlamsal olarak zararlı davranışlar | Saldırı Başarı Oranı | Düşük değerler, bağlamsal olarak zararlı içerik sağlamak için tasarlanan saldırılara karşı daha iyi sağlamlık anlamına gelir |
| HarmBench (telif hakkı ihlalleri) | Telif hakkı ihlalleri | Saldırı Başarı Oranı | Düşük değerler telif hakkı ihlallerine karşı daha güçlü bir sağlamlığa işaret eder |
| WMDP | Hassas etki alanlarında bilgi | Doğruluk | Daha yüksek değerler hassas etki alanlarında daha fazla bilgi olduğunu gösterir |
| Toxigen | Toksik içerik algılama | F1 Puanı | Daha yüksek değerler daha iyi algılama performansını gösterir |
Zararlı davranış algılama
HarmBench karşılaştırması, güvenli olmayan yanıtlar almak için tasarlanmış istemleri kullanarak zararlı davranışları ölçer. Yedi semantik kategoriyi kapsar:
- Siber suç ve yetkisiz izinsiz giriş
- Kimyasal ve biyolojik silahlar veya ilaçlar
- Telif hakkı ihlalleri
- Yanlış bilgi ve dezenformasyon
- Taciz ve zorbalık
- Yasa dışı etkinlikler
- Genel zarar
Bu kategoriler üç işlevsel alanda gruplandırılır:
- Standart zararlı davranışlar
- Bağlamsal olarak zararlı davranışlar
- Telif hakkı ihlalleri
Her işlevsel kategori ayrı bir senaryo puan tablosunda yer alır. Değerlendirme, Saldırı Başarı Oranını (ASR) hesaplamak için herhangi bir saldırı olmadan HarmBench'ten ve HarmBench değerlendiricilerinden doğrudan istemler kullanır. Daha düşük ASR değerleri daha güvenli modeller anlamına gelir. Değerlendirme için herhangi bir saldırı stratejisi kullanılmaz ve Foundry Guardrails (önceki içerik filtreleri) kapalıyken model karşılaştırması gerçekleştirilir.
Toksik içerik algılama
Toxigen , saldırgan ve örtük nefret konuşmasını algılamaya yönelik büyük ölçekli bir veri kümesidir. 13 azınlık grubunu ifade eden örtük olarak toksik ve zararsız cümleler içeriyor. Foundry açıklamalı Toxigen örnekleri kullanır ve sınıflandırma performansını ölçmek için F1 puanlarını hesaplar. Daha yüksek puanlar daha iyi toksik içerik algılamayı gösterir. Karşılaştırma, Foundry Guardrails (önceki içerik filtreleri) kapalıyken gerçekleştirilir.
Hassas etki alanı bilgisi
Kitle İmha Silahları Vekili (WMDP) karşılaştırması biyogüvenlik, siber güvenlik ve kimyasal güvenlik gibi hassas alanlardaki model bilgisini ölçer. Puan tablosu siber güvenlik, biyogüvenlik ve kimyasal güvenlik genelinde ortalama doğruluk puanlarını kullanır. Daha yüksek bir WMDP doğruluk puanı, tehlikeli özellikler hakkında daha fazla bilgi (güvenlik açısından daha kötü davranış) belirtir. Model karşılaştırması, varsayılan Foundry Guardrails (önceki içerik filtreleri) açıkken gerçekleştirilir. Bu korumalar şiddet, kendine zarar verme, cinsel, nefret ve adaletsizlikte içerik zararlarını algılar ve engeller, ancak siber güvenlik, biyogüvenlik ve kimyasal güvenlik kategorilerini hedeflemez.
Güvenlik karşılaştırmalarının sınırlamaları
Güvenlik, çeşitli boyutları olan karmaşık bir konudur. Hiçbir tek bir açık kaynak karşılaştırması, tüm senaryolarda bir sistemin tam güvenliğini test edemez veya temsil edemez. Buna ek olarak, birçok kıyaslama, karşılaştırma tasarımı ve risk tanımı arasında doygunluk veya yanlış hizalamadan muzdariptir. Bazı kıyaslamalar, hedeflerin risklerinin kavramsallaştırılıp operasyonel hale getirildiğine ilişkin net belgelere de sahip değildir ve bu da sonuçların gerçek dünya risklerinin nüanslarını doğru bir şekilde yakalayıp yakalamadığını değerlendirmeyi zorlaştırıyor. Bu sınırlamalar, gerçek dünya güvenlik senaryolarında model performansını fazla tahmin etmeye veya düşük tahmine neden olabilir.
Dil modellerinin performans karşılaştırmaları
Performans ölçümleri günde 24 deneme kullanılarak 14 gün boyunca toplanır ve deneme başına bir saatlik aralıklarla iki istek gönderilir. Aksi belirtilmediği sürece, aşağıdaki varsayılan parametreler hem sunucusuz API dağıtımları hem de Azure OpenAI için geçerlidir:
| Parametre | Değer | Geçerli |
|---|---|---|
| Bölge | Doğu ABD/Doğu ABD2 | sunucusuz API dağıtımları ve Azure OpenAI |
| Dakika başına token (TPM) sınırı | Muhakeme gerektirmeyen modeller için 30 bin (Azure OpenAI tabanlı 180 RPM) ve muhakeme modelleri için 100 bin Yok (sunucusuz API dağıtımları) |
Azure OpenAI modellerinde, dağıtım türüne (sunucusuz API, genel, genel standart vb.) göre hız sınırı aralıkları olan kullanıcılar için seçim kullanılabilir. Sunucusuz API dağıtımları için bu ayar soyutlanır. |
| İstek sayısı | Bir deneme sürümünde her saat için iki istek (günde 24 deneme) | sunucusuz API dağıtımları, Azure OpenAI |
| Deneme/çalıştırma sayısı | 14 gün boyunca, günde 24 test denemesi ile 336 çalıştırma. | sunucusuz API dağıtımları, Azure OpenAI |
| İstem/Bağlam uzunluğu | Orta uzunlukta | sunucusuz API dağıtımları, Azure OpenAI |
| İşlenen belirteç sayısı (orta düzeyde) | 80:20 giriş çıkış belirteçleri için oran, yani 800 giriş belirteci ile 200 çıkış belirteci. | sunucusuz API dağıtımları, Azure OpenAI |
| Eşzamanlı istek sayısı | Biri (istekler ardışık olarak gönderilir) | sunucusuz API dağıtımları, Azure OpenAI |
| Veri | Yapay (statik metinden hazırlanan giriş istemleri) | sunucusuz API dağıtımları, Azure OpenAI |
| Dağıtım türü | sunucusuz API | Yalnızca Azure OpenAI için geçerlidir |
| Yayın | Doğru | Sunucusuz API dağıtımları ve Azure OpenAI için geçerlidir. Yönetilen işlem aracılığıyla dağıtılan modellerde veya akış desteklenmediğinde uç noktalar için TTFT, P50 gecikme süresi ölçümü olarak temsil edilir. |
| SKU | Standard_NC24ads_A100_v4 (24 çekirdek, 220 GB RAM, 64 GB depolama) | Yalnızca Yönetilen İşlem için geçerlidir (maliyet ve performans ölçümlerini tahmin etmek için) |
LLM'lerin ve SLM'lerin performansı aşağıdaki ölçümlerde değerlendirilir:
| Ölçü birimi | Description |
|---|---|
| Gecikme süresi ortalaması | Birden çok istek üzerinden hesaplanan bir isteği işlemek için saniye olarak ortalama süre. uç noktaya iki hafta boyunca saatte bir istek gönderilir ve ortalama hesaplanır. |
| Gecikme Süresi P50 | Ortanca (50. yüzdebirlik) gecikme süresi. 50% istek bu süre içinde tamamlandı. |
| Gecikme Süresi P90 | 90. yüzdebirlik gecikme süresi. İsteklerin 90% bu süre içinde tamamlandı. |
| Gecikme Süresi P95 | 95. yüzdebirlik gecikme süresi. İsteklerin 95% bu süre içinde tamamlandı. |
| Gecikme Süresi P99 | 99. yüzdebirlik gecikme süresi. İsteklerin 99% bu süre içinde tamamlandı. |
| Aktarım hızı GTPS | Saniye başına oluşturulan belirteçler (GTPS), isteğin uç noktaya gönderildiği zamandan saniye başına oluşturulan çıkış belirteçlerinin sayısıdır. |
| Aktarım Hızı TTPS | Saniye başına toplam belirteç sayısı (TTPS), hem giriş isteminden hem de oluşturulan çıkış belirteçleri dahil olmak üzere saniyede işlenen toplam belirteç sayısıdır. Akışı desteklemeyen modeller için, ilk belirtece ulaşma süresi (ttft), yanıtın alınması için geçen sürenin P50 gecikme metriği değerini temsil eder. |
| Gecikme Süresi TTFT | İlk belirtece kadar toplam süre (TTFT), akış etkinleştirildiğinde yanıttaki ilk belirtecin uç noktadan geri döndürülmesi için geçen süredir. |
| Jetonlar arasındaki süre | Bu ölçüm, alınan belirteçler arasındaki zaman dilimidir. |
Dökümhane, aşağıdakileri kullanarak performansı özetler:
| Ölçü birimi | Description |
|---|---|
| Gecikme | İlk belirtece kadar geçen ortalama süre. Daha düşük daha iyidir. |
| Throughput | Saniye başına ortalama oluşturulan belirteç sayısı. Daha yüksek daha iyidir. |
Gecikme süresi veya aktarım hızı gibi performans ölçümleri için ilk belirtecin zamanı ve saniye başına oluşturulan belirteçler, modelin tipik performansı ve davranışı hakkında genel olarak daha iyi bir fikir verir. Performans numaraları, en son dağıtım yapılandırmalarını yansıtacak şekilde düzenli aralıklarla yenilenir.
Dil modellerinin maliyet karşılaştırmaları
Maliyet hesaplamaları, Foundry platformunda barındırılan bir LLM veya SLM modeli uç noktasını kullanmaya yönelik tahminlerdir. Dökümhane sunucusuz API dağıtımlarının ve Azure OpenAI modellerinin maliyetinin görüntülenmesini destekler. Bu maliyetler değiştirilebilir olduğundan, maliyet hesaplamaları en son fiyatlandırmayı yansıtacak şekilde düzenli aralıklarla yenilenir.
LLM'lerin ve SLM'lerin maliyeti aşağıdaki ölçümlerde değerlendirilir:
| Ölçü birimi | Description |
|---|---|
| Giriş belirteçleri başına maliyet | 1 milyon giriş belirteci için sunucusuz API dağıtımı maliyeti |
| Çıkış belirteçleri başına maliyet | 1 milyon çıkış belirteci için sunucusuz API dağıtımı maliyeti |
| Tahmini maliyet | 3:1 oranında giriş belirteçleri başına maliyet ve çıkış belirteçleri başına maliyet toplamı için maliyet. |
Dökümhane ayrıca maliyeti aşağıdaki gibi görüntüler:
| Ölçü birimi | Description |
|---|---|
| Maliyet | 1 milyon belirteç başına tahmini ABD doları maliyeti. Tahmini iş yükü, giriş ve çıkış belirteçleri arasındaki üçe bir oranını kullanır. Düşük değerler daha iyidir. |
Senaryo puan tablosu karşılaştırması
Senaryo puan tabloları, karşılaştırma veri kümelerini ortak gerçek dünya değerlendirme hedeflerine göre gruplandırarak bir modelin güçlü ve zayıf yönlerini kullanım örneğine göre hızla belirleyebilmenizi sağlar. Her senaryo bir veya daha fazla genel karşılaştırma veri kümesini toplar.
Senaryo sütununda kullanım örneğinizi bulmak için aşağıdaki tabloyu kullanın, ardından ilişkili karşılaştırma veri kümelerini ve sonuçların neleri gösterdiğini gözden geçirin. Aşağıdaki tablo, kullanılabilir senaryo puan tablolarını ve bunların ilişkili veri kümelerini ve açıklamalarını özetler:
| Scenario | Veri Setleri | Description |
|---|---|---|
| Standart zararlı davranış | HarmBench (standart) | Standart zararlı istemlerde saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama. |
| Bağlamsal olarak zararlı davranış | HarmBench (bağlamsal) | Bağlamsal zararlı istemlerde saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama. |
| Telif hakkı ihlalleri | HarmBench (telif hakkı) | Telif hakkı ihlali istemleri için saldırı başarı oranı. Daha düşük daha iyidir. Bkz . Zararlı davranış algılama. |
| Hassas etki alanlarında bilgi | WMDP (biyogüvenlik, kimyasal güvenlik, siber güvenlik) | Üç hassas etki alanı alt kümesinde doğruluk. Daha yüksek doğruluk, hassas özellikler hakkında daha fazla bilgi olduğunu gösterir. Bkz . Hassas etki alanı bilgisi. |
| Toksisite algılama | ToxiGen (açıklamalı) | Toksik içerik algılama yeteneği için F1 puanı. Daha yüksek daha iyidir. Bkz . Toksik içerik algılama. |
| Mantık yürütme | BIG-Bench Sabit (1000 alt örnek) | Akıl yürütme özellikleri değerlendirmesi. Daha yüksek değerler daha iyidir. |
| Coding | BigCodeBench (yönerge), HumanEvalPlus, LiveBench (kodlama), MBPPPlus | Kodla ilgili görevlerde doğruluğu ölçer. Daha yüksek değerler daha iyidir. |
| Genel bilgi | MMLU-Pro (1K İngilizce alt örnek) | MMLU-Pro'nun, yalnızca İngilizceden oluşan 1.000 örneklik alt örneği. |
| Soru ve yanıt | Arena-Hard, GPQA (elmas) | Saldırgan insan tercihi QA (Arena-Hard) ve lisansüstü düzeyde çok disiplinli QA (GPQA elmas). Daha yüksek değerler daha iyidir. |
| Matematik | MATH (500 alt örnek) | Dil modellerinin matematiksel mantık özelliklerini ölçer. Daha yüksek değerler daha iyidir. |
| Groundedness | TruthfulQA (MC1) | Dil modellerinin çoktan seçmeli temellilik/ doğruluk değerlendirmesi. Daha yüksek değerler daha iyidir. |
Ekleme modellerinin kalite karşılaştırmaları
Ekleme modellerinin kalite dizini, Bilgi Alma, Belge Kümelemesi ve Özetleme görevlerini hedefleyen kapsamlı bir sunucusuz API karşılaştırma veri kümesinin ortalama doğruluk puanları olarak tanımlanır.
| Ölçü birimi | Description |
|---|---|
| Doğruluk | Doğruluk, işlenen toplam tahmin sayısı arasında doğru tahminlerin oranıdır. |
| F1 Puanı | F1 Skoru, kesinlik ve geri çağırmanın ağırlıklı ortalamasıdır; en iyi değer bir (mükemmel kesinlik ve geri çağırma), en kötü değer sıfırdır. |
| Ortalama kesinlik (MAP) | MAP, derecelendirme ve öneren sistemlerin kalitesini değerlendirir. Hem önerilen öğelerin ilgi düzeyini hem de sistemin en üste daha ilgili öğeler yerleştirme konusunda ne kadar iyi olduğunu ölçer. Değerler sıfırdan bire kadar değişebilir ve MAP ne kadar yüksek olursa sistem ilgili öğeleri o kadar yüksek bir listeye yerleştirebilir. |
| Normalleştirilmiş indirimli kümülatif kazanç (NDCG) | NDCG, makine öğrenmesi algoritmasının ilgi düzeyine göre öğeleri sıralama becerisini değerlendirir. Derecelendirmeleri, tüm ilgili öğelerin listenin en üstünde yer aldığı ideal bir sıralamayla karşılaştırır; burada k, derecelendirme kalitesini değerlendirirken listenin uzunluğudur. Bu karşılaştırmalarda, k=10, ölçümüyle ndcg_at_10gösterilir; yani ilk 10 öğe değerlendirilir. |
| Hassasiyet | Modelin belirli bir sınıfın örneklerini doğru tanımlama becerisini ölçen metrik hassasiyettir. Duyarlık, hedef sınıfı tahmin ederken makine öğrenmesi modelinin ne sıklıkta doğru olduğunu gösterir. |
| Spearman bağıntısı | Kosinüs benzerliğine dayalı Spearman bağıntısı, önce değişkenler arasındaki kosinüs benzerliğini hesaplayarak, sonra bu puanları derecelendirmek ve Spearman bağıntısını hesaplamak için dereceleri kullanarak hesaplanır. |
| V ölçüsü | V ölçüsü, kümelemenin kalitesini değerlendirmek için kullanılan bir ölçümdür. V ölçüsü homojenlik ve bütünlük harmonik ortalaması olarak hesaplanır ve anlamlı bir puan için ikisi arasında bir denge sağlar. Olası puanlar sıfır ile bir arasında yer alır ve bir puan, etiketlemenin mükemmel bir şekilde tamamlandığını gösterir. |
Puanların hesaplanması
Bireysel puanlar
Karşılaştırma sonuçları, dil modeli değerlendirmesi için yaygın olarak kullanılan genel veri kümelerinden kaynaklanır. Çoğu durumda veriler, verilerin oluşturucuları veya küratörleri tarafından tutulan GitHub depolarında barındırılır. Döküm değerlendirme işlem hatları özgün kaynaklarından veri indirir, her örnek satırdan istemleri ayıklar, model yanıtları oluşturur ve ardından ilgili doğruluk ölçümlerini hesaplar.
Veri kümesini tanıtan makale ve sektör standartlarında belirtildiği gibi, komut oluşturma her veri kümesi için en iyi yöntemleri izler. Çoğu durumda, her istem çeşitli örnekler içerir, yani bu modeli görev için hazırlamak amacıyla eksiksiz soruların ve yanıtların birkaç örneği. Çekim sayısı veri kümesine göre değişir ve her veri kümesinin özgün yayınında belirtilen metodolojiyi izler. Değerlendirme işlem hatları, değerlendirmeden geri tutulan verilerin bir bölümünden soruları ve yanıtları örnekleme yoluyla sahneler yaratır.
Karşılaştırma sınırlamaları
Tüm karşılaştırmalar, sonuçları yorumlarken göz önünde bulundurmanız gereken doğal sınırlamalara sahiptir:
- Kalite karşılaştırmaları: Modeller benzer veriler üzerinde eğitildikçe veya ayarlandıklarından kıyaslama veri kümeleri zaman içinde doygun hale gelebilir. Değerlendirme sonuçları, istem yapısına ve kullanılan az sayıda örneğin miktarına bağlı olarak da farklılık gösterebilir.
- Performans karşılaştırmaları: Ölçümler, sabit giriş-çıkış belirteci oranına ve tek bölgeli dağıtımlara sahip yapay iş yükleri kullanılarak toplanır. Gerçek dünya performansı iş yükü desenlerine, eşzamanlılığa, bölgeye ve dağıtım yapılandırmasına göre farklılık gösterebilir.
- Maliyet karşılaştırmaları: Maliyet tahminleri, üçe bir giriş-çıkış belirteci oranını ve ölçüm sırasında geçerli fiyatlandırmayı temel alır. Gerçek maliyetler iş yükünüze bağlıdır ve fiyatlandırma değişikliklerine tabidir.