Rankingi modeli w portalu Microsoft Foundry (wersja zapoznawcza)

Ważna

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Rankingi modeli (wersja zapoznawcza) w portalu Foundry ułatwiają porównywanie modeli w katalogu modeli Foundry przy użyciu standardowych punktów odniesienia modeli branżowych.

Aby rozpocząć, porównaj i wybierz modele przy użyciu rankingu modelu w portalu Foundry.

Szczegółową metodologię testów porównawczych dla każdej kategorii rankingu można przejrzeć:

Testowanie porównawcze jakości modeli językowych w celu zrozumienia, jak dobrze działają modele na podstawowych zadaniach, takich jak rozumowanie, wiedza, odpowiadanie na pytania, matematyka i kodowanie.
Testowanie porównawcze bezpieczeństwa modeli językowych w celu zrozumienia, w jaki sposób bezpieczne modele są sprzeczne z szkodliwym generowaniem zachowań.
Testowanie porównawcze wydajności modeli językowych w celu zrozumienia, w jaki sposób modele działają pod względem opóźnień i przepływności.
Testowanie porównawcze kosztów modeli językowych w celu zrozumienia szacowanego kosztu korzystania z modeli.
Ranking scenariuszy porównawczych modeli językowych pomaga w znalezieniu najlepszego modelu dla konkretnego przypadku użycia lub scenariusza.
Testowanie porównawcze jakości modeli osadzania w celu zrozumienia, jak dobrze działają modele na zadaniach opartych na osadzaniu, w tym wyszukiwania i pobierania.

Jeśli znajdziesz odpowiedni model, możesz otworzyć jego szczegółowe wyniki testów porównawczych w katalogu modeli. Z tego miejsca możesz wdrożyć model, wypróbować go na placu zabaw lub ocenić go na własnych danych. Rankingi obsługują benchmarki dla modeli językowych opartych na tekście (w tym duże modele językowe (LLMs) i małe modele językowe (SLMs)) oraz modele embedingu.

Testy porównawcze modeli oceniają LLMs i SLMs pod względem jakości, bezpieczeństwa, kosztów i przepływności. Modele osadzania są oceniane przy użyciu standardowych testów porównawczych jakości. Rankingi są aktualizowane w miarę udostępniania nowych modeli i zestawów danych testów porównawczych.

Zakres testu porównawczego modelu

Rankingi modeli zawierają wyselekcjonowany wybór tekstowych modeli językowych z katalogu modeli z Foundry. Modele są uwzględniane na podstawie następujących kryteriów:

Priorytetowe modele bezpośrednie platformy Azure: modele bezpośrednie platformy Azure są wybierane pod kątem istotności typowych scenariuszy generowania sztucznej inteligencji.
Podstawowe stosowanie testów porównawczych: Modele muszą obsługiwać zadania języka ogólnego przeznaczenia, takie jak rozumowanie, wiedza, odpowiadanie na pytania, rozumowanie matematyczne i kodowanie. Wyspecjalizowane modele (na przykład składanie białek lub kontrola jakości specyficzna dla domeny) i inne modalności nie są obsługiwane.

To określenie zakresu gwarantuje, że rankingi odzwierciedlają bieżące, wysokiej jakości modele istotne dla podstawowych scenariuszy sztucznej inteligencji.

Interpretowanie wyników rankingu

Rankingi ułatwiają porównywanie modeli w wielu wymiarach, dzięki czemu można wybrać odpowiedni model dla danego przypadku użycia. Oto kilka wskazówek dotyczących interpretowania wyników:

Indeks jakości: indeks o wyższej jakości wskazuje większą ogólną wydajność w zakresie rozumowania, kodowania, matematyki i zadań merytorycznych. Porównaj indeks jakości między modelami, aby zidentyfikować wykonawców na potrzeby zadań językowych ogólnego przeznaczenia.
Wyniki bezpieczeństwa: niższe wskaźniki powodzenia ataków wskazują na bardziej niezawodne modele. Należy wziąć pod uwagę wyniki bezpieczeństwa wraz z ocenami jakości, szczególnie w przypadku aplikacji skierowanych do klientów, gdzie szkodliwe wyniki są istotnym problemem.
Kompromisy dotyczące wydajności: użyj metryk opóźnienia i przepływności, aby zrozumieć rzeczywisty czas reakcji modelu. Model o wysokiej jakości, ale wysokim opóźnieniu może nie odpowiadać aplikacjom w czasie rzeczywistym.
Zagadnienia dotyczące kosztów: Szacowana miara kosztu używa współczynnika trzech do jednego dla tokenów wejściowych do wyjściowych. Dostosuj oczekiwania na podstawie rzeczywistego stosunku danych wejściowych do danych wyjściowych obciążenia.
Rankingi scenariuszy: jeśli przypadek użycia jest mapowany na określony scenariusz (na przykład kodowanie lub matematyka), zacznij od rankingu scenariusza, aby znaleźć modele zoptymalizowane pod kątem tego zadania, a nie polegać wyłącznie na ogólnym indeksie jakości.

Wskazówka

Testy porównawcze rankingu zapewniają ustandaryzowane porównania między modelami przy użyciu publicznych zestawów danych. Aby ocenić wydajność modelu dla określonych danych i przypadków użycia, zobacz Ocena generowanych aplikacji sztucznej inteligencji.

Testy porównawcze jakości modeli językowych

Foundry ocenia jakość LLMs i SLMs przy użyciu wyników dokładności ze standardowych zestawów danych porównawczych, które mierzą rozumowanie, wiedzę, odpowiadanie na pytania, matematykę i zdolności kodowania.

Index	Opis
Indeks jakości	Obliczane przez średnią z odpowiednich ocen dokładności (`exact_match`, `pass@1`, `arena_hard`) w zestawach danych porównawczych.

Wartości indeksu jakości wahają się od zera do jednego, gdzie wyższe wartości wskazują lepszą wydajność. Zestawy danych zawarte w indeksie jakości to:

Nazwa zestawu danych	Kategoria
arena_hard	QA
bigbench_hard (w dół do 1000 przykładów)	Rozumowanie
gpqa	QA
humanevalplus	Coding
ifeval	Rozumowanie
matematyka	Matematyka
mbppplus	Coding
mmlu_pro (w dół do 1000 przykładów)	Ogólna wiedza

Zobacz więcej szczegółów w ocenach dokładności:

Wskaźnik Opis

Dokładność Wyniki dokładności są dostępne na poziomie zestawu danych i modelu. Na poziomie zestawu danych wynik jest średnią wartością metryki dokładności obliczonej na wszystkich przykładach w zestawie danych. Używana metryka dokładności jest exact_match we wszystkich przypadkach, z wyjątkiem zestawów danych HumanEval i MBPP , które używają pass@1 metryki. Dokładne dopasowanie porównuje wygenerowany tekst modelu z prawidłową odpowiedzią według zestawu danych, zgłaszając jeden, jeśli wygenerowany tekst dokładnie odpowiada odpowiedzi, a zero w przeciwnym przypadku. pass@1 Metryka mierzy proporcję rozwiązań modelu, które przechodzą zestaw testów jednostkowych w zadaniu generowania kodu. Na poziomie modelu współczynnik dokładności jest średnią dokładności na poziomie zestawu danych dla każdego modelu.

Wskaźnik	Opis
Dokładność	Wyniki dokładności są dostępne na poziomie zestawu danych i modelu. Na poziomie zestawu danych wynik jest średnią wartością metryki dokładności obliczonej na wszystkich przykładach w zestawie danych. Używana metryka dokładności jest `exact_match` we wszystkich przypadkach, z wyjątkiem zestawów danych HumanEval i MBPP , które używają `pass@1` metryki. Dokładne dopasowanie porównuje wygenerowany tekst modelu z prawidłową odpowiedzią według zestawu danych, zgłaszając jeden, jeśli wygenerowany tekst dokładnie odpowiada odpowiedzi, a zero w przeciwnym przypadku. `pass@1` Metryka mierzy proporcję rozwiązań modelu, które przechodzą zestaw testów jednostkowych w zadaniu generowania kodu. Na poziomie modelu współczynnik dokładności jest średnią dokładności na poziomie zestawu danych dla każdego modelu.

Wyniki dokładności wahają się od zera do jednego, gdzie wyższe wartości są lepsze.

Testy porównawcze bezpieczeństwa modeli językowych

Testy porównawcze bezpieczeństwa są wybierane za pomocą strukturalnego procesu filtrowania i walidacji, który zapewnia zarówno istotność, jak i rygor. Test porównawczy kwalifikuje się do wdrożenia, jeśli dotyczy wysoko priorytetowych ryzyk. Rankingi bezpieczeństwa obejmują testy porównawcze, które są wystarczająco niezawodne, aby zapewnić znaczące sygnały dotyczące interesujących tematów, ponieważ odnoszą się one do bezpieczeństwa. Rankingi używają HarmBench jako wskaźnika bezpieczeństwa modeli i organizują rankingi scenariuszy w następujący sposób:

Nazwa zestawu danych	Scenariusz rankingu	Wskaźnik	Interpretacja
HarmBench (standardowy)	Standardowe szkodliwe zachowania	Wskaźnik powodzenia ataku	Niższe wartości oznaczają lepszą niezawodność ataków mających na celu wywołanie standardowej szkodliwej zawartości
HarmBench (kontekstowy)	Kontekstowe szkodliwe zachowania	Wskaźnik powodzenia ataku	Niższe wartości oznaczają lepszą odporność na ataki mające na celu wywołanie szkodliwej zawartości kontekstowej.
HarmBench (naruszenia praw autorskich)	Naruszenia praw autorskich	Wskaźnik powodzenia ataku	Niższe wartości wskazują silniejszą odporność na naruszenia praw autorskich
WMDP	Wiedza w domenach poufnych	Dokładność	Wyższe wartości wskazują większą wiedzę w domenach poufnych
Toksyna	Wykrywanie zawartości toksycznej	Wynik F1	Wyższe wartości wskazują lepszą wydajność wykrywania

Wykrywanie szkodliwych zachowań

Test porównawczy HarmBench mierzy szkodliwe zachowania przy użyciu monitów zaprojektowanych w celu wywołania niebezpiecznych odpowiedzi. Obejmuje ona siedem kategorii semantycznych:

Cyberprzestępczość i nieautoryzowane włamanie
Broń chemiczna i biologiczna lub narkotyki
Naruszenia praw autorskich
Dezinformacja i fałszywa informacja
Nękanie i zastraszanie
Nielegalne działania
Ogólne szkody

Te kategorie są pogrupowane w trzy obszary funkcjonalne:

Standardowe szkodliwe zachowania
Kontekstowe szkodliwe zachowania
Naruszenia praw autorskich

Każda kategoria funkcjonalna jest opisywana w osobnym rankingu scenariuszy. Ocena używa bezpośrednich monitów HarmBench (bez ataków) i ewaluatorów HarmBench w celu obliczenia wskaźnika skuteczności ataku (ASR). Niższe wartości ASR oznaczają bezpieczniejsze modele. Żadne strategie ataków nie są używane do oceny, a testy porównawcze modelu są wykonywane z wyłączonymi zabezpieczeniami Foundry Guardrails (wcześniej filtrami zawartości).

Wykrywanie zawartości toksycznej

Toxigen to zestaw danych na dużą skalę do wykrywania niepożądanej i niejawnej mowy nienawiści. Zawiera niejawnie toksyczne i łagodne zdania odwołujące się do 13 grup mniejszościowych. Narzędzie Foundry używa adnotowanych próbek Toxigen i oblicza wyniki F1 w celu mierzenia wydajności klasyfikacji. Wyższe wyniki wskazują na lepsze wykrywanie zawartości toksycznej. Testy porównawcze są wykonywane z wyłączoną funkcją Foundry Guardrails (wcześniej filtrami zawartości).

Poufna wiedza domenowa

Test porównawczy broni masowego rażenia proxy (WMDP) mierzy wiedzę modelową w poufnych domenach, w tym bezpieczeństwo biobezpieczeństwa, cyberbezpieczeństwo i bezpieczeństwo chemiczne. Ranking wykorzystuje średnie wyniki dokładności w zakresie cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego. Wyższy wynik dokładności WMDP oznacza większą wiedzę na temat niebezpiecznych możliwości (gorsze zachowanie z punktu widzenia bezpieczeństwa). Testy porównawcze modelu są wykonywane przy użyciu domyślnych elementów Foundry Guardrails (wcześniej filtrów zawartości). Te bariery ochronne wykrywają i blokują szkodliwe treści dotyczące przemocy, samookaleczenia, treści seksualnych, nienawiści i niesprawiedliwości, jednak nie dotyczą kategorii cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego.

Ograniczenia testów porównawczych bezpieczeństwa

Bezpieczeństwo to złożony temat o kilku wymiarach. Żaden test porównawczy typu open source nie może testować ani reprezentować pełnego bezpieczeństwa systemu we wszystkich scenariuszach. Ponadto wiele testów porównawczych cierpi na nasycenie lub niezgodność między projektem testu porównawczego a definicją ryzyka. Niektóre testy porównawcze również nie mają jasnej dokumentacji dotyczącej tego, w jaki sposób czynniki ryzyka są koncepcyjnie i operacjonalizowane, co utrudnia ocenę, czy wyniki dokładnie przechwytują niuanse rzeczywistych zagrożeń. Te ograniczenia mogą prowadzić do nadmiernego lub niedoceniania wydajności modelu w rzeczywistych scenariuszach bezpieczeństwa.

Testy porównawcze wydajności modeli językowych

Metryki wydajności są agregowane w ciągu 14 dni przy użyciu 24 prób dziennie, a dwa żądania na wersję próbną są wysyłane w odstępach jednej godziny. Jeśli nie określono inaczej, następujące parametry domyślne mają zastosowanie zarówno do wdrożeń bezserwerowego interfejsu API , jak i interfejsu Azure OpenAI:

Parametr	Wartość	Dotyczy czegoś
Rejon	Wschodnie stany USA/Wschodnie stany USA 2	wdrożenia bezserwerowego interfejsu API i interfejsu Azure OpenAI
Limit szybkości tokenów na minutę (TPM)	30 tys. (180 obr./min w oparciu o usługę Azure OpenAI) dla modeli bez rozumowania i 100 tys. dla modeli rozumowania. Nie dotyczy (wdrożenia API bez serwera)	W przypadku modeli usługi Azure OpenAI wybór jest dostępny dla użytkowników z zakresami limitów szybkości na podstawie typu wdrożenia (bezserwerowego interfejsu API, globalnego, globalnego standardu itd.). W przypadku wdrożeń bezserwerowych interfejsów API to ustawienie jest abstrakcyjne.
Liczba żądań	Dwa żądania w wersji próbnej dla każdej godziny (24 próby dziennie)	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba prób/przebiegów	14 dni z 24 próbami dziennie dla 336 przebiegów	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Długość monitu/kontekstu	Umiarkowana długość	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba przetworzonych tokenów (umiarkowana)	Współczynnik 80:20 dla tokenów wejściowych do tokenów wyjściowych, czyli 800 tokenów wejściowych do 200 tokenów wyjściowych.	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba współbieżnych żądań	Jedno (żądania są wysyłane sekwencyjnie jeden po drugim)	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Dane	Syntetyczne (monity wejściowe przygotowane z tekstu statycznego)	wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Typ wdrożenia	bezserwerowe API	Dotyczy tylko usługi Azure OpenAI
Streaming	Prawda	Dotyczy wdrożeń bezserwerowych interfejsów API i usługi Azure OpenAI. W przypadku modeli wdrożonych za pośrednictwem zarządzanych zasobów obliczeniowych lub punktów końcowych, gdy przesyłanie strumieniowe nie jest obsługiwane, TTFT jest reprezentowane jako P50 metryki opóźnienia.
SKU	Standard_NC24ads_A100_v4 (24 rdzenie, 220 GB pamięci RAM, 64 GB pamięci masowej)	Dotyczy tylko zarządzanych zasobów obliczeniowych (w celu oszacowania kosztów i metryk wydajności)

Wydajność usług LLM i SLM jest oceniana w następujących metrykach:

Wskaźnik	Opis
Średnia opóźnienia	Średni czas w sekundach przetwarzania żądania obliczonego na wiele żądań. Żądanie jest wysyłane do punktu końcowego co godzinę przez dwa tygodnie, a średnia jest obliczana.
Opóźnienie P50	Mediana (50. percentyl) latencja. 50% żądań zostaje zakończonych w tym czasie.
Opóźnienie P90	opóźnienie na 90. percentylu. 90% żądań jest realizowanych w tym czasie.
Opóźnienie P95	95. percentylowe opóźnienie. 95% żądań zostaje ukończonych w tym czasie.
Opóźnienie (P99)	Opóźnienie w 99. percentylu. 99% żądań zostaje zrealizowanych w tym czasie.
Przepustowość GTPS	Wygenerowane tokeny na sekundę (GTPS) to liczba tokenów wyjściowych generowanych na sekundę od momentu wysłania żądania do punktu końcowego.
Przepustowość TTPS	Łączna liczba tokenów na sekundę (TTPS) to liczba łącznych tokenów przetworzonych na sekundę, w tym zarówno z monitu wejściowego, jak i wygenerowanych tokenów wyjściowych. W przypadku modeli, które nie obsługują przesyłania strumieniowego, czas do pierwszego tokenu (ttft) reprezentuje wartość opóźnienia P50 (czas potrzebny na odebranie odpowiedzi)
Opóźnienie TTFT	Całkowity czas do pierwszego tokenu (TTFT) to czas potrzebny na zwrócenie pierwszego tokenu w odpowiedzi z punktu końcowego po włączeniu przesyłania strumieniowego.
Czas między tokenami	Ta metryka to czas między odbieranymi tokenami.

Funkcja Foundry podsumowuje wydajność przy użyciu:

Wskaźnik	Opis
Opóźnienie	Średni czas pierwszego tokenu. Im niżej, tym lepiej.
Przepustowość	Średnie wygenerowane tokeny na sekundę. Wyższe jest lepsze.

W przypadku metryk wydajności, takich jak opóźnienie lub przepływność, czas pierwszego tokenu i wygenerowane tokeny na sekundę zapewniają lepsze ogólne poczucie typowej wydajności i zachowania modelu. Liczby wydajności są okresowo odświeżane w celu odzwierciedlenia najnowszych konfiguracji wdrożenia.

Testy porównawcze kosztów modeli językowych

Obliczenia kosztów są szacowane przy użyciu punktu końcowego modelu LLM lub SLM hostowanego na platformie Foundry. Platforma Foundry obsługuje wyświetlanie kosztów wdrożeń bezserwerowych interfejsów API i modeli Azure OpenAI. Ponieważ te koszty mogą ulec zmianie, obliczenia kosztów są okresowo odświeżane w celu odzwierciedlenia najnowszych cen.

Koszt usług LLM i SLM jest oceniany w następujących metrykach:

Wskaźnik	Opis
Koszt na tokeny wejściowe	Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wejściowych
Koszt na tokeny wyjściowe	Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wyjściowych
Szacowany koszt	Koszt to suma kosztu za tokeny wejściowe i tokeny wyjściowe z współczynnikiem 3:1.

Narzędzie Foundry wyświetla również koszt w następujący sposób:

Wskaźnik	Opis
Koszt	Szacowany koszt dolara amerykańskiego na 1 milion tokenów. Szacowane obciążenie opiera się na współczynniku trzech do jednego pomiędzy tokenami wejściowymi a wyjściowymi. Niższe wartości są lepsze.

Ranking porównawczy scenariuszy

Rankingi scenariuszy grupują zestawy danych porównawczych na podstawie wspólnych rzeczywistych celów oceny, pozwalając szybko zidentyfikować mocne i słabe strony modelu w odniesieniu do przypadków użycia. Każdy scenariusz agreguje co najmniej jeden publiczny zestaw danych testów porównawczych.

W poniższej tabeli znajdź przypadek użycia w kolumnie Scenariusz , a następnie przejrzyj skojarzone zestawy danych porównawczych i wyniki. Poniższa tabela zawiera podsumowanie dostępnych rankingów scenariuszy oraz skojarzonych z nimi zestawów danych i opisów:

Scenariusz	Zbiory danych	Opis
Standardowe szkodliwe zachowanie	HarmBench (standardowy)	Wskaźnik powodzenia ataku na standardowe szkodliwe polecenia. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Zachowanie szkodliwe kontekstowo	HarmBench (kontekstowy)	Wskaźnik powodzenia ataku na kontekstowe szkodliwe zapytania. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Naruszenia praw autorskich	HarmBench (prawa autorskie)	Wskaźnik skuteczności ataków dla powiadomień o naruszeniu praw autorskich. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Wiedza w domenach poufnych	WMDP (bezpieczeństwo biologiczne, bezpieczeństwo chemiczne, cyberbezpieczeństwo)	Dokładność w trzech podzestawach domen poufnych. Wyższa dokładność wskazuje na większą wiedzę na temat poufnych możliwości. Zobacz Wrażliwa wiedza domenowa.
Wykrywanie toksyczności	ToxiGen (adnotacja)	Wynik F1 dla zdolności do wykrywania zawartości toksycznej. Wyższe jest lepsze. Zobacz Wykrywanie zawartości toksycznej.
Rozumowanie	BIG-Bench Hard (1000 podprzykładów)	Ocena możliwości rozumowania. Wyższe wartości są lepsze.
Coding	BigCodeBench (poinstruowanie), HumanEvalPlus, LiveBench (kodowanie), MBPPPlus	Mierzy dokładność zadań związanych z kodem. Wyższe wartości są lepsze.
Ogólna wiedza	MMLU-Pro (1K — angielski podprzykład)	Próbka 1000 przykładów zestawu MMLU-Pro tylko w języku angielskim.
Pytania i odpowiadanie	Arena-Hard, GPQA (diament)	Adwersyjne preferencje ludzkie QA (Arena-Hard) i QA na poziomie podyplomowym wielodyscyplinarnym (GPQA diamond). Wyższe wartości są lepsze.
Matematyka	MATH (500 podprzykładów)	Mierzy matematyczne możliwości rozumowania modeli językowych. Wyższe wartości są lepsze.
Groundedness	TruthfulQA (MC1)	Ocena umocowania w rzeczywistości/prawdziwości modeli językowych za pomocą pytań wielokrotnego wyboru. Wyższe wartości są lepsze.

Testy porównawcze jakości modeli osadzania

Indeks jakości modeli osadzania jest definiowany jako średnie wyniki dokładności kompleksowego zestawu zestawów danych porównawczych bezserwerowego interfejsu API przeznaczonych dla zadań pobierania informacji, klastrowania dokumentów i podsumowania.

Wskaźnik	Opis
Dokładność	Dokładność jest proporcją prawidłowych przewidywań wśród całkowitej liczby przetworzonych przewidywań.
Wynik F1	Wynik F1 jest średnią ważoną precyzji i czułości, gdzie najlepsza wartość to jeden (doskonała precyzja i czułość), a najgorsza to zero.
Średnia precyzja (MAP)	MAP ocenia jakość systemów rankingowych i rekomendacyjnych. Mierzy zarówno znaczenie sugerowanych elementów, jak i to, jak dobry jest system w umieszczaniu bardziej odpowiednich elementów u góry. Wartości mogą wahać się od zera do jednego, a im wyższa wartość MAP, tym lepiej system może pozycjonować odpowiednie elementy wysoko na liście.
Znormalizowany zysk skumulowany z rabatem (NDCG)	NDCG ocenia zdolność algorytmu uczenia maszynowego do sortowania elementów na podstawie istotności. Porównuje klasyfikacje z idealną kolejnością, w której wszystkie odpowiednie elementy znajdują się na początku listy, gdzie k jest długością listy podczas oceniania jakości klasyfikacji. W tych testach porównawczych k=10, wskazywana przez metrykę `ndcg_at_10`, co oznacza, że oceniane jest 10 pierwszych elementów.
Dokładność	Precyzja mierzy zdolność modelu do prawidłowego identyfikowania wystąpień określonej klasy. Precyzja pokazuje, jak często model uczenia maszynowego jest poprawny podczas przewidywania klasy docelowej.
Korelacja Spearman	Korelacja Spearmana oparta na podobieństwie kosinusowym jest obliczana poprzez obliczeniu najpierw podobieństwa kosinusowego między zmiennymi, a następnie porządkowanie tych wyników i używanie tych rang do obliczenia korelacji Spearmana.
Miara V	Miara V to metryka używana do oceny jakości klastrowania. Miara V jest obliczana jako średnia harmoniczna homogeniczności i kompletności, zapewniając równowagę między nimi w celu uzyskania znaczącego wyniku. Możliwe wyniki mieszczą się w przedziale od zera do jednego, gdzie jeden oznacza całkowicie kompletne etykietowanie.

Obliczanie wyników

Indywidualne wyniki

Wyniki testów porównawczych pochodzą z publicznych zestawów danych, które są często używane do oceny modelu językowego. W większości przypadków dane są hostowane w repozytoriach GitHub obsługiwanych przez twórców lub kuratorów danych. Potoki oceny Foundry pobierają dane ze swoich oryginalnych źródeł, wyodrębniają podpowiedzi z każdego przykładowego wiersza, generują odpowiedzi modelu, a następnie obliczają istotne metryki dokładności.

Tworzenie monitów jest zgodne z najlepszymi praktykami dla każdego zestawu danych, zgodnie z dokumentem przedstawiającym zestaw danych i standardami branżowymi. W większości przypadków każda prośba zawiera kilka prób, czyli kilka przykładów pełnych pytań i odpowiedzi, aby przygotować model do zadania. Liczba zdjęć różni się w zależności od zestawu danych i jest zgodna z metodologią określoną w oryginalnej publikacji każdego zestawu danych. Potoki oceny tworzą zdjęcia, próbkując pytania i odpowiedzi na podstawie części danych przechowywanych na podstawie oceny.

Ograniczenia testów porównawczych

Wszystkie testy porównawcze mają nieodłączne ograniczenia, które należy wziąć pod uwagę podczas interpretowania wyników:

Testy porównawcze jakości: zestawy danych porównawczych mogą być nasycone wraz z upływem czasu, ponieważ modele są trenowane lub dostrojone na podobnych danych. Wyniki oceny mogą się również różnić w zależności od konstrukcji promptu i liczby użytych kilku przykładów.
Testy porównawcze wydajności: Metryki są zbierane przy użyciu syntetycznych obciążeń z stałym współczynnikiem tokenu wejściowego do danych wyjściowych i wdrożeniami w jednym regionie. Rzeczywista wydajność może się różnić w zależności od wzorców obciążeń, współbieżności, regionu i konfiguracji wdrożenia.
Wskaźniki kosztów: szacowanie kosztów jest oparte na stosunku trzech tokenów wejściowych do jednego tokenu wyjściowego oraz aktualnych cenach w momencie pomiaru. Rzeczywiste koszty zależą od obciążenia i podlegają zmianom cen.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-02-28