Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważna
Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.
Rankingi modeli (wersja zapoznawcza) w portalu Foundry ułatwiają porównywanie modeli w katalogu modeli Foundry przy użyciu standardowych punktów odniesienia modeli branżowych.
Aby rozpocząć, porównaj i wybierz modele przy użyciu rankingu modelu w portalu Foundry.
Szczegółową metodologię testów porównawczych dla każdej kategorii rankingu można przejrzeć:
- Testowanie porównawcze jakości modeli językowych w celu zrozumienia, jak dobrze działają modele na podstawowych zadaniach, takich jak rozumowanie, wiedza, odpowiadanie na pytania, matematyka i kodowanie.
- Testowanie porównawcze bezpieczeństwa modeli językowych w celu zrozumienia, w jaki sposób bezpieczne modele są sprzeczne z szkodliwym generowaniem zachowań.
- Testowanie porównawcze wydajności modeli językowych w celu zrozumienia, w jaki sposób modele działają pod względem opóźnień i przepływności.
- Testowanie porównawcze kosztów modeli językowych w celu zrozumienia szacowanego kosztu korzystania z modeli.
- Ranking scenariuszy porównawczych modeli językowych pomaga w znalezieniu najlepszego modelu dla konkretnego przypadku użycia lub scenariusza.
- Testowanie porównawcze jakości modeli osadzania w celu zrozumienia, jak dobrze działają modele na zadaniach opartych na osadzaniu, w tym wyszukiwania i pobierania.
Jeśli znajdziesz odpowiedni model, możesz otworzyć jego szczegółowe wyniki testów porównawczych w katalogu modeli. Z tego miejsca możesz wdrożyć model, wypróbować go na placu zabaw lub ocenić go na własnych danych. Rankingi obsługują benchmarki dla modeli językowych opartych na tekście (w tym duże modele językowe (LLMs) i małe modele językowe (SLMs)) oraz modele embedingu.
Testy porównawcze modeli oceniają LLMs i SLMs pod względem jakości, bezpieczeństwa, kosztów i przepływności. Modele osadzania są oceniane przy użyciu standardowych testów porównawczych jakości. Rankingi są aktualizowane w miarę udostępniania nowych modeli i zestawów danych testów porównawczych.
Zakres testu porównawczego modelu
Rankingi modeli zawierają wyselekcjonowany wybór tekstowych modeli językowych z katalogu modeli z Foundry. Modele są uwzględniane na podstawie następujących kryteriów:
- Priorytetowe modele bezpośrednie platformy Azure: modele bezpośrednie platformy Azure są wybierane pod kątem istotności typowych scenariuszy generowania sztucznej inteligencji.
- Podstawowe stosowanie testów porównawczych: Modele muszą obsługiwać zadania języka ogólnego przeznaczenia, takie jak rozumowanie, wiedza, odpowiadanie na pytania, rozumowanie matematyczne i kodowanie. Wyspecjalizowane modele (na przykład składanie białek lub kontrola jakości specyficzna dla domeny) i inne modalności nie są obsługiwane.
To określenie zakresu gwarantuje, że rankingi odzwierciedlają bieżące, wysokiej jakości modele istotne dla podstawowych scenariuszy sztucznej inteligencji.
Interpretowanie wyników rankingu
Rankingi ułatwiają porównywanie modeli w wielu wymiarach, dzięki czemu można wybrać odpowiedni model dla danego przypadku użycia. Oto kilka wskazówek dotyczących interpretowania wyników:
- Indeks jakości: indeks o wyższej jakości wskazuje większą ogólną wydajność w zakresie rozumowania, kodowania, matematyki i zadań merytorycznych. Porównaj indeks jakości między modelami, aby zidentyfikować wykonawców na potrzeby zadań językowych ogólnego przeznaczenia.
- Wyniki bezpieczeństwa: niższe wskaźniki powodzenia ataków wskazują na bardziej niezawodne modele. Należy wziąć pod uwagę wyniki bezpieczeństwa wraz z ocenami jakości, szczególnie w przypadku aplikacji skierowanych do klientów, gdzie szkodliwe wyniki są istotnym problemem.
- Kompromisy dotyczące wydajności: użyj metryk opóźnienia i przepływności, aby zrozumieć rzeczywisty czas reakcji modelu. Model o wysokiej jakości, ale wysokim opóźnieniu może nie odpowiadać aplikacjom w czasie rzeczywistym.
- Zagadnienia dotyczące kosztów: Szacowana miara kosztu używa współczynnika trzech do jednego dla tokenów wejściowych do wyjściowych. Dostosuj oczekiwania na podstawie rzeczywistego stosunku danych wejściowych do danych wyjściowych obciążenia.
- Rankingi scenariuszy: jeśli przypadek użycia jest mapowany na określony scenariusz (na przykład kodowanie lub matematyka), zacznij od rankingu scenariusza, aby znaleźć modele zoptymalizowane pod kątem tego zadania, a nie polegać wyłącznie na ogólnym indeksie jakości.
Wskazówka
Testy porównawcze rankingu zapewniają ustandaryzowane porównania między modelami przy użyciu publicznych zestawów danych. Aby ocenić wydajność modelu dla określonych danych i przypadków użycia, zobacz Ocena generowanych aplikacji sztucznej inteligencji.
Testy porównawcze jakości modeli językowych
Foundry ocenia jakość LLMs i SLMs przy użyciu wyników dokładności ze standardowych zestawów danych porównawczych, które mierzą rozumowanie, wiedzę, odpowiadanie na pytania, matematykę i zdolności kodowania.
| Index | Opis |
|---|---|
| Indeks jakości | Obliczane przez średnią z odpowiednich ocen dokładności (exact_match, pass@1, arena_hard) w zestawach danych porównawczych. |
Wartości indeksu jakości wahają się od zera do jednego, gdzie wyższe wartości wskazują lepszą wydajność. Zestawy danych zawarte w indeksie jakości to:
| Nazwa zestawu danych | Kategoria |
|---|---|
| arena_hard | QA |
| bigbench_hard (w dół do 1000 przykładów) | Rozumowanie |
| gpqa | QA |
| humanevalplus | Coding |
| ifeval | Rozumowanie |
| matematyka | Matematyka |
| mbppplus | Coding |
| mmlu_pro (w dół do 1000 przykładów) | Ogólna wiedza |
Zobacz więcej szczegółów w ocenach dokładności:
| Wskaźnik | Opis |
|---|---|
| Dokładność | Wyniki dokładności są dostępne na poziomie zestawu danych i modelu. Na poziomie zestawu danych wynik jest średnią wartością metryki dokładności obliczonej na wszystkich przykładach w zestawie danych. Używana metryka dokładności jest exact_match we wszystkich przypadkach, z wyjątkiem zestawów danych HumanEval i MBPP , które używają pass@1 metryki. Dokładne dopasowanie porównuje wygenerowany tekst modelu z prawidłową odpowiedzią według zestawu danych, zgłaszając jeden, jeśli wygenerowany tekst dokładnie odpowiada odpowiedzi, a zero w przeciwnym przypadku.
pass@1 Metryka mierzy proporcję rozwiązań modelu, które przechodzą zestaw testów jednostkowych w zadaniu generowania kodu. Na poziomie modelu współczynnik dokładności jest średnią dokładności na poziomie zestawu danych dla każdego modelu. |
Wyniki dokładności wahają się od zera do jednego, gdzie wyższe wartości są lepsze.
Testy porównawcze bezpieczeństwa modeli językowych
Testy porównawcze bezpieczeństwa są wybierane za pomocą strukturalnego procesu filtrowania i walidacji, który zapewnia zarówno istotność, jak i rygor. Test porównawczy kwalifikuje się do wdrożenia, jeśli dotyczy wysoko priorytetowych ryzyk. Rankingi bezpieczeństwa obejmują testy porównawcze, które są wystarczająco niezawodne, aby zapewnić znaczące sygnały dotyczące interesujących tematów, ponieważ odnoszą się one do bezpieczeństwa. Rankingi używają HarmBench jako wskaźnika bezpieczeństwa modeli i organizują rankingi scenariuszy w następujący sposób:
| Nazwa zestawu danych | Scenariusz rankingu | Wskaźnik | Interpretacja |
|---|---|---|---|
| HarmBench (standardowy) | Standardowe szkodliwe zachowania | Wskaźnik powodzenia ataku | Niższe wartości oznaczają lepszą niezawodność ataków mających na celu wywołanie standardowej szkodliwej zawartości |
| HarmBench (kontekstowy) | Kontekstowe szkodliwe zachowania | Wskaźnik powodzenia ataku | Niższe wartości oznaczają lepszą odporność na ataki mające na celu wywołanie szkodliwej zawartości kontekstowej. |
| HarmBench (naruszenia praw autorskich) | Naruszenia praw autorskich | Wskaźnik powodzenia ataku | Niższe wartości wskazują silniejszą odporność na naruszenia praw autorskich |
| WMDP | Wiedza w domenach poufnych | Dokładność | Wyższe wartości wskazują większą wiedzę w domenach poufnych |
| Toksyna | Wykrywanie zawartości toksycznej | Wynik F1 | Wyższe wartości wskazują lepszą wydajność wykrywania |
Wykrywanie szkodliwych zachowań
Test porównawczy HarmBench mierzy szkodliwe zachowania przy użyciu monitów zaprojektowanych w celu wywołania niebezpiecznych odpowiedzi. Obejmuje ona siedem kategorii semantycznych:
- Cyberprzestępczość i nieautoryzowane włamanie
- Broń chemiczna i biologiczna lub narkotyki
- Naruszenia praw autorskich
- Dezinformacja i fałszywa informacja
- Nękanie i zastraszanie
- Nielegalne działania
- Ogólne szkody
Te kategorie są pogrupowane w trzy obszary funkcjonalne:
- Standardowe szkodliwe zachowania
- Kontekstowe szkodliwe zachowania
- Naruszenia praw autorskich
Każda kategoria funkcjonalna jest opisywana w osobnym rankingu scenariuszy. Ocena używa bezpośrednich monitów HarmBench (bez ataków) i ewaluatorów HarmBench w celu obliczenia wskaźnika skuteczności ataku (ASR). Niższe wartości ASR oznaczają bezpieczniejsze modele. Żadne strategie ataków nie są używane do oceny, a testy porównawcze modelu są wykonywane z wyłączonymi zabezpieczeniami Foundry Guardrails (wcześniej filtrami zawartości).
Wykrywanie zawartości toksycznej
Toxigen to zestaw danych na dużą skalę do wykrywania niepożądanej i niejawnej mowy nienawiści. Zawiera niejawnie toksyczne i łagodne zdania odwołujące się do 13 grup mniejszościowych. Narzędzie Foundry używa adnotowanych próbek Toxigen i oblicza wyniki F1 w celu mierzenia wydajności klasyfikacji. Wyższe wyniki wskazują na lepsze wykrywanie zawartości toksycznej. Testy porównawcze są wykonywane z wyłączoną funkcją Foundry Guardrails (wcześniej filtrami zawartości).
Poufna wiedza domenowa
Test porównawczy broni masowego rażenia proxy (WMDP) mierzy wiedzę modelową w poufnych domenach, w tym bezpieczeństwo biobezpieczeństwa, cyberbezpieczeństwo i bezpieczeństwo chemiczne. Ranking wykorzystuje średnie wyniki dokładności w zakresie cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego. Wyższy wynik dokładności WMDP oznacza większą wiedzę na temat niebezpiecznych możliwości (gorsze zachowanie z punktu widzenia bezpieczeństwa). Testy porównawcze modelu są wykonywane przy użyciu domyślnych elementów Foundry Guardrails (wcześniej filtrów zawartości). Te bariery ochronne wykrywają i blokują szkodliwe treści dotyczące przemocy, samookaleczenia, treści seksualnych, nienawiści i niesprawiedliwości, jednak nie dotyczą kategorii cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego.
Ograniczenia testów porównawczych bezpieczeństwa
Bezpieczeństwo to złożony temat o kilku wymiarach. Żaden test porównawczy typu open source nie może testować ani reprezentować pełnego bezpieczeństwa systemu we wszystkich scenariuszach. Ponadto wiele testów porównawczych cierpi na nasycenie lub niezgodność między projektem testu porównawczego a definicją ryzyka. Niektóre testy porównawcze również nie mają jasnej dokumentacji dotyczącej tego, w jaki sposób czynniki ryzyka są koncepcyjnie i operacjonalizowane, co utrudnia ocenę, czy wyniki dokładnie przechwytują niuanse rzeczywistych zagrożeń. Te ograniczenia mogą prowadzić do nadmiernego lub niedoceniania wydajności modelu w rzeczywistych scenariuszach bezpieczeństwa.
Testy porównawcze wydajności modeli językowych
Metryki wydajności są agregowane w ciągu 14 dni przy użyciu 24 prób dziennie, a dwa żądania na wersję próbną są wysyłane w odstępach jednej godziny. Jeśli nie określono inaczej, następujące parametry domyślne mają zastosowanie zarówno do wdrożeń bezserwerowego interfejsu API , jak i interfejsu Azure OpenAI:
| Parametr | Wartość | Dotyczy czegoś |
|---|---|---|
| Rejon | Wschodnie stany USA/Wschodnie stany USA 2 | wdrożenia bezserwerowego interfejsu API i interfejsu Azure OpenAI |
| Limit szybkości tokenów na minutę (TPM) | 30 tys. (180 obr./min w oparciu o usługę Azure OpenAI) dla modeli bez rozumowania i 100 tys. dla modeli rozumowania. Nie dotyczy (wdrożenia API bez serwera) |
W przypadku modeli usługi Azure OpenAI wybór jest dostępny dla użytkowników z zakresami limitów szybkości na podstawie typu wdrożenia (bezserwerowego interfejsu API, globalnego, globalnego standardu itd.). W przypadku wdrożeń bezserwerowych interfejsów API to ustawienie jest abstrakcyjne. |
| Liczba żądań | Dwa żądania w wersji próbnej dla każdej godziny (24 próby dziennie) | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Liczba prób/przebiegów | 14 dni z 24 próbami dziennie dla 336 przebiegów | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Długość monitu/kontekstu | Umiarkowana długość | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Liczba przetworzonych tokenów (umiarkowana) | Współczynnik 80:20 dla tokenów wejściowych do tokenów wyjściowych, czyli 800 tokenów wejściowych do 200 tokenów wyjściowych. | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Liczba współbieżnych żądań | Jedno (żądania są wysyłane sekwencyjnie jeden po drugim) | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Dane | Syntetyczne (monity wejściowe przygotowane z tekstu statycznego) | wdrożenia bezserwerowego interfejsu API, Azure OpenAI |
| Typ wdrożenia | bezserwerowe API | Dotyczy tylko usługi Azure OpenAI |
| Streaming | Prawda | Dotyczy wdrożeń bezserwerowych interfejsów API i usługi Azure OpenAI. W przypadku modeli wdrożonych za pośrednictwem zarządzanych zasobów obliczeniowych lub punktów końcowych, gdy przesyłanie strumieniowe nie jest obsługiwane, TTFT jest reprezentowane jako P50 metryki opóźnienia. |
| SKU | Standard_NC24ads_A100_v4 (24 rdzenie, 220 GB pamięci RAM, 64 GB pamięci masowej) | Dotyczy tylko zarządzanych zasobów obliczeniowych (w celu oszacowania kosztów i metryk wydajności) |
Wydajność usług LLM i SLM jest oceniana w następujących metrykach:
| Wskaźnik | Opis |
|---|---|
| Średnia opóźnienia | Średni czas w sekundach przetwarzania żądania obliczonego na wiele żądań. Żądanie jest wysyłane do punktu końcowego co godzinę przez dwa tygodnie, a średnia jest obliczana. |
| Opóźnienie P50 | Mediana (50. percentyl) latencja. 50% żądań zostaje zakończonych w tym czasie. |
| Opóźnienie P90 | opóźnienie na 90. percentylu. 90% żądań jest realizowanych w tym czasie. |
| Opóźnienie P95 | 95. percentylowe opóźnienie. 95% żądań zostaje ukończonych w tym czasie. |
| Opóźnienie (P99) | Opóźnienie w 99. percentylu. 99% żądań zostaje zrealizowanych w tym czasie. |
| Przepustowość GTPS | Wygenerowane tokeny na sekundę (GTPS) to liczba tokenów wyjściowych generowanych na sekundę od momentu wysłania żądania do punktu końcowego. |
| Przepustowość TTPS | Łączna liczba tokenów na sekundę (TTPS) to liczba łącznych tokenów przetworzonych na sekundę, w tym zarówno z monitu wejściowego, jak i wygenerowanych tokenów wyjściowych. W przypadku modeli, które nie obsługują przesyłania strumieniowego, czas do pierwszego tokenu (ttft) reprezentuje wartość opóźnienia P50 (czas potrzebny na odebranie odpowiedzi) |
| Opóźnienie TTFT | Całkowity czas do pierwszego tokenu (TTFT) to czas potrzebny na zwrócenie pierwszego tokenu w odpowiedzi z punktu końcowego po włączeniu przesyłania strumieniowego. |
| Czas między tokenami | Ta metryka to czas między odbieranymi tokenami. |
Funkcja Foundry podsumowuje wydajność przy użyciu:
| Wskaźnik | Opis |
|---|---|
| Opóźnienie | Średni czas pierwszego tokenu. Im niżej, tym lepiej. |
| Przepustowość | Średnie wygenerowane tokeny na sekundę. Wyższe jest lepsze. |
W przypadku metryk wydajności, takich jak opóźnienie lub przepływność, czas pierwszego tokenu i wygenerowane tokeny na sekundę zapewniają lepsze ogólne poczucie typowej wydajności i zachowania modelu. Liczby wydajności są okresowo odświeżane w celu odzwierciedlenia najnowszych konfiguracji wdrożenia.
Testy porównawcze kosztów modeli językowych
Obliczenia kosztów są szacowane przy użyciu punktu końcowego modelu LLM lub SLM hostowanego na platformie Foundry. Platforma Foundry obsługuje wyświetlanie kosztów wdrożeń bezserwerowych interfejsów API i modeli Azure OpenAI. Ponieważ te koszty mogą ulec zmianie, obliczenia kosztów są okresowo odświeżane w celu odzwierciedlenia najnowszych cen.
Koszt usług LLM i SLM jest oceniany w następujących metrykach:
| Wskaźnik | Opis |
|---|---|
| Koszt na tokeny wejściowe | Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wejściowych |
| Koszt na tokeny wyjściowe | Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wyjściowych |
| Szacowany koszt | Koszt to suma kosztu za tokeny wejściowe i tokeny wyjściowe z współczynnikiem 3:1. |
Narzędzie Foundry wyświetla również koszt w następujący sposób:
| Wskaźnik | Opis |
|---|---|
| Koszt | Szacowany koszt dolara amerykańskiego na 1 milion tokenów. Szacowane obciążenie opiera się na współczynniku trzech do jednego pomiędzy tokenami wejściowymi a wyjściowymi. Niższe wartości są lepsze. |
Ranking porównawczy scenariuszy
Rankingi scenariuszy grupują zestawy danych porównawczych na podstawie wspólnych rzeczywistych celów oceny, pozwalając szybko zidentyfikować mocne i słabe strony modelu w odniesieniu do przypadków użycia. Każdy scenariusz agreguje co najmniej jeden publiczny zestaw danych testów porównawczych.
W poniższej tabeli znajdź przypadek użycia w kolumnie Scenariusz , a następnie przejrzyj skojarzone zestawy danych porównawczych i wyniki. Poniższa tabela zawiera podsumowanie dostępnych rankingów scenariuszy oraz skojarzonych z nimi zestawów danych i opisów:
| Scenariusz | Zbiory danych | Opis |
|---|---|---|
| Standardowe szkodliwe zachowanie | HarmBench (standardowy) | Wskaźnik powodzenia ataku na standardowe szkodliwe polecenia. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań. |
| Zachowanie szkodliwe kontekstowo | HarmBench (kontekstowy) | Wskaźnik powodzenia ataku na kontekstowe szkodliwe zapytania. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań. |
| Naruszenia praw autorskich | HarmBench (prawa autorskie) | Wskaźnik skuteczności ataków dla powiadomień o naruszeniu praw autorskich. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań. |
| Wiedza w domenach poufnych | WMDP (bezpieczeństwo biologiczne, bezpieczeństwo chemiczne, cyberbezpieczeństwo) | Dokładność w trzech podzestawach domen poufnych. Wyższa dokładność wskazuje na większą wiedzę na temat poufnych możliwości. Zobacz Wrażliwa wiedza domenowa. |
| Wykrywanie toksyczności | ToxiGen (adnotacja) | Wynik F1 dla zdolności do wykrywania zawartości toksycznej. Wyższe jest lepsze. Zobacz Wykrywanie zawartości toksycznej. |
| Rozumowanie | BIG-Bench Hard (1000 podprzykładów) | Ocena możliwości rozumowania. Wyższe wartości są lepsze. |
| Coding | BigCodeBench (poinstruowanie), HumanEvalPlus, LiveBench (kodowanie), MBPPPlus | Mierzy dokładność zadań związanych z kodem. Wyższe wartości są lepsze. |
| Ogólna wiedza | MMLU-Pro (1K — angielski podprzykład) | Próbka 1000 przykładów zestawu MMLU-Pro tylko w języku angielskim. |
| Pytania i odpowiadanie | Arena-Hard, GPQA (diament) | Adwersyjne preferencje ludzkie QA (Arena-Hard) i QA na poziomie podyplomowym wielodyscyplinarnym (GPQA diamond). Wyższe wartości są lepsze. |
| Matematyka | MATH (500 podprzykładów) | Mierzy matematyczne możliwości rozumowania modeli językowych. Wyższe wartości są lepsze. |
| Groundedness | TruthfulQA (MC1) | Ocena umocowania w rzeczywistości/prawdziwości modeli językowych za pomocą pytań wielokrotnego wyboru. Wyższe wartości są lepsze. |
Testy porównawcze jakości modeli osadzania
Indeks jakości modeli osadzania jest definiowany jako średnie wyniki dokładności kompleksowego zestawu zestawów danych porównawczych bezserwerowego interfejsu API przeznaczonych dla zadań pobierania informacji, klastrowania dokumentów i podsumowania.
| Wskaźnik | Opis |
|---|---|
| Dokładność | Dokładność jest proporcją prawidłowych przewidywań wśród całkowitej liczby przetworzonych przewidywań. |
| Wynik F1 | Wynik F1 jest średnią ważoną precyzji i czułości, gdzie najlepsza wartość to jeden (doskonała precyzja i czułość), a najgorsza to zero. |
| Średnia precyzja (MAP) | MAP ocenia jakość systemów rankingowych i rekomendacyjnych. Mierzy zarówno znaczenie sugerowanych elementów, jak i to, jak dobry jest system w umieszczaniu bardziej odpowiednich elementów u góry. Wartości mogą wahać się od zera do jednego, a im wyższa wartość MAP, tym lepiej system może pozycjonować odpowiednie elementy wysoko na liście. |
| Znormalizowany zysk skumulowany z rabatem (NDCG) | NDCG ocenia zdolność algorytmu uczenia maszynowego do sortowania elementów na podstawie istotności. Porównuje klasyfikacje z idealną kolejnością, w której wszystkie odpowiednie elementy znajdują się na początku listy, gdzie k jest długością listy podczas oceniania jakości klasyfikacji. W tych testach porównawczych k=10, wskazywana przez metrykę ndcg_at_10, co oznacza, że oceniane jest 10 pierwszych elementów. |
| Dokładność | Precyzja mierzy zdolność modelu do prawidłowego identyfikowania wystąpień określonej klasy. Precyzja pokazuje, jak często model uczenia maszynowego jest poprawny podczas przewidywania klasy docelowej. |
| Korelacja Spearman | Korelacja Spearmana oparta na podobieństwie kosinusowym jest obliczana poprzez obliczeniu najpierw podobieństwa kosinusowego między zmiennymi, a następnie porządkowanie tych wyników i używanie tych rang do obliczenia korelacji Spearmana. |
| Miara V | Miara V to metryka używana do oceny jakości klastrowania. Miara V jest obliczana jako średnia harmoniczna homogeniczności i kompletności, zapewniając równowagę między nimi w celu uzyskania znaczącego wyniku. Możliwe wyniki mieszczą się w przedziale od zera do jednego, gdzie jeden oznacza całkowicie kompletne etykietowanie. |
Obliczanie wyników
Indywidualne wyniki
Wyniki testów porównawczych pochodzą z publicznych zestawów danych, które są często używane do oceny modelu językowego. W większości przypadków dane są hostowane w repozytoriach GitHub obsługiwanych przez twórców lub kuratorów danych. Potoki oceny Foundry pobierają dane ze swoich oryginalnych źródeł, wyodrębniają podpowiedzi z każdego przykładowego wiersza, generują odpowiedzi modelu, a następnie obliczają istotne metryki dokładności.
Tworzenie monitów jest zgodne z najlepszymi praktykami dla każdego zestawu danych, zgodnie z dokumentem przedstawiającym zestaw danych i standardami branżowymi. W większości przypadków każda prośba zawiera kilka prób, czyli kilka przykładów pełnych pytań i odpowiedzi, aby przygotować model do zadania. Liczba zdjęć różni się w zależności od zestawu danych i jest zgodna z metodologią określoną w oryginalnej publikacji każdego zestawu danych. Potoki oceny tworzą zdjęcia, próbkując pytania i odpowiedzi na podstawie części danych przechowywanych na podstawie oceny.
Ograniczenia testów porównawczych
Wszystkie testy porównawcze mają nieodłączne ograniczenia, które należy wziąć pod uwagę podczas interpretowania wyników:
- Testy porównawcze jakości: zestawy danych porównawczych mogą być nasycone wraz z upływem czasu, ponieważ modele są trenowane lub dostrojone na podobnych danych. Wyniki oceny mogą się również różnić w zależności od konstrukcji promptu i liczby użytych kilku przykładów.
- Testy porównawcze wydajności: Metryki są zbierane przy użyciu syntetycznych obciążeń z stałym współczynnikiem tokenu wejściowego do danych wyjściowych i wdrożeniami w jednym regionie. Rzeczywista wydajność może się różnić w zależności od wzorców obciążeń, współbieżności, regionu i konfiguracji wdrożenia.
- Wskaźniki kosztów: szacowanie kosztów jest oparte na stosunku trzech tokenów wejściowych do jednego tokenu wyjściowego oraz aktualnych cenach w momencie pomiaru. Rzeczywiste koszty zależą od obciążenia i podlegają zmianom cen.