Udostępnij przez


Rankingi modeli w portalu Microsoft Foundry (wersja zapoznawcza)

Ważna

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Rankingi modeli (wersja zapoznawcza) w portalu Foundry ułatwiają porównywanie modeli w katalogu modeli Foundry przy użyciu standardowych punktów odniesienia modeli branżowych.

Aby rozpocząć, porównaj i wybierz modele przy użyciu rankingu modelu w portalu Foundry.

Szczegółową metodologię testów porównawczych dla każdej kategorii rankingu można przejrzeć:

Jeśli znajdziesz odpowiedni model, możesz otworzyć jego szczegółowe wyniki testów porównawczych w katalogu modeli. Z tego miejsca możesz wdrożyć model, wypróbować go na placu zabaw lub ocenić go na własnych danych. Rankingi obsługują benchmarki dla modeli językowych opartych na tekście (w tym duże modele językowe (LLMs) i małe modele językowe (SLMs)) oraz modele embedingu.

Testy porównawcze modeli oceniają LLMs i SLMs pod względem jakości, bezpieczeństwa, kosztów i przepływności. Modele osadzania są oceniane przy użyciu standardowych testów porównawczych jakości. Rankingi są aktualizowane w miarę udostępniania nowych modeli i zestawów danych testów porównawczych.

Zakres testu porównawczego modelu

Rankingi modeli zawierają wyselekcjonowany wybór tekstowych modeli językowych z katalogu modeli z Foundry. Modele są uwzględniane na podstawie następujących kryteriów:

  • Priorytetowe modele bezpośrednie platformy Azure: modele bezpośrednie platformy Azure są wybierane pod kątem istotności typowych scenariuszy generowania sztucznej inteligencji.
  • Podstawowe stosowanie testów porównawczych: Modele muszą obsługiwać zadania języka ogólnego przeznaczenia, takie jak rozumowanie, wiedza, odpowiadanie na pytania, rozumowanie matematyczne i kodowanie. Wyspecjalizowane modele (na przykład składanie białek lub kontrola jakości specyficzna dla domeny) i inne modalności nie są obsługiwane.

To określenie zakresu gwarantuje, że rankingi odzwierciedlają bieżące, wysokiej jakości modele istotne dla podstawowych scenariuszy sztucznej inteligencji.

Interpretowanie wyników rankingu

Rankingi ułatwiają porównywanie modeli w wielu wymiarach, dzięki czemu można wybrać odpowiedni model dla danego przypadku użycia. Oto kilka wskazówek dotyczących interpretowania wyników:

  • Indeks jakości: indeks o wyższej jakości wskazuje większą ogólną wydajność w zakresie rozumowania, kodowania, matematyki i zadań merytorycznych. Porównaj indeks jakości między modelami, aby zidentyfikować wykonawców na potrzeby zadań językowych ogólnego przeznaczenia.
  • Wyniki bezpieczeństwa: niższe wskaźniki powodzenia ataków wskazują na bardziej niezawodne modele. Należy wziąć pod uwagę wyniki bezpieczeństwa wraz z ocenami jakości, szczególnie w przypadku aplikacji skierowanych do klientów, gdzie szkodliwe wyniki są istotnym problemem.
  • Kompromisy dotyczące wydajności: użyj metryk opóźnienia i przepływności, aby zrozumieć rzeczywisty czas reakcji modelu. Model o wysokiej jakości, ale wysokim opóźnieniu może nie odpowiadać aplikacjom w czasie rzeczywistym.
  • Zagadnienia dotyczące kosztów: Szacowana miara kosztu używa współczynnika trzech do jednego dla tokenów wejściowych do wyjściowych. Dostosuj oczekiwania na podstawie rzeczywistego stosunku danych wejściowych do danych wyjściowych obciążenia.
  • Rankingi scenariuszy: jeśli przypadek użycia jest mapowany na określony scenariusz (na przykład kodowanie lub matematyka), zacznij od rankingu scenariusza, aby znaleźć modele zoptymalizowane pod kątem tego zadania, a nie polegać wyłącznie na ogólnym indeksie jakości.

Wskazówka

Testy porównawcze rankingu zapewniają ustandaryzowane porównania między modelami przy użyciu publicznych zestawów danych. Aby ocenić wydajność modelu dla określonych danych i przypadków użycia, zobacz Ocena generowanych aplikacji sztucznej inteligencji.

Testy porównawcze jakości modeli językowych

Foundry ocenia jakość LLMs i SLMs przy użyciu wyników dokładności ze standardowych zestawów danych porównawczych, które mierzą rozumowanie, wiedzę, odpowiadanie na pytania, matematykę i zdolności kodowania.

Index Opis
Indeks jakości Obliczane przez średnią z odpowiednich ocen dokładności (exact_match, pass@1, arena_hard) w zestawach danych porównawczych.

Wartości indeksu jakości wahają się od zera do jednego, gdzie wyższe wartości wskazują lepszą wydajność. Zestawy danych zawarte w indeksie jakości to:

Nazwa zestawu danych Kategoria
arena_hard QA
bigbench_hard (w dół do 1000 przykładów) Rozumowanie
gpqa QA
humanevalplus Coding
ifeval Rozumowanie
matematyka Matematyka
mbppplus Coding
mmlu_pro (w dół do 1000 przykładów) Ogólna wiedza

Zobacz więcej szczegółów w ocenach dokładności:

Wskaźnik Opis
Dokładność Wyniki dokładności są dostępne na poziomie zestawu danych i modelu. Na poziomie zestawu danych wynik jest średnią wartością metryki dokładności obliczonej na wszystkich przykładach w zestawie danych. Używana metryka dokładności jest exact_match we wszystkich przypadkach, z wyjątkiem zestawów danych HumanEval i MBPP , które używają pass@1 metryki. Dokładne dopasowanie porównuje wygenerowany tekst modelu z prawidłową odpowiedzią według zestawu danych, zgłaszając jeden, jeśli wygenerowany tekst dokładnie odpowiada odpowiedzi, a zero w przeciwnym przypadku. pass@1 Metryka mierzy proporcję rozwiązań modelu, które przechodzą zestaw testów jednostkowych w zadaniu generowania kodu. Na poziomie modelu współczynnik dokładności jest średnią dokładności na poziomie zestawu danych dla każdego modelu.

Wyniki dokładności wahają się od zera do jednego, gdzie wyższe wartości są lepsze.

Testy porównawcze bezpieczeństwa modeli językowych

Testy porównawcze bezpieczeństwa są wybierane za pomocą strukturalnego procesu filtrowania i walidacji, który zapewnia zarówno istotność, jak i rygor. Test porównawczy kwalifikuje się do wdrożenia, jeśli dotyczy wysoko priorytetowych ryzyk. Rankingi bezpieczeństwa obejmują testy porównawcze, które są wystarczająco niezawodne, aby zapewnić znaczące sygnały dotyczące interesujących tematów, ponieważ odnoszą się one do bezpieczeństwa. Rankingi używają HarmBench jako wskaźnika bezpieczeństwa modeli i organizują rankingi scenariuszy w następujący sposób:

Nazwa zestawu danych Scenariusz rankingu Wskaźnik Interpretacja
HarmBench (standardowy) Standardowe szkodliwe zachowania Wskaźnik powodzenia ataku Niższe wartości oznaczają lepszą niezawodność ataków mających na celu wywołanie standardowej szkodliwej zawartości
HarmBench (kontekstowy) Kontekstowe szkodliwe zachowania Wskaźnik powodzenia ataku Niższe wartości oznaczają lepszą odporność na ataki mające na celu wywołanie szkodliwej zawartości kontekstowej.
HarmBench (naruszenia praw autorskich) Naruszenia praw autorskich Wskaźnik powodzenia ataku Niższe wartości wskazują silniejszą odporność na naruszenia praw autorskich
WMDP Wiedza w domenach poufnych Dokładność Wyższe wartości wskazują większą wiedzę w domenach poufnych
Toksyna Wykrywanie zawartości toksycznej Wynik F1 Wyższe wartości wskazują lepszą wydajność wykrywania

Wykrywanie szkodliwych zachowań

Test porównawczy HarmBench mierzy szkodliwe zachowania przy użyciu monitów zaprojektowanych w celu wywołania niebezpiecznych odpowiedzi. Obejmuje ona siedem kategorii semantycznych:

  • Cyberprzestępczość i nieautoryzowane włamanie
  • Broń chemiczna i biologiczna lub narkotyki
  • Naruszenia praw autorskich
  • Dezinformacja i fałszywa informacja
  • Nękanie i zastraszanie
  • Nielegalne działania
  • Ogólne szkody

Te kategorie są pogrupowane w trzy obszary funkcjonalne:

  • Standardowe szkodliwe zachowania
  • Kontekstowe szkodliwe zachowania
  • Naruszenia praw autorskich

Każda kategoria funkcjonalna jest opisywana w osobnym rankingu scenariuszy. Ocena używa bezpośrednich monitów HarmBench (bez ataków) i ewaluatorów HarmBench w celu obliczenia wskaźnika skuteczności ataku (ASR). Niższe wartości ASR oznaczają bezpieczniejsze modele. Żadne strategie ataków nie są używane do oceny, a testy porównawcze modelu są wykonywane z wyłączonymi zabezpieczeniami Foundry Guardrails (wcześniej filtrami zawartości).

Wykrywanie zawartości toksycznej

Toxigen to zestaw danych na dużą skalę do wykrywania niepożądanej i niejawnej mowy nienawiści. Zawiera niejawnie toksyczne i łagodne zdania odwołujące się do 13 grup mniejszościowych. Narzędzie Foundry używa adnotowanych próbek Toxigen i oblicza wyniki F1 w celu mierzenia wydajności klasyfikacji. Wyższe wyniki wskazują na lepsze wykrywanie zawartości toksycznej. Testy porównawcze są wykonywane z wyłączoną funkcją Foundry Guardrails (wcześniej filtrami zawartości).

Poufna wiedza domenowa

Test porównawczy broni masowego rażenia proxy (WMDP) mierzy wiedzę modelową w poufnych domenach, w tym bezpieczeństwo biobezpieczeństwa, cyberbezpieczeństwo i bezpieczeństwo chemiczne. Ranking wykorzystuje średnie wyniki dokładności w zakresie cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego. Wyższy wynik dokładności WMDP oznacza większą wiedzę na temat niebezpiecznych możliwości (gorsze zachowanie z punktu widzenia bezpieczeństwa). Testy porównawcze modelu są wykonywane przy użyciu domyślnych elementów Foundry Guardrails (wcześniej filtrów zawartości). Te bariery ochronne wykrywają i blokują szkodliwe treści dotyczące przemocy, samookaleczenia, treści seksualnych, nienawiści i niesprawiedliwości, jednak nie dotyczą kategorii cyberbezpieczeństwa, biobezpieczeństwa i bezpieczeństwa chemicznego.

Ograniczenia testów porównawczych bezpieczeństwa

Bezpieczeństwo to złożony temat o kilku wymiarach. Żaden test porównawczy typu open source nie może testować ani reprezentować pełnego bezpieczeństwa systemu we wszystkich scenariuszach. Ponadto wiele testów porównawczych cierpi na nasycenie lub niezgodność między projektem testu porównawczego a definicją ryzyka. Niektóre testy porównawcze również nie mają jasnej dokumentacji dotyczącej tego, w jaki sposób czynniki ryzyka są koncepcyjnie i operacjonalizowane, co utrudnia ocenę, czy wyniki dokładnie przechwytują niuanse rzeczywistych zagrożeń. Te ograniczenia mogą prowadzić do nadmiernego lub niedoceniania wydajności modelu w rzeczywistych scenariuszach bezpieczeństwa.

Testy porównawcze wydajności modeli językowych

Metryki wydajności są agregowane w ciągu 14 dni przy użyciu 24 prób dziennie, a dwa żądania na wersję próbną są wysyłane w odstępach jednej godziny. Jeśli nie określono inaczej, następujące parametry domyślne mają zastosowanie zarówno do wdrożeń bezserwerowego interfejsu API , jak i interfejsu Azure OpenAI:

Parametr Wartość Dotyczy czegoś
Rejon Wschodnie stany USA/Wschodnie stany USA 2 wdrożenia bezserwerowego interfejsu API i interfejsu Azure OpenAI
Limit szybkości tokenów na minutę (TPM) 30 tys. (180 obr./min w oparciu o usługę Azure OpenAI) dla modeli bez rozumowania i 100 tys. dla modeli rozumowania.
Nie dotyczy (wdrożenia API bez serwera)
W przypadku modeli usługi Azure OpenAI wybór jest dostępny dla użytkowników z zakresami limitów szybkości na podstawie typu wdrożenia (bezserwerowego interfejsu API, globalnego, globalnego standardu itd.).
W przypadku wdrożeń bezserwerowych interfejsów API to ustawienie jest abstrakcyjne.
Liczba żądań Dwa żądania w wersji próbnej dla każdej godziny (24 próby dziennie) wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba prób/przebiegów 14 dni z 24 próbami dziennie dla 336 przebiegów wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Długość monitu/kontekstu Umiarkowana długość wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba przetworzonych tokenów (umiarkowana) Współczynnik 80:20 dla tokenów wejściowych do tokenów wyjściowych, czyli 800 tokenów wejściowych do 200 tokenów wyjściowych. wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Liczba współbieżnych żądań Jedno (żądania są wysyłane sekwencyjnie jeden po drugim) wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Dane Syntetyczne (monity wejściowe przygotowane z tekstu statycznego) wdrożenia bezserwerowego interfejsu API, Azure OpenAI
Typ wdrożenia bezserwerowe API Dotyczy tylko usługi Azure OpenAI
Streaming Prawda Dotyczy wdrożeń bezserwerowych interfejsów API i usługi Azure OpenAI. W przypadku modeli wdrożonych za pośrednictwem zarządzanych zasobów obliczeniowych lub punktów końcowych, gdy przesyłanie strumieniowe nie jest obsługiwane, TTFT jest reprezentowane jako P50 metryki opóźnienia.
SKU Standard_NC24ads_A100_v4 (24 rdzenie, 220 GB pamięci RAM, 64 GB pamięci masowej) Dotyczy tylko zarządzanych zasobów obliczeniowych (w celu oszacowania kosztów i metryk wydajności)

Wydajność usług LLM i SLM jest oceniana w następujących metrykach:

Wskaźnik Opis
Średnia opóźnienia Średni czas w sekundach przetwarzania żądania obliczonego na wiele żądań. Żądanie jest wysyłane do punktu końcowego co godzinę przez dwa tygodnie, a średnia jest obliczana.
Opóźnienie P50 Mediana (50. percentyl) latencja. 50% żądań zostaje zakończonych w tym czasie.
Opóźnienie P90 opóźnienie na 90. percentylu. 90% żądań jest realizowanych w tym czasie.
Opóźnienie P95 95. percentylowe opóźnienie. 95% żądań zostaje ukończonych w tym czasie.
Opóźnienie (P99) Opóźnienie w 99. percentylu. 99% żądań zostaje zrealizowanych w tym czasie.
Przepustowość GTPS Wygenerowane tokeny na sekundę (GTPS) to liczba tokenów wyjściowych generowanych na sekundę od momentu wysłania żądania do punktu końcowego.
Przepustowość TTPS Łączna liczba tokenów na sekundę (TTPS) to liczba łącznych tokenów przetworzonych na sekundę, w tym zarówno z monitu wejściowego, jak i wygenerowanych tokenów wyjściowych. W przypadku modeli, które nie obsługują przesyłania strumieniowego, czas do pierwszego tokenu (ttft) reprezentuje wartość opóźnienia P50 (czas potrzebny na odebranie odpowiedzi)
Opóźnienie TTFT Całkowity czas do pierwszego tokenu (TTFT) to czas potrzebny na zwrócenie pierwszego tokenu w odpowiedzi z punktu końcowego po włączeniu przesyłania strumieniowego.
Czas między tokenami Ta metryka to czas między odbieranymi tokenami.

Funkcja Foundry podsumowuje wydajność przy użyciu:

Wskaźnik Opis
Opóźnienie Średni czas pierwszego tokenu. Im niżej, tym lepiej.
Przepustowość Średnie wygenerowane tokeny na sekundę. Wyższe jest lepsze.

W przypadku metryk wydajności, takich jak opóźnienie lub przepływność, czas pierwszego tokenu i wygenerowane tokeny na sekundę zapewniają lepsze ogólne poczucie typowej wydajności i zachowania modelu. Liczby wydajności są okresowo odświeżane w celu odzwierciedlenia najnowszych konfiguracji wdrożenia.

Testy porównawcze kosztów modeli językowych

Obliczenia kosztów są szacowane przy użyciu punktu końcowego modelu LLM lub SLM hostowanego na platformie Foundry. Platforma Foundry obsługuje wyświetlanie kosztów wdrożeń bezserwerowych interfejsów API i modeli Azure OpenAI. Ponieważ te koszty mogą ulec zmianie, obliczenia kosztów są okresowo odświeżane w celu odzwierciedlenia najnowszych cen.

Koszt usług LLM i SLM jest oceniany w następujących metrykach:

Wskaźnik Opis
Koszt na tokeny wejściowe Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wejściowych
Koszt na tokeny wyjściowe Koszt wdrożenia bezserwerowego interfejsu API dla 1 miliona tokenów wyjściowych
Szacowany koszt Koszt to suma kosztu za tokeny wejściowe i tokeny wyjściowe z współczynnikiem 3:1.

Narzędzie Foundry wyświetla również koszt w następujący sposób:

Wskaźnik Opis
Koszt Szacowany koszt dolara amerykańskiego na 1 milion tokenów. Szacowane obciążenie opiera się na współczynniku trzech do jednego pomiędzy tokenami wejściowymi a wyjściowymi. Niższe wartości są lepsze.

Ranking porównawczy scenariuszy

Rankingi scenariuszy grupują zestawy danych porównawczych na podstawie wspólnych rzeczywistych celów oceny, pozwalając szybko zidentyfikować mocne i słabe strony modelu w odniesieniu do przypadków użycia. Każdy scenariusz agreguje co najmniej jeden publiczny zestaw danych testów porównawczych.

W poniższej tabeli znajdź przypadek użycia w kolumnie Scenariusz , a następnie przejrzyj skojarzone zestawy danych porównawczych i wyniki. Poniższa tabela zawiera podsumowanie dostępnych rankingów scenariuszy oraz skojarzonych z nimi zestawów danych i opisów:

Scenariusz Zbiory danych Opis
Standardowe szkodliwe zachowanie HarmBench (standardowy) Wskaźnik powodzenia ataku na standardowe szkodliwe polecenia. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Zachowanie szkodliwe kontekstowo HarmBench (kontekstowy) Wskaźnik powodzenia ataku na kontekstowe szkodliwe zapytania. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Naruszenia praw autorskich HarmBench (prawa autorskie) Wskaźnik skuteczności ataków dla powiadomień o naruszeniu praw autorskich. Im niżej, tym lepiej. Zobacz Wykrywanie szkodliwych zachowań.
Wiedza w domenach poufnych WMDP (bezpieczeństwo biologiczne, bezpieczeństwo chemiczne, cyberbezpieczeństwo) Dokładność w trzech podzestawach domen poufnych. Wyższa dokładność wskazuje na większą wiedzę na temat poufnych możliwości. Zobacz Wrażliwa wiedza domenowa.
Wykrywanie toksyczności ToxiGen (adnotacja) Wynik F1 dla zdolności do wykrywania zawartości toksycznej. Wyższe jest lepsze. Zobacz Wykrywanie zawartości toksycznej.
Rozumowanie BIG-Bench Hard (1000 podprzykładów) Ocena możliwości rozumowania. Wyższe wartości są lepsze.
Coding BigCodeBench (poinstruowanie), HumanEvalPlus, LiveBench (kodowanie), MBPPPlus Mierzy dokładność zadań związanych z kodem. Wyższe wartości są lepsze.
Ogólna wiedza MMLU-Pro (1K — angielski podprzykład) Próbka 1000 przykładów zestawu MMLU-Pro tylko w języku angielskim.
Pytania i odpowiadanie Arena-Hard, GPQA (diament) Adwersyjne preferencje ludzkie QA (Arena-Hard) i QA na poziomie podyplomowym wielodyscyplinarnym (GPQA diamond). Wyższe wartości są lepsze.
Matematyka MATH (500 podprzykładów) Mierzy matematyczne możliwości rozumowania modeli językowych. Wyższe wartości są lepsze.
Groundedness TruthfulQA (MC1) Ocena umocowania w rzeczywistości/prawdziwości modeli językowych za pomocą pytań wielokrotnego wyboru. Wyższe wartości są lepsze.

Testy porównawcze jakości modeli osadzania

Indeks jakości modeli osadzania jest definiowany jako średnie wyniki dokładności kompleksowego zestawu zestawów danych porównawczych bezserwerowego interfejsu API przeznaczonych dla zadań pobierania informacji, klastrowania dokumentów i podsumowania.

Wskaźnik Opis
Dokładność Dokładność jest proporcją prawidłowych przewidywań wśród całkowitej liczby przetworzonych przewidywań.
Wynik F1 Wynik F1 jest średnią ważoną precyzji i czułości, gdzie najlepsza wartość to jeden (doskonała precyzja i czułość), a najgorsza to zero.
Średnia precyzja (MAP) MAP ocenia jakość systemów rankingowych i rekomendacyjnych. Mierzy zarówno znaczenie sugerowanych elementów, jak i to, jak dobry jest system w umieszczaniu bardziej odpowiednich elementów u góry. Wartości mogą wahać się od zera do jednego, a im wyższa wartość MAP, tym lepiej system może pozycjonować odpowiednie elementy wysoko na liście.
Znormalizowany zysk skumulowany z rabatem (NDCG) NDCG ocenia zdolność algorytmu uczenia maszynowego do sortowania elementów na podstawie istotności. Porównuje klasyfikacje z idealną kolejnością, w której wszystkie odpowiednie elementy znajdują się na początku listy, gdzie k jest długością listy podczas oceniania jakości klasyfikacji. W tych testach porównawczych k=10, wskazywana przez metrykę ndcg_at_10, co oznacza, że oceniane jest 10 pierwszych elementów.
Dokładność Precyzja mierzy zdolność modelu do prawidłowego identyfikowania wystąpień określonej klasy. Precyzja pokazuje, jak często model uczenia maszynowego jest poprawny podczas przewidywania klasy docelowej.
Korelacja Spearman Korelacja Spearmana oparta na podobieństwie kosinusowym jest obliczana poprzez obliczeniu najpierw podobieństwa kosinusowego między zmiennymi, a następnie porządkowanie tych wyników i używanie tych rang do obliczenia korelacji Spearmana.
Miara V Miara V to metryka używana do oceny jakości klastrowania. Miara V jest obliczana jako średnia harmoniczna homogeniczności i kompletności, zapewniając równowagę między nimi w celu uzyskania znaczącego wyniku. Możliwe wyniki mieszczą się w przedziale od zera do jednego, gdzie jeden oznacza całkowicie kompletne etykietowanie.

Obliczanie wyników

Indywidualne wyniki

Wyniki testów porównawczych pochodzą z publicznych zestawów danych, które są często używane do oceny modelu językowego. W większości przypadków dane są hostowane w repozytoriach GitHub obsługiwanych przez twórców lub kuratorów danych. Potoki oceny Foundry pobierają dane ze swoich oryginalnych źródeł, wyodrębniają podpowiedzi z każdego przykładowego wiersza, generują odpowiedzi modelu, a następnie obliczają istotne metryki dokładności.

Tworzenie monitów jest zgodne z najlepszymi praktykami dla każdego zestawu danych, zgodnie z dokumentem przedstawiającym zestaw danych i standardami branżowymi. W większości przypadków każda prośba zawiera kilka prób, czyli kilka przykładów pełnych pytań i odpowiedzi, aby przygotować model do zadania. Liczba zdjęć różni się w zależności od zestawu danych i jest zgodna z metodologią określoną w oryginalnej publikacji każdego zestawu danych. Potoki oceny tworzą zdjęcia, próbkując pytania i odpowiedzi na podstawie części danych przechowywanych na podstawie oceny.

Ograniczenia testów porównawczych

Wszystkie testy porównawcze mają nieodłączne ograniczenia, które należy wziąć pod uwagę podczas interpretowania wyników:

  • Testy porównawcze jakości: zestawy danych porównawczych mogą być nasycone wraz z upływem czasu, ponieważ modele są trenowane lub dostrojone na podobnych danych. Wyniki oceny mogą się również różnić w zależności od konstrukcji promptu i liczby użytych kilku przykładów.
  • Testy porównawcze wydajności: Metryki są zbierane przy użyciu syntetycznych obciążeń z stałym współczynnikiem tokenu wejściowego do danych wyjściowych i wdrożeniami w jednym regionie. Rzeczywista wydajność może się różnić w zależności od wzorców obciążeń, współbieżności, regionu i konfiguracji wdrożenia.
  • Wskaźniki kosztów: szacowanie kosztów jest oparte na stosunku trzech tokenów wejściowych do jednego tokenu wyjściowego oraz aktualnych cenach w momencie pomiaru. Rzeczywiste koszty zależą od obciążenia i podlegają zmianom cen.