Modell-Bestenlisten im Azure AI Foundry-Portal (Vorschau)

2025-06-20

Wichtig

Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Modell-Bestenlisten (Vorschau) im Azure AI Foundry-Portal ermöglichen es Ihnen, den Modellauswahlprozess im Azure AI Foundry-Modellkatalog zu optimieren. Die Modell-Leaderboards, die von Branchenstandard-Benchmarks unterstützt werden, können Ihnen helfen, das beste Modell für Ihre benutzerdefinierte KI-Lösung zu finden. Im Abschnitt "Modell-Bestenlisten" des Modellkatalogs können Sie leaderboards durchsuchen , um verfügbare Modelle wie folgt zu vergleichen:

Qualitäts-, Sicherheits-, Kosten- und Leistungslisten zur schnellen Identifizierung der Modellführer entlang einer einzigen Metrik (Qualität, Sicherheit, Kosten oder Durchsatz);
Trade-off-Diagramme, um zu sehen, wie Modelle in Bezug auf eine Metrik im Vergleich zu einer anderen abschneiden, z. B. Qualität im Vergleich zu Kosten.
Bestenlisten nach Szenario , um die besten Bestenlisten für Ihr Szenario zu finden.

Jedes Mal, wenn Sie ein Modell nach Ihren Wünschen finden, können Sie es auswählen und die detaillierten Benchmarking-Ergebnisse des Modells innerhalb des Modellkatalogs vergrößern. Wenn Sie mit dem Modell zufrieden sind, können Sie es bereitstellen, im Playground ausprobieren oder es mit Ihren Daten auswerten. Die Ranglisten unterstützen das Benchmarking für Text-Sprachmodelle (große Sprachmodelle (LLMs) und kleine Sprachmodelle (SLMs)) sowie Einbettungsmodelle.

Modell-Benchmarks bewerten LLMs und SLMs in den folgenden Kategorien: Qualität, Sicherheit, Kosten und Durchsatz. Darüber hinaus bewerten wir die Qualität der Einbettungsmodelle mit Standard-Benchmarks. Die Ranglisten werden regelmäßig aktualisiert, da bessere und noch nicht ausgeschöpfte Benchmarks integriert werden und neue Modelle zum Modellkatalog hinzugefügt werden.

Qualitäts-Benchmarks von Sprachmodellen

Azure AI bewertet die Qualität von LLMs und SLMs mithilfe von Genauigkeitsergebnissen aus standardbezogenen Benchmark-Datasets, die Modellfunktionen messen, wie z. B. Reasoning, Wissen, Fragebeantwortung, Mathematik und Codierung.

Verzeichnis	BESCHREIBUNG
Qualitätsindex	Der Qualitätsindex wird durch den Durchschnitt relevanter Genauigkeitsbewertungen (exact_match, pass@1, arena_hard) auf Basis umfassender Standard-Benchmark-Daten berechnet.

Der Qualitätsindex wird auf einer Skala von Null bis 1 bereitgestellt. Höhere Werte des Qualitätsindexes sind besser. Die im Qualitätsindex enthaltenen Datasets sind:

Name des Datensatzes	Ranglistenszenario
arena_hard	Qualitätssicherung
bigbench_hard	Denken
gpqa	Qualitätssicherung
humanevalplus	Codieren
ifeval	Denken
mathematisch	Mathe
mbppplus	Codieren
mmlu_pro	Allgemeinwissen

Weitere Details zu Genauigkeitsbewertungen finden Sie unter:

Metrik BESCHREIBUNG

Genauigkeit Genauigkeitsbewertungen sind auf Dataset- und Modellebene verfügbar. Auf Datasetebene ist die Bewertung der Mittelwert einer Genauigkeitsmetrik, die über alle Beispiele im Dataset berechnet wird. Die Genauigkeitsmetrik exact-match wird in allen Fällen verwendet, außer für die Datensätze HumanEval und MBPP, die eine pass@1 Metrik verwenden. Die exakte Übereinstimmung vergleicht den vom Modell generierten Text mit der richtigen Antwort gemäß dem Dataset und meldet 1, wenn der generierte Text genau mit der Antwort übereinstimmt, und ansonsten 0. Die Metrik pass@1 misst den Anteil der Modelllösungen, die eine Reihe von Komponententests in einer Codegenerierungsaufgabe bestehen. Auf Modellebene ist die Genauigkeitsbewertung der Mittelwert der Genauigkeit auf Datasetebene für jedes Modell.

Metrik	BESCHREIBUNG
Genauigkeit	Genauigkeitsbewertungen sind auf Dataset- und Modellebene verfügbar. Auf Datasetebene ist die Bewertung der Mittelwert einer Genauigkeitsmetrik, die über alle Beispiele im Dataset berechnet wird. Die Genauigkeitsmetrik `exact-match` wird in allen Fällen verwendet, außer für die Datensätze HumanEval und MBPP, die eine `pass@1` Metrik verwenden. Die exakte Übereinstimmung vergleicht den vom Modell generierten Text mit der richtigen Antwort gemäß dem Dataset und meldet 1, wenn der generierte Text genau mit der Antwort übereinstimmt, und ansonsten 0. Die Metrik `pass@1` misst den Anteil der Modelllösungen, die eine Reihe von Komponententests in einer Codegenerierungsaufgabe bestehen. Auf Modellebene ist die Genauigkeitsbewertung der Mittelwert der Genauigkeit auf Datasetebene für jedes Modell.

Genauigkeitsbewertungen werden auf einer Skala von 0 bis 1 bereitgestellt. Höhere Werte sind besser.

Sicherheits-Benchmarks von Sprachmodellen

Um die Auswahl von Sicherheits-Benchmarks für die Bewertung zu leiten, wenden wir einen strukturierten Filter- und Validierungsprozess an, der sowohl die Relevanz als auch die Strenge gewährleistet. Ein Benchmark qualifiziert sich für das Onboarding, wenn es risiken mit hoher Priorität behandelt. Im Hinblick auf Sicherheitsranglisten betrachten wir verschiedene Benchmarks, die als zuverlässig genug angesehen werden können, um einige Hinweise zu bestimmten Themen von Interesse zu liefern, wie sie sich auf Sicherheit beziehen. Wir wählen HarmBench aus, um die Sicherheit des Proxymodells zu gewährleisten und Szenario-Leaderboards wie folgt zu organisieren:

Name des Datensatzes	Bestenlistenszenario	Metrik	Auslegung
HarmBench (Standard)	Standardmäßiges schädliches Verhalten	Angriffserfolgsrate	Niedrigere Werte bedeuten eine bessere Stabilität gegenüber Angriffen, die auf illegale standardschädliche Inhalte ausgelegt sind.
HarmBench (kontextbezogen)	Kontextbezogenes schädliches Verhalten	Angriffserfolgsrate	Niedrigere Werte bedeuten eine bessere Stabilität gegenüber Angriffen, die auf rechtswidrige kontextbezogene schädliche Inhalte ausgelegt sind.
HarmBench (Urheberrechtsverletzungen)	Urheberrechtsverletzungen	Angriffserfolgsrate	Niedrigere Werte bedeuten eine bessere Stabilität gegenüber Angriffen, die auf illegale Urheberrechtsverletzungen ausgelegt sind.
WMDP	Wissen in vertraulichen Domänen	Genauigkeit	Höhere Werte geben mehr Wissen in sensiblen Domänen an (Cybersicherheit, Biosicherheit und chemische Sicherheit)
Toxigen	Fähigkeit, toxischen Inhalt zu erkennen	F1-Bewertung	Höhere Werte bedeuten eine bessere Fähigkeit, toxischen Inhalt zu erkennen

Modellieren von schädlichen Verhaltensweisen

Der HarmBench-Benchmark misst schädliche Verhaltensweisen und enthält Aufforderungen zu unerlaubtem schädlichem Verhalten aus dem Modell. Was die Sicherheit betrifft, deckt die Benchmark 7 semantische Verhaltenskategorien ab:

Cyberkriminalität und unbefugter Angriff
Chemische und biologische Waffen/Drogen
Urheberrechtsverletzungen
Falschinformation und Uninformation
Belästigung und Mobbing
Illegale Aktivitäten
Allgemeiner Schaden

Diese 7 Kategorien können in drei funktionale Kategorien zusammengefasst werden

Standardmäßiges schädliches Verhalten
kontextbezogenes schädliches Verhalten
Urheberrechtsverletzungen

Jede funktionale Kategorie wird in einem separaten Szenario-Leaderboard vorgestellt. Wir verwenden direkte Eingabeaufforderungen von HarmBench (keine Angriffe) und HarmBench-Evaluatoren, um die Angriffserfolgsrate (ASR) zu berechnen. Niedrigere ASR-Werte bedeuten sicherere Modelle. Wir untersuchen keine Angriffsstrategie zur Bewertung, und Das Modell-Benchmarking wird mit deaktiviertem Azure AI Content Safety Filter durchgeführt.

Modellfähigkeit zum Erkennen toxischer Inhalte

Toxigen ist ein großes computergeneriertes Dataset für die Erkennung von adversarialem und implizitem Hass. Es enthält implizit toxische und gutartige Sätze, die 13 Minderheitengruppen erwähnen. Wir verwenden die kommentierten Beispiele von Toxigen zur Auswertung und berechnen F1-Bewertungen, um die Klassifizierungsleistung zu messen. Eine höhere Bewertung für dieses Dataset bedeutet, dass ein Modell bei der Erkennung toxischer Inhalte besser ist. Modell-Benchmarking wird mit deaktiviertem Azure AI Content Safety Filter durchgeführt.

Modellwissen in vertraulichen Domänen

Der Benchmark WmDP (Proxy für Massenvernichtungswaffen) misst das Modellwissen in sensiblen Bereichen, darunter Biosicherheit, Cybersicherheit und Chemiesicherheit. Die Bestenliste verwendet durchschnittliche Genauigkeitspunkte für Cybersicherheit, Biosicherheit und chemische Sicherheit. Eine höhere WMDP-Genauigkeitsbewertung zeigt mehr Wissen über gefährliche Fähigkeiten an (schlechteres Verhalten aus Sicherheitssicht). Modell-Benchmarking wird mit den standardmäßigen Azure AI Content Safety-Filtern durchgeführt. Diese Sicherheitsfilter erkennen und blockieren schädliche Inhalte in den Bereichen Gewalt, Selbstverletzung, sexuelle Inhalte, Hass-Inhalte und Ungerechtigkeit, richten sich aber nicht auf Kategorien wie Cybersicherheit, Biosicherheit und Chemiesicherheit.

Beschränkungen der Sicherheits-Benchmarks

Wir verstehen und erkennen an, dass Sicherheit ein komplexes Thema ist und mehrere Dimensionen hat. Keine einzelnen aktuellen Open-Source-Benchmarks können die vollständige Sicherheit eines Systems in verschiedenen Szenarien testen oder darstellen. Darüber hinaus leiden die meisten dieser Benchmarks unter einer Sättigung oder es besteht eine Fehlausrichtung zwischen dem Benchmarkdesign und der Risikodefinition. Oft fehlt eine klare Dokumentation darüber, wie die Zielrisiken konzeptionell und operationalisiert werden, was die Beurteilung erschwert, ob der Benchmark die Nuancen der Risiken genau erfasst. Diese Einschränkung kann dazu führen, dass die Modellleistung in realen Sicherheitsszenarien entweder überschätzt oder unterschätzt wird.

Leistungs-Benchmarks von Sprachmodellen

Leistungsmetriken werden als Aggregat über 14 Tage berechnet, basierend auf 24 Trails (zwei Anforderungen pro Trail), die täglich mit einem einstündigen Intervall zwischen jedem Trail gesendet werden. Die folgenden Standardparameter werden für jede Anforderung an den Modellendpunkt verwendet:

Parameter	Wert	Gilt für
Region	„USA, Osten“/„USA, Osten 2“	Standardbereitstellungen und Azure OpenAI
Ratenbegrenzung für Token pro Minute (TPM)	30.000 (180 RPM basierend auf Azure OpenAI) für Nicht-Begründungsmodelle und 100.000 für Begründungsmodelle N/V (Standard-Bereitstellungen)	Bei Azure OpenAI-Modellen steht die Auswahl für Benutzer mit Ratenbegrenzungsbereichen zur Verfügung, die auf dem Bereitstellungstyp (Standard, global, globaler Standard usw.) basieren. Bei Standardimplementierungen wird diese Einstellung vereinfacht.
Anzahl der Anfragen	Zwei Anforderungen pro Stunde in einem Trail (24 Trails pro Tag)	Standardbereitstellungen, Azure OpenAI
Anzahl von Trails/Ausführungen	14 Tage mit 24 Trails pro Tag für 336 Ausführungen	Standardbereitstellungen, Azure OpenAI
Prompt-/Kontextlänge	Mittlere Länge	Standardbereitstellungen, Azure OpenAI
Anzahl der verarbeiteten Token (moderat)	80:20-Verhältnis für Eingabe- und Ausgabetoken, d. h. 800 Eingabetoken auf 200 Ausgabetoken	Standardbereitstellungen, Azure OpenAI
Anzahl gleichzeitiger Anfragen	Eine (Anforderungen werden sequenziell nacheinander gesendet)	Standardbereitstellungen, Azure OpenAI
Daten	Synthetisch (Eingabeprompts, die aus statischem Text erstellt wurden)	Standardbereitstellungen, Azure OpenAI
Region	„USA, Osten“/„USA, Osten 2“	Standardbereitstellungen und Azure OpenAI
Bereitstellungstyp	Norm	Gilt nur für Azure OpenAI
Streamen	Richtig	Gilt für Standardbereitstellungen und Azure OpenAI. Für Modelle, die über verwaltetes Rechnen bereitgestellt werden, oder für Endpunkte, wenn Streaming nicht unterstützt wird, wird TTFT als P50-Metrik der Latenz dargestellt.
Artikelnummer	Standard_NC24ads_A100_v4 (24 Kerne, 220 GB RAM, 64 GB Speicher)	Gilt nur für managed Compute (zum Schätzen der Kosten- und Perf-Metriken)

Die Leistung von LLMs und SLMs wird in den folgenden Metriken bewertet:

Metrik	BESCHREIBUNG
Latenzmittelwert	Durchschnittliche Zeit in Sekunden für die Verarbeitung einer Anforderung, berechnet über mehrere Anforderungen. Um diese Metrik zu berechnen, senden wir zwei Wochen lang jede Stunde eine Anforderung an den Endpunkt und berechnen den Mittelwert.
Latenz P50	Wert des 50. Perzentils (Median) der Latenz (die Zeit zwischen der Anforderung und dem Zeitpunkt, zu dem die gesamte Antwort mit einem Erfolgscode empfangen wird) Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 50 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist.
Latenz P90	Wert des 90. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Empfang der gesamten Antwort mit einem Erfolgscode) Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 90 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist.
Latenz P95	Wert des 95. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Zeitpunkt, zu dem wir die vollständige Antwort mit einem erfolgreichen Code empfangen). Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 95 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist.
Latenz P99	Wert des 99. Perzentils der Latenz (die Zeit zwischen der Anforderung und dem Empfang der gesamten Antwort mit einem Erfolgscode) Wenn wir beispielsweise eine Anforderung an den Endpunkt senden, werden 99 % der Anforderungen in „x“ Sekunden abgeschlossen, wobei „x“ die Latenzmessung ist.
GTPS-Durchsatz	Die generierten Token pro Sekunde (Generated Tokens per Second, GTPS) sind die Anzahl der Ausgabetoken, die pro Sekunde generiert werden, wenn die Anforderung an den Endpunkt gesendet wird.
TTPS-Durchsatz	Die Gesamtzahl der Token pro Sekunde (Total Tokens per Second, TTPS) ist die Anzahl der insgesamt verarbeiteten Token pro Sekunde, einschließlich derjenigen aus dem Eingabeprompt als auch aus generierten Ausgabetoken. Bei Modellen, die das Streaming nicht unterstützen, stellt die Zeit für das erste Token (ttft) den P50-Wert der Latenz dar (Zeitaufwand für den Empfang der Antwort)
TTFT-Latenz	Die Gesamtzeit bis zum ersten Token (Total Time to First Token, TTFT) ist die Zeit, die benötigt wird, bis das erste Token in der Antwort vom Endpunkt zurückgegeben wird, wenn Streaming aktiviert ist.
Zeit zwischen Token	Diese Metrik ist die Zeit zwischen empfangenen Token.

Azure KI zeigt auch Leistungsindizes für Latenz und Durchsatz wie folgt an:

Verzeichnis	BESCHREIBUNG
Latenzindex	Mittlere Zeit für das erste Token Niedrigere Werte sind besser.
Durchsatzindex	Mittelwert der generierten Token pro Sekunde. Höhere Werte sind besser.

Für Leistungsmetriken wie Latenz oder Durchsatz geben die Zeit für das erste Token und die generierten Token pro Sekunde einen besseren Überblick über die typische Leistung und das Verhalten des Modells. Wir aktualisieren unsere Leistungskennzahlen in regelmäßigen Abständen.

Kosten-Benchmarks von Sprachmodellen

Kostenberechnungen sind Schätzungen für die Verwendung eines LLM- oder SLM-Modellendpunkts, der auf der Azure KI-Plattform gehostet wird. Azure AI unterstützt die Anzeige der Kosten für Standardbereitstellungen und Azure OpenAI-Modelle. Da Änderungen an diesen Kosten vorbehalten sind, aktualisieren wir unsere Kostenberechnungen regelmäßig.

Die Kosten von LLMs und SLMs wird in den folgenden Metriken bewertet:

Metrik	BESCHREIBUNG
Kosten pro Eingabetoken	Kosten für die Standardimplementierung für 1 Million Eingabetoken
Kosten pro Ausgabetoken	Kosten für die Standardbereitstellung für 1 Millionen Ausgabetoken
Geschätzte Kosten	Kosten für die Summe der Kosten pro Eingabetoken und Kosten pro Ausgabetoken mit einem Verhältnis von 3:1.

Azure KI zeigt auch den Kostenindex wie folgt an:

Verzeichnis	BESCHREIBUNG
Kostenindex	Geschätzte Kosten. Niedrigere Werte sind besser.

Qualitäts-Benchmarks für Einbettungsmodelle

Der Qualitätsindex der Einbettungsmodelle wird als die durchschnittliche Genauigkeitsbewertung einer umfassenden Reihe von Standard-Benchmark-Datasets definiert, die auf Informationsempfangs-, Dokumentclustering- und Zusammenfassungsaufgaben abzielen.

Weitere Details zu Genauigkeitsbewertungsdefinitionen, die für jedes Dataset spezifisch sind:

Metrik	BESCHREIBUNG
Genauigkeit	Genauigkeit ist der Anteil der korrekten Vorhersagen an der Gesamtanzahl der verarbeiteten Vorhersagen.
F1-Bewertung	Der F1-Score ist der gewichtete Mittelwert von Präzision und Abruf, wobei der beste Wert 1 ist (perfekte Präzision und perfekter Abruf) und der schlechteste 0.
Mittlere durchschnittliche Präzision (MAP)	MAP wertet die Qualität der Ranking- und Empfehlungssysteme aus. Gemessen werden sowohl die Relevanz vorgeschlagener Elemente als auch, wie gut das System relevantere Elemente oben platziert. Werte können von 0 bis 1 reichen, und je höher die MAP ist, desto besser kann das System relevante Elemente oben in der Liste platzieren.
Normalisierte abgezinste kumulierte Gewinn (NDCG)	NDCG wertet die Fähigkeit eines Machine Learning-Algorithmus aus, Elemente basierend auf Relevanz zu sortieren. Dabei werden Rangfolgen mit einer idealen Reihenfolge verglichen, in der alle relevanten Elemente am Anfang der Liste stehen, wobei k die Listenlänge bei der Bewertung der Rangfolgequalität ist. In unseren Benchmarks wird k=10 durch die Metrik `ndcg_at_10` angegeben und bedeutet, dass wir die obersten 10 Elemente betrachten.
Präzision	Präzision misst die Fähigkeit des Modells, Instanzen einer bestimmten Klasse richtig zu identifizieren. Die Genauigkeit zeigt, wie oft ein Machine Learning-Modell richtig liegt, wenn es die Zielklasse vorhersagt.
Spearman-Korrelation	Die Spearman-Korrelation basierend auf der Kosinusähnlichkeit wird berechnet, indem zuerst die Kosinusähnlichkeit zwischen Variablen berechnet wird, dann diesen Scores ein Rang zugewiesen wird und die Rangfolgen verwendet werden, um die Spearman-Korrelation zu berechnen.
V-Measure	V-Measure ist eine Metrik, die verwendet wird, um die Clusteringqualität auszuwerten. V-Measure wird als harmonischer Mittelwert der Homogenität und Vollständigkeit berechnet, um ein Gleichgewicht zwischen den beiden für einen aussagekräftigen Score zu gewährleisten. Mögliche Scores liegen zwischen 0 und 1, wobei 1 einer perfekt vollständigen Beschriftung entspricht.

Berechnung von Punkten

Einzelscores

Die Benchmarkergebnisse stammen aus öffentlichen Datasets, die häufig für die Auswertung von Sprachmodellen verwendet werden. In den meisten Fällen werden die Daten in GitHub-Repositorys gehostet, die von den Erstellern oder Kuratoren der Daten verwaltet werden. Azure KI-Auswertungspipelines laden Daten aus ihren ursprünglichen Quellen herunter, extrahieren Prompts aus jeder Beispielzeile, generieren Modellantworten und berechnen dann relevante Genauigkeitsmetriken.

Der Aufbau von Prompts folgt den bewährten Methoden für jedes Dataset, die durch das Dokument definiert werden, in dem die Dataset- und Industriestandards eingeführt werden. In den meisten Fällen enthält jeder Prompt mehrere Beispiele, das heißt mehrere vollständige Fragen und Antworten, um das Modell optimal auf die Aufgabe vorzubereiten. Die Auswertungspipelines erstellen Shots durch das Sampling von Fragen und Antworten aus einem Teil der Daten, die aus der Auswertung herausgehalten werden.