Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel werden die Metriken aufgeführt, die verwendet werden, wenn Sie das System von Edge RAG Preview auswerten, das von Azure Arc aktiviert ist. Weitere Informationen finden Sie unter Evaluieren des Edge RAG-Systems
Von Bedeutung
Edge RAG Preview, aktiviert von Azure Arc, befindet sich derzeit in der VORSCHAU. Die zusätzlichen Nutzungsbestimmungen für Microsoft Azure-Vorschauen enthalten rechtliche Bedingungen. Sie gelten für diejenigen Azure-Features, die sich in der Beta- oder Vorschauversion befinden oder aber anderweitig noch nicht zur allgemeinen Verfügbarkeit freigegeben sind.
Generation-Metriken
Die folgenden Metriken zum Auswerten der Qualität der generierten Antworten.
Maßeinheit | BESCHREIBUNG |
---|---|
Korrektheit | Wertet die Genauigkeit und faktenbezogene Gültigkeit der generierten Antworten gegen die erwarteten Antworten (Grundwahrheit) aus.
Bereichsbewertung: 1-5 |
Verankerung | Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten den informationen entsprechen, die aus den abgerufenen Dokumenten bereitgestellt werden.
Bereichsbewertung: 1-5 |
Bedeutung | Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten angemessen sind und der bereitgestellten Eingabe direkt entsprechen.
Bereichsbewertung: 1-5 |
Rouge L | Misst die längste gemeinsame Untermenge zwischen generierten Text und Referenztext.
Bereichsbewertung: 0-1 |
Bleu | Wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Grundwahrheit) vergleicht und gleichzeitig die Kürze bestraft.
Bereichsbewertung: 0-1 |
Meteor | METEOR (Metric for Evaluation of Translation with Explicit Order) wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Bodenwahrung) vergleicht, während die Falschausrichtung in Fragmenten der tatsächlichen vs. erwarteten Sätze bestraft wird.
Bereichsbewertung: 0-1 |
Metriken zum Abrufen von Informationen
Die folgenden Metriken zum Auswerten der Abrufleistung.
Maßeinheit | BESCHREIBUNG |
---|---|
Präzision | Misst den Anteil der ordnungsgemäß abgerufenen Dokumente zwischen allen abgerufenen Dokumenten.
Bereichsbewertung: 0-1 |
Abruf | Misst den Anteil der abgerufenen Dokumente zwischen allen relevanten Dokumenten.
Bereichsbewertung: 0-1 |
MRR | Mittelwert der gegenseitigen Rangfolge (MRR) misst die Qualität der Dokumentbewertung basierend auf der Position des ersten relevanten Dokuments.
Bereichsbewertung: 0-1 |