Freigeben über


Metriken für die Auswertung des Edge RAG Preview-Systems

In diesem Artikel werden die Metriken aufgeführt, die verwendet werden, wenn Sie das System von Edge RAG Preview auswerten, das von Azure Arc aktiviert ist. Weitere Informationen finden Sie unter Evaluieren des Edge RAG-Systems

Von Bedeutung

Edge RAG Preview, aktiviert von Azure Arc, befindet sich derzeit in der VORSCHAU. Die zusätzlichen Nutzungsbestimmungen für Microsoft Azure-Vorschauen enthalten rechtliche Bedingungen. Sie gelten für diejenigen Azure-Features, die sich in der Beta- oder Vorschauversion befinden oder aber anderweitig noch nicht zur allgemeinen Verfügbarkeit freigegeben sind.

Generation-Metriken

Die folgenden Metriken zum Auswerten der Qualität der generierten Antworten.

Maßeinheit BESCHREIBUNG
Korrektheit Wertet die Genauigkeit und faktenbezogene Gültigkeit der generierten Antworten gegen die erwarteten Antworten (Grundwahrheit) aus.

Bereichsbewertung: 1-5
Verankerung Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten den informationen entsprechen, die aus den abgerufenen Dokumenten bereitgestellt werden.

Bereichsbewertung: 1-5
Bedeutung Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten angemessen sind und der bereitgestellten Eingabe direkt entsprechen.

Bereichsbewertung: 1-5
Rouge L Misst die längste gemeinsame Untermenge zwischen generierten Text und Referenztext.

Bereichsbewertung: 0-1
Bleu Wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Grundwahrheit) vergleicht und gleichzeitig die Kürze bestraft.

Bereichsbewertung: 0-1
Meteor METEOR (Metric for Evaluation of Translation with Explicit Order) wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Bodenwahrung) vergleicht, während die Falschausrichtung in Fragmenten der tatsächlichen vs. erwarteten Sätze bestraft wird.

Bereichsbewertung: 0-1

Metriken zum Abrufen von Informationen

Die folgenden Metriken zum Auswerten der Abrufleistung.

Maßeinheit BESCHREIBUNG
Präzision Misst den Anteil der ordnungsgemäß abgerufenen Dokumente zwischen allen abgerufenen Dokumenten.

Bereichsbewertung: 0-1
Abruf Misst den Anteil der abgerufenen Dokumente zwischen allen relevanten Dokumenten.

Bereichsbewertung: 0-1
MRR Mittelwert der gegenseitigen Rangfolge (MRR) misst die Qualität der Dokumentbewertung basierend auf der Position des ersten relevanten Dokuments.

Bereichsbewertung: 0-1

Bewerten des Edge RAG-Systems