Metriken für die Auswertung des Edge RAG Preview-Systems

2025-05-19

In diesem Artikel werden die Metriken aufgeführt, die verwendet werden, wenn Sie das System von Edge RAG Preview auswerten, das von Azure Arc aktiviert ist. Weitere Informationen finden Sie unter Evaluieren des Edge RAG-Systems

Von Bedeutung

Edge RAG Preview, aktiviert von Azure Arc, befindet sich derzeit in der VORSCHAU. Die zusätzlichen Nutzungsbestimmungen für Microsoft Azure-Vorschauen enthalten rechtliche Bedingungen. Sie gelten für diejenigen Azure-Features, die sich in der Beta- oder Vorschauversion befinden oder aber anderweitig noch nicht zur allgemeinen Verfügbarkeit freigegeben sind.

Generation-Metriken

Die folgenden Metriken zum Auswerten der Qualität der generierten Antworten.

Maßeinheit	BESCHREIBUNG
Korrektheit	Wertet die Genauigkeit und faktenbezogene Gültigkeit der generierten Antworten gegen die erwarteten Antworten (Grundwahrheit) aus. Bereichsbewertung: 1-5
Verankerung	Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten den informationen entsprechen, die aus den abgerufenen Dokumenten bereitgestellt werden. Bereichsbewertung: 1-5
Bedeutung	Wertet den Grad aus, in dem die von der generativen KI-Anwendung generierten Antworten angemessen sind und der bereitgestellten Eingabe direkt entsprechen. Bereichsbewertung: 1-5
Rouge L	Misst die längste gemeinsame Untermenge zwischen generierten Text und Referenztext. Bereichsbewertung: 0-1
Bleu	Wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Grundwahrheit) vergleicht und gleichzeitig die Kürze bestraft. Bereichsbewertung: 0-1
Meteor	METEOR (Metric for Evaluation of Translation with Explicit Order) wertet die Qualität des generierten Texts aus, indem er sie mit erwarteten Antworten (Bodenwahrung) vergleicht, während die Falschausrichtung in Fragmenten der tatsächlichen vs. erwarteten Sätze bestraft wird. Bereichsbewertung: 0-1

Metriken zum Abrufen von Informationen

Die folgenden Metriken zum Auswerten der Abrufleistung.

Maßeinheit	BESCHREIBUNG
Präzision	Misst den Anteil der ordnungsgemäß abgerufenen Dokumente zwischen allen abgerufenen Dokumenten. Bereichsbewertung: 0-1
Abruf	Misst den Anteil der abgerufenen Dokumente zwischen allen relevanten Dokumenten. Bereichsbewertung: 0-1
MRR	Mittelwert der gegenseitigen Rangfolge (MRR) misst die Qualität der Dokumentbewertung basierend auf der Position des ersten relevanten Dokuments. Bereichsbewertung: 0-1

Bewerten des Edge RAG-Systems

Freigeben über

Metriken für die Auswertung des Edge RAG Preview-Systems

Generation-Metriken

Metriken zum Abrufen von Informationen

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen