你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

用于评估 Edge RAG 预览系统的指标

本文列出了在 Azure Arc 启用的 Edge RAG 预览版系统时使用的指标。有关详细信息，请参阅评估 Edge RAG 系统

重要

Azure Arc 启用的 Edge RAG 预览版目前为预览版。有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款，请参阅适用于 Microsoft azure 预览版的补充使用条款。

生成指标

以下指标用于评估生成的响应的质量。

指标	DESCRIPTION
正确性	根据预期响应（基本事实）评估生成的响应的准确性和事实有效性。范围分数：1-5
真实性	评估生成 AI 应用程序生成的响应与从检索的文档提供的信息相对应的程度。范围分数：1-5
关联	评估生成式 AI 应用程序生成的响应是否合适，并直接与提供的输入相对应。范围分数：1-5
Rouge L	测量生成的文本和引用文本之间的最长常见子序列。范围分数：0-1
Bleu	通过将生成的文本与预期响应（基本真相）进行比较来评估生成的文本的质量，同时对简洁性进行处罚。范围分数：0-1
流星	流星（使用显式排序评估翻译指标）通过将文本与预期响应（地面真相）进行比较来评估生成的文本的质量，同时惩罚实际句子与预期句子片段中的不对齐。范围分数：0-1

以下指标用于评估检索性能。

指标	DESCRIPTION
精准率	测量所有检索到的文档中正确检索的文档的比例。范围分数：0-1
召回率	度量检索到的文档在所有相关文档中的比例。范围分数：0-1
MRR	平均互惠排名（MRR）根据第一个相关文档的位置衡量文档排名的质量。范围分数：0-1