你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文列出了在 Azure Arc 启用的 Edge RAG 预览版系统时使用的指标。有关详细信息,请参阅 评估 Edge RAG 系统
重要
Azure Arc 启用的 Edge RAG 预览版目前为预览版。 有关适用于 Beta 版、预览版或尚未正式发布的 Azure 功能的法律条款,请参阅 适用于 Microsoft azure 预览版的补充使用条款 。
生成指标
以下指标用于评估生成的响应的质量。
指标 | DESCRIPTION |
---|---|
正确性 | 根据预期响应(基本事实)评估生成的响应的准确性和事实有效性。
范围分数:1-5 |
真实性 | 评估生成 AI 应用程序生成的响应与从检索的文档提供的信息相对应的程度。
范围分数:1-5 |
关联 | 评估生成式 AI 应用程序生成的响应是否合适,并直接与提供的输入相对应。
范围分数:1-5 |
Rouge L | 测量生成的文本和引用文本之间的最长常见子序列。
范围分数:0-1 |
Bleu | 通过将生成的文本与预期响应(基本真相)进行比较来评估生成的文本的质量,同时对简洁性进行处罚。
范围分数:0-1 |
流星 | 流星(使用显式排序评估翻译指标)通过将文本与预期响应(地面真相)进行比较来评估生成的文本的质量,同时惩罚实际句子与预期句子片段中的不对齐。
范围分数:0-1 |
信息检索指标
以下指标用于评估检索性能。
指标 | DESCRIPTION |
---|---|
精准率 | 测量所有检索到的文档中正确检索的文档的比例。
范围分数:0-1 |
召回率 | 度量检索到的文档在所有相关文档中的比例。
范围分数:0-1 |
MRR | 平均互惠排名(MRR)根据第一个相关文档的位置衡量文档排名的质量。
范围分数:0-1 |