你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 内容理解的最佳做法

Azure AI 内容理解是一项创新的生成式 AI 服务,旨在促进对大量数据集的精确准确分析。 该服务处理各种内容形式,包括文档、图像、视频和音频,将它们转换为用户指定的输出格式。

本文档提供指导和最佳做法,以有效地利用内容理解来处理数据处理和分析要求。

使用字段说明来指导输出

定义架构时,必须提供详细的字段说明。 清晰简洁的说明引导模型专注于正确的信息,从而提高输出的准确性。

示例 1
  • 如果要从发票中提取日期,除了命名字段 Date外,还请提供诸如以下内容的说明:

    The date when the invoice was issued, typically found at the top right corner of the document.

示例 2
  • 假设你想要从发票中提取 Customer Name。 你的描述可能是:

    The name of the customer or client to whom this invoice is addressed, usually located near the billing address. It should be the name of the business or person, but not the entire mailing address.

编辑字段描述以更正错误

如果系统的输出不符合预期,第一步是尝试优化和更新字段说明。 阐明上下文并更明确需要的内容,减少歧义并提高准确性。

示例 3
  • 如果 Shipping date 字段生成了不一致或不正确的提取,特别是在 Dispatch Date 标签后,请将其更新为更精确的内容,例如:

    The date when the products were shipped, typically found below the item list. It may also be labeled something similar like Delivery Date or Dispatch Date. Dates should typically have a format like 1/23/2024 or 01-04-2025.

  • 此额外上下文将模型引导到文档中的正确位置。

对特定输出使用分类字段

如果需要系统从一组预定义选项中进行选择,例如文档类型、产品类别或状态,请使用分类字段。 如果选项存在歧义,请为每个选项提供明确的说明,使模型能够准确地对数据进行分类。

示例 4
  • 如果需要将文档分类为任 Invoice一类型, Claim或者 Report创建一个分类字段,这些单词作为类别名称。
示例 5
  • 处理产品图像时,可能需要将它们分配给类别,例如AlcoholicDrinksSoftDrinksSnacksDairyProducts。 由于某些项可能看起来类似,因此为相似情况提供精确的定义可以帮助。 例如:

    • Alcoholic Drinks:含有酒精的饮料,如啤酒、葡萄酒和烈酒。 此类别不包括饮料或其他非酒精饮料。

    • Soft Drinks:非酒精饮料,如苏打和起泡水。 此类别不包括果汁或酒精饮料。

  • 通过明确定义每个类别,可确保系统正确对产品进行分类,同时最大程度地减少错误分类。

使用置信度分数来确定何时需要人工评审

置信度分数可帮助你决定何时涉及人工审阅者。 客户可以使用阈值来解释置信度分数,以确定哪些结果需要更多评审,从而最大程度地降低错误风险。

示例 6
  • 对于发票评审用例,如果密钥提取的字段(如 TotalInvoiceAmount 置信度分数低于 0.80)将文档路由到手动评审。 这有助于确保人工在必要时验证关键字段,如发票总计或法律陈述。

  • 可以根据字段类型设置不同的置信度阈值。 例如,对于关键性较低的Comments字段,可以设置较低的阈值,而对于ContractTerminationDate设置较高的阈值,以确保不会出错。

通过缩小音频和视频的语言选择来减少错误

使用音频和视频内容时,选择一组较窄的语言进行听录可能会减少错误。 你包括的语言越多,系统就越需要猜测哪个语言是说的,这可能会增加误解。

示例 7
  • 如果确定内容仅包含英语和西班牙语,请将听录配置为仅这两种语言可以提高质量。 但是,如果内容意外包含其他语言,则此类配置实际上可能会降低整体质量。

脚本、文档文本和说话人数据:不需要字段

默认情况下,可以直接从分析器输出访问内容提取信息,例如语音脚本、文档文本提取 OCR和视频关键帧,以便立即查看或自定义处理。 无需为这些项定义架构中的字段。 如果需要更多处理,例如汇总脚本、标识实体或从中提取 OCR特定项,则可以使用字段。 每个字段都可以指示系统提取或生成所需的内容。

分类器类别名称和说明

为了提高分类器和拆分的准确性,在上下文中给出好的类别名称和说明是很重要的。

示例 8
  • 对于类别名称,请确保使用常用标题(例如年度财务报告,SEC 表单 10-K)。

  • 对于类别说明,请确保提供将一个类别与另一个类别区分开的上下文。

    • 语义定义:例如 receipts for expense reporting
    • 关键内容:可以唯一识别某一类别的任何内容,例如税务表单上用于区别于旧税务表单的 2025
    • 常见布局:可与其他布局区分开来的布局,例如 two-column form 或填充/未填充的复选框