你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

将认知服务资源附加到 Azure 认知搜索中的技能组

在 Azure 认知搜索中配置可选的 AI 扩充管道时,可以免费扩充有限数量的文档。 对于更大、更频繁的工作负载,应附加一个可计费的多服务认知服务资源

多服务资源将“认知服务”引用为产品/服务而不是单独的服务,并通过单个 API 密钥授予访问权限。 此密钥在技能组中指定,并允许 Microsoft 向你收取使用这些 API 的费用:

  • 用于图像分析和光学字符识别 (OCR) 的计算机视觉
  • 用于语言检测、实体识别、情绪分析和关键短语提取的语言服务
  • 用于机器文本翻译的翻译器

提示

Azure 提供用于监视计费和预算的基础结构。 有关监视认知服务的信息,请参阅计划和管理 Azure 认知服务成本

设置资源密钥

可以使用 Azure 门户、REST API 或 Azure SDK 将可计费资源附加到技能集。

如果未指定该属性,搜索服务将尝试使用索引器每天可用的免费扩充量。 可计费技能的执行将在每个索引器调用执行 20 个事务后停止,索引器执行历史记录中将显示“超时”消息。

  1. 登录 Azure 门户

  2. 在与搜索服务所在的同一区域中创建多服务认知服务资源

  3. 向技能组定义添加密钥:

    • 如果使用的是导入数据向导,请在第二步“添加 AI 扩充”中输入密钥。

    • 如果将密钥添加到新的或现有的技能组,请在“认知服务”选项卡中提供密钥。

    密钥页的屏幕截图。

如何使用密钥

如果每个索引器每天对认知服务资源的 API 调用数超过 20 次 API 调用,则基于密钥的计费适用。

密钥用于计费,而非用于连接。 对于连接,搜索服务通过内部网络连接到位于同一物理区域中的认知服务资源。 提供认知搜索的大多数区域也提供认知服务。

如果尝试在不同时具备这两种服务的区域中进行 AI 扩充,则将看到以下消息:“提供的密钥不是搜索服务区域的有效 CognitiveServices 类型密钥。”

注意

某些内置技能基于非区域认知服务(例如,文本翻译技能)。 使用非区域性技能意味着可能会在 Azure 认知搜索区域以外的区域中为你的请求提供服务。 有关非区域性服务的详细信息,请参阅认知服务产品(按区域)页面。

关键要求特殊情况

自定义实体查找由 Azure 认知搜索计量,而非由认知服务计量,但需要认知服务资源密钥才能解锁每个索引器每天超过 20 个的事务。 仅针对此技能,资源键解锁事务数量,但与计费无关。

免费扩充

AI 扩充提供少量可计费扩充的免费处理,让你无需附加认知服务资源即可完成简短的练习。 每个索引器每天的免费扩充量为 20 个文档。 如果你需要重复练习,可以重置索引器以重置计数器。

有些扩充始终免费:

  • 不调用认知服务的实用工具技能(即条件文档提取整形程序文本合并文本拆分技能)不可进行计费。

  • 从 PDF 文档和其他应用程序文件提取文本是不计费的。 文本提取发生在文档破解阶段,严格来说并不是一种扩充,但它在 AI 扩充期间发生,因此在此处进行说明。

可计费的扩充

在 AI 扩充过程中,认知搜索会调用认知服务 API,以获取基于语言计算机视觉、翻译器和适用于语言的 Azure 认知服务的内置技能

向认知服务进行后端调用的可计费内置技能包括实体链接实体识别图像分析关键短语提取语言检测OCR个人身份信息 (PII) 检测情感文本翻译

图像提取是一种 Azure 认知搜索操作,该操作在文档扩充前被破解时发生。 图像提取对所有层都是收费的,免费层每日 20 次免费提取除外。 图像提取成本适用于 blob 中的图像文件、其他文件(PDF 和其他应用程序文件)中的嵌入图像以及使用 Document Extraction 提取的图像。 有关图像提取的定价信息,请参阅 Azure 认知搜索定价页

提示

为了降低技能集处理的成本,启用增量扩充(预览版)以缓存和重复使用任何不受技能集更改影响的扩充。 缓存需要 Azure 存储(请参阅定价),但如果可以重复使用现有的扩充,则技能组执行的累积成本会降低,尤其是对于使用图像提取和分析的技能组。

示例:估算成本

若要估算认知搜索索引编制的相关成本,请先构想一下文档的大致结构,以便能够得出一些数字。 例如,可以使用以下似近值:

  • 1,000 个 PDF。
  • 每个 PDF 有 6 个页面。
  • 每个页面包含一个图像(共 6,000 个图像)。
  • 每个页面包含 3,000 个字符。

假设管道的功能包括:每个 PDF 的文档破解、图像和文本提取、图像的光学字符识别 (OCR),以及组织的实体识别。

本文中所示的价格是虚构的。 这些价格用于演示估算过程。 你的成本可能更低。 有关实际交易价格,请参阅认知服务定价

  1. 破解包含文本和图像内容的文档时,文本提取目前是免费的。 对于 6,000 个图像,假设每提取 1,000 个图像需要 $1。 则此步骤的成本是 $6.00。

  2. 对于英语环境中 6000 个图像的 OCR,OCR 认知技能使用最佳算法 (DescribeText)。 假设每分析 1,000 个图像的成本为 $2.50,则这一步需要支付 $15.00。

  3. 提取实体时,每页总共有 3 个文本记录。 每条记录包含 1,000 个字符。 每页 3 个文本记录 * 6,000 页 = 18,000 个文本记录。 假设 1000 个文本记录的成本为 $2.00,则这一步的成本为 $36.00。

综合起来,在使用上述技能集引入 1,000 个此类 PDF 文档时,需要支付大约 $57.00。

后续步骤