你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
适用于:
Azure Data Factory
Azure Synapse Analytics
提示
Microsoft Fabric 中的 Data Factory 是下一代 Azure Data Factory,具有更加简化的架构、内置人工智能和新功能。 如果不熟悉数据集成,请从Fabric数据工厂开始。 现有 ADF 工作负载可以升级到 Fabric,以跨数据科学、实时分析和报告访问新功能。
本文介绍一个解决方案模板,可用于使用 Foundry Tools 中的Azure Data Factory和Azure文档智能从 PDF 源中提取数据。
关于此解决方案模板
此模板使用两个文档智能调用分析 PDF URL 源中的数据。 然后,它将输出转换为数据流中的可读表,并将数据输出到存储接收器。
该模板包含两个活动:
- 用于调用文档智能的预生成读取模型 API 的 Web 活动
- 数据流:用于转换从 PDF 提取的数据
此模板定义了 5 个参数:
- CognitiveServicesURL 是文档智能 URL(“https://{endpoint}/formrecognizer/v2.1/layout/analyze”)。 将 {endpoint} 替换为通过文档智能订阅获取的终结点。 需将默认值替换为你自己的 URL。
- CognitiveServicesKey 是文档智能订阅密钥。 需将默认值替换为你自己的订阅密钥。
- PDF_SourceURL 是 PDF 源的 URL。 需将默认值替换为你自己的 URL。
- OutputContainer 是你希望将文件置于目标存储中时所采用的容器路径的名称。 需要将默认值替换为你自己的容器。
- OutputFolder 是你希望将文件置于目标存储中时所采用的文件夹路径的名称。 需将默认值替换为自己的文件夹路径。
先决条件
- 文档智能资源终结点 URL 和密钥(创建新的资源 here)
如何使用此解决方案模板
转到模板“从 PDF 中提取数据”。 创建与您的文档智能资源的新连接,或选择一个现有连接。
在与文档智能的连接中,请确保添加 链接服务参数。 需要将此 url 参数用作动态基本 URL。 还需要在 Auth 标头下添加新的 Auth 标头。 名称应为 Ocp-Apim-Subscription-Key,该值应为从Azure资源中找到的键值。
创建到目标存储的新连接,或选择现有连接。 所选的目标是存储所提取的 PDF 数据的位置。
选择“使用此模板” 。
你应该会看到以下管道。
导航到“数据流”活动,找到“设置”。 在这里,需要为链接服务的 url 参数添加动态内容。 单击“添加动态内容”后,管道表达式生成器将打开。 选择认知服务 - POST 活动输出。 然后,键入或复制粘贴“.output.ADFWebActivityResponseHeaders['Operation-Location']”。应该会在表达式生成器中看到以下表达式。
单击“确定”,返回到管道。
接下来,选择“调试”。
输入参数值,查看结果,然后进行发布。