Azure 文档智能入门
若要使用 Azure 文档智能服务启动项目,需要一个 Azure 资源并选择用于数据提取的表单文件。
订阅资源
可以通过以下方式访问 Azure 文档智能服务:
- Foundry 工具资源:用于多个 Foundry 工具的订阅密钥
或
- Azure 文档智能资源:单服务订阅密钥(仅适用于特定的 Azure AI 服务)
注释
如果计划访问单个终结点/密钥下的多个 Foundry 工具,请创建 Foundry 工具资源。 如果仅访问 Azure 文档智能,请创建 Azure 文档智能资源。 请注意,如果要使用 Microsoft Entra 身份验证,则需要单服务资源。
可以在 Azure 门户中或使用 Azure 命令行接口(CLI)订阅服务。 可以 在此处了解有关 CLI 命令的详细信息。
了解 Azure 文档智能文件输入要求
Azure 文档智能适用于满足以下要求的输入文档:
- 格式必须为 JPG、PNG、BMP、PDF(文本或扫描),或 TIFF。
- 文件大小必须小于 500 MB(对于付费 (S0) 层)和 4 MB(对于免费 (F0) 层)。
- 图像尺寸必须介于 50 x 50 像素与 10000 x 10000 像素之间。
- 训练数据集的总大小必须为 500 页或更少。
有关特定模型的 文档中 提供了更多输入要求。
确定要使用的 Azure 文档智能组件
收集文件后,确定需要完成哪些任务。
| 用例 | 建议使用的功能 |
|---|---|
| 使用 OCR 功能捕获文档分析 | 使用 布局模型、 读取模型或 常规文档模型。 |
| 创建一个应用程序,用于从 W-2、发票、收据、ID 文档、医疗保险、疫苗接种和名片中提取数据 | 使用 预生成的模型。 无需训练这些模型。 Azure 文档智能服务分析文档并返回 JSON 输出。 |
| 创建应用程序以从行业特定的表单中提取数据 | 创建自定义模型。 需要根据示例文档训练此模型。 训练自定义模型后,它可以分析新文档并返回 JSON 输出。 |