你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

服务配额和限制

项目
2025/01/16

此内容适用于： v4.0 (GA) | 以前的版本： v3.1 (GA) v3.0 (GA)

此内容适用于： v2.1 | 最新版本： v4.0 (GA)

本文包含有关所有定价层的 Azure AI 文档智能服务配额和限制的快速参考和详细说明。它也包含避免请求限制的一些最佳做法。

模型使用

支持的文档类型	读取	Layout	预生成的模型	自定义模式	附加功能
PDF	✔️	✔️	✔️	✔️	✔️
映像：`JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	✔️	✔️	✔️	✔️	✔️
Microsoft Office：`DOCX`、`PPTX`、`XLS`	✔️	✔️	✖️	✖️	✖️

✔️ = 支持 ✖️ = 不支持

支持的文档类型	读取	Layout	预生成的模型	自定义模式
PDF	✔️	✔️	✔️	✔️
映像：`JPEG/JPG`、`PNG`、`BMP`、`TIFF`、`HEIF`	✔️	✔️	✔️	✔️
Microsoft Office：`DOCX`、`PPTX`、`XLS`	✔️	✖️	✖️	✖️

✔️ = 支持 ✖️ = 不支持

计费

文档智能计费是根据模型类型和分析的页数按月计算的。可以在 Azure 门户的指标仪表板上找到使用情况指标。仪表板显示 Azure AI 文档智能处理的页面数。可以使用 Azure 定价计算器检查资源花费的估计成本。有关详细说明，请参阅检查使用情况和估算成本。下面是一些详细信息：

提交文档进行分析时，除非在请求中使用 pages 参数指定页面范围，否则该服务会分析所有页面。当该服务通过读取、OCR 或布局模型分析 Microsoft Excel 和 PowerPoint 文档时，它会将每个 Excel 工作表和 PowerPoint 幻灯片计为一页。
当该服务分析 PDF 和 TIFF 文件时，它会将 PDF 文件中的每一页或 TIFF 文件中的每个图像计为一页，没有最大字符数限制。
当该服务分析读取和布局模型支持的 Microsoft Word 和 HTML 文件时，它会以每个 3,000 个字符的块对页面进行计数。例如，如果文档包含 7,000 个字符，则有两页各包含 3,000 个字符，一页包含 1,000 个字符，总计为三页。
读取和布局模型不支持对 Microsoft Word、Excel、PowerPoint 和 HTML 文件中的嵌入或链接图像进行分析。因此，服务不会将它们算作添加的图像。
使用文档智能训练自定义模型始终是免费的。仅当服务使用模型分析文档时，才会产生费用。
容器定价与云服务定价相同。
文档智能提供免费层 (F0)，你可以在其中测试所有文档智能功能。免费层限制仅分析对请求中前两页的响应。
对于大型工作负载，文档智能提供基于承诺的定价模型。
为用于自定义训练的数据集生成标签需要使用布局模型。如果用于自定义训练的数据集没有可用的标签文件，该服务会为你生成它们，并向你收取布局模型使用费。

Quota	免费 (F0)¹	标准 (S0)
分析每秒事务数限制	1	15（默认值）
可调	否	是 ²
每秒获取操作数限制	1	50（默认值）
可调	否	是 ²
每秒模型管理操作数限制	1	5（默认值）
可调	否	是 ²
每秒列出操作数限制	1	10（默认值）
可调	否	是 ²
最大文档大小	4 MB	500 MB
可调	否	否
最大页数（分析）	2	2000
可调	否	否
标签文件的最大大小	10 MB	10 MB
可调	否	否
OCR json 响应的最大大小	500 MB	500 MB
可调	否	否
模板模型的最大数量	500	5000
可调	否	否
神经网络模型的最大数量	100	500
可调	否	否

自定义模型用法

Quota	免费 (F0) ¹	标准 (S0)
组合模型限制	5	500（默认值）
可调	否	否
*训练数据集大小神经网络和生成**	1 GB ³	1 GB（默认值）
可调	否	否
训练数据集大小 * 模板	50 MB ⁴	50 MB（默认值）
可调	否	否
最大页数（训练）* 模板	500	500（默认值）
可调	否	否
*最大页数（训练）神经网络和生成**	50,000	50,000（默认值）
可调	否	否
自定义神经模型训练	每月 10 小时 ⁵	无限制（按小时付费），每月首先赠送 10 小时的免费使用时间
可调	否	是 ³
最大页数（训练）* 分类器	10,000	10,000（默认值）
可调	否	否
最大文档类型（类）数量 * 分类器	500	500（默认值）
可调	否	否
训练数据集大小 * 分类器	1GB	2GB（默认值）
可调	否	否
每个类的最小样本数 * 分类器	5	5（默认值）
可调	否	否

自定义模型用法

Quota	免费 (F0) ¹	标准 (S0)
组合模型限制	5	200（默认值）
可调	否	否
训练数据集大小 * 神经网络	1 GB ³	1 GB（默认值）
可调	否	否
训练数据集大小 * 模板	50 MB ⁴	50 MB（默认值）
可调	否	否
最大页数（训练）* 模板	500	500（默认值）
可调	否	否
最大页数（训练）* 神经网络	50,000	50,000（默认值）
可调	否	否
自定义神经模型训练	每月 10 次	每月 20 次
可调	否	是 ³
最大页数（训练）* 分类器	10,000	10,000（默认值）
可调	否	否
最大文档类型（类）数量 * 分类器	500	500（默认值）
可调	否	否
训练数据集大小 * 分类器	1GB	1GB（默认值）
可调	否	否
每个类的最小样本数 * 分类器	5	5（默认值）
可调	否	否

自定义模型用法

Quota	免费 (F0) ¹	标准 (S0)
组合模型限制	5	200（默认值）
可调	否	否
训练数据集大小 * 神经网络	1 GB ³	1 GB（默认值）
可调	否	否
训练数据集大小 * 模板	50 MB ⁴	50 MB（默认值）
可调	否	否
最大页数（训练）* 模板	500	500（默认值）
可调	否	否
最大页数（训练）* 神经网络	50,000	50,000（默认值）
可调	否	否
自定义神经模型训练	每月 10 次	每月 20 次
可调	否	是 ³
最大页数（训练）* 分类器	10,000	10,000（默认值）
可调	否	否
最大文档类型（类）数量 * 分类器	500	500（默认值）
可调	否	否
训练数据集大小 * 分类器	1GB	1GB（默认值）
可调	否	否
每个类的最小样本数 * 分类器	5	5（默认值）
可调	否	否

自定义模型限制

Quota	免费 (F0) ¹	标准 (S0)
组合模型限制	5	200（默认值）
可调	否	否
训练数据集大小	50 MB	50 MB（默认值）
可调	否	否
最大页数（训练）	500	500（默认值）
可调	否	否

¹ 有关免费 (F0) 定价层，另请参阅定价页上的每月限额。
² 请参阅最佳做法和调整说明。
³ 神经网络模型训练计数会在每个日历月重置。提交支持请求以提高每月训练上限。从 v4.0 API 开始，一个日历月中的 20 个以上的训练请求是在训练层计费的。有关详细信息，请参阅定价。

⁴ 此限制适用于在进行任何与标记相关的更新之前在训练数据集文件夹中找到的所有文档。

⁵ 此限制仅适用于 v 4.0 (2024-11-30 GA) 自定义神经网络模型。从 v 4.0 开始，我们支持对更大的文档进行更长时间的训练（免费最多 10 小时，之后将收取费用）。有关详细信息，请参阅自定义神经网络模型页。

详细说明、配额调整和最佳做法

通过支持工单请求某个增量，可以延长默认限制。请求增加配额（如果适用）之前，请确保其必要性。文档智能服务使用自动缩放技术将所需的计算资源 on-demand，同时通过不保留过多的硬件容量来降低客户成本和取消预配未使用的资源。

如果应用程序返回响应代码 429（请求过多），则超过一个或多个每秒事务数 (TPS) 限制的阈值：

分析每秒事务数限制用于提交分析请求的 TPS (POST)
每秒获取操作数限制用于轮询分析操作结果的 TPS (GET)
每秒模型管理操作数限制与模型管理相关的操作，例如生成/训练和复制。
每秒列出操作数限制与列出模型、操作相关的操作。

在自动缩放期间缓解限制的常规最佳做法

为了最大程度地减少与限制（响应代码 429）相关的问题，我们建议使用以下方法：

在应用程序中实现重试逻辑
避免工作负载的急剧变化。逐步增加工作负载
示例。 应用程序正在使用文档智能，当前工作负载是 10 TPS（每秒事务数）。接下来，你将负载增加到 40 TPS。结果是，由于你提交的分析操作超过了 15 TPS 的限制，部分请求会收到 429 响应代码。可以回退处理，以保持不超过 15 TPS，或请求增加 TPS 以支持更高的处理量。

下一部分介绍调整配额的特定案例。跳转到文档智能：增加并发请求限制

每秒增加事务请求限制

默认情况下，文档智能资源的事务数量限制为每秒 15 个事务。此数量在标准定价层中可能有所增加。提交请求之前，请确保熟悉此部分中的材料，并了解这些最佳做法。

第一步是启用自动缩放。请按照此文档中的说明对资源启用自动缩放 * 启用自动缩放。启用自动缩放后，如果服务上有可用容量，则资源可以继续接受超过配置的 TPS 限制的请求。它仍可能导致请求受到限制。

增加并发请求限制不会直接影响成本。文档智能服务使用“只需为使用的资源付费”模型。此限制定义了服务在开始限制请求之前可缩放的程度。

在 Azure 门户中“资源概述”边栏选项卡上的“监视”选项卡下，可以找到不同请求限制类别的现有值。

创建并提交 TPS 增加支持请求

通过提交支持请求，开始增加资源的每秒事务处理数量 (TPS) 限制：

登录到 Azure 门户
选择要增加 TPS 限制的文档智能资源
选择“新建支持请求”（“支持 + 故障排除”组）。会出现一个新窗口，其中包含有关 Azure 订阅和 Azure 资源的自动填充信息
输入“摘要”（例如“增大文档智能 TPS 限制”）
对于“问题类型”字段，选择“配额或使用情况验证”。
选择“下一步: 解决方案”
进一步创建请求
在“详细信息”选项卡下的“说明”字段中输入以下信息：
- 请注意，请求与文档智能配额有关。
- 提供想要进行扩展以达到的 TPS 预期值。虽然 TPS 增加是免费的，但你应该只请求适合你的工作负载的 TPS。
- Azure 资源信息
- 输入必填信息之后，在“查看 + 创建”选项卡中选择“创建”按钮
- 注意 Azure 门户通知中的支持请求编号。等待支持人员很快与你联系来进一步进行处理。

工作负载模式最佳做法的示例

本示例介绍了我们建议采用的方法，以减少由于正在进行自动缩放而导致的可能的请求限制。它不是精确的方案，而只是我们请求用户遵循并根据需要调整的模板。

假设文档智能资源设置有默认限制。启动工作负载以提交分析请求。如果你发现在检查完成时，你经常看到响应代码为 429 的限制，请首先对 GET 分析响应请求实施指数退避。通过在连续错误响应的重试之间使用逐渐延长的等待时间，例如请求之间的 2-5-13-34 延迟模式。通常，对于相应的 POST 请求，建议调用 GET 分析响应的频率不超过每 2 秒一次。 analyze 响应还包含一个重试间隔标头，指示在检查请求完成之前应等待多长时间（以秒为单位）。

如果发现提交文档的 POST 请求次数受到限制，请考虑在请求之间添加延迟。如果工作负荷需要更高的并发处理能力，则需要创建支持请求，以提高每秒事务处理数量的服务限制。

通常，我们建议在投入生产之前测试工作负载和工作负载模式。

后续步骤

了解错误代码和故障排除

通过

服务配额和限制

模型使用

计费

自定义模型用法

自定义模型用法

自定义模型用法

自定义模型限制

详细说明、配额调整和最佳做法

在自动缩放期间缓解限制的常规最佳做法

每秒增加事务请求限制

创建并提交 TPS 增加支持请求

工作负载模式最佳做法的示例

后续步骤

反馈

其他资源