你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

服务配额和限制

此内容适用于:checkmarkv4.0(预览版) | 先前版本:blue-checkmarkv3.1 (GA)blue-checkmarkv3.0 (GA)

此内容适用于:checkmarkv2.1 | 最新版本:blue-checkmarkv4.0(预览版)

本文包含有关所有定价层的 Azure AI 文档智能服务配额和限制的快速参考和详细说明。 它也包含避免请求限制的一些最佳做法。

模型使用

支持的文档类型 读取 Layout 预生成的模型 自定义模式
PDF
图像 (JPEG/JPG)、PNG、BMP、TIFF、HEIF
Office 文件类型 DOCX、PPTX、XLS ✖️ ✖️ ✖️
支持的文档类型 读取 Layout 预生成的模型 自定义模式
PDF
图像 (JPEG/JPG)、PNG、BMP、TIFF、HEIF
Office 文件类型 DOCX、PPTX、XLS ✖️ ✖️
Quota 免费 (F0)1 标准 (S0)
每秒事务数限制 1 15(默认值)
可调 2
最大文档大小 4 MB 500 MB
可调
最大页数(分析) 2 2000
可调
标签文件的最大大小 10 MB 10 MB
可调
OCR json 响应的最大大小 500 MB 500 MB
可调
模板模型的最大数量 500 5000
可调
神经网络模型的最大数量 100 500
可调

自定义模型用法

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 200(默认值)
可调
训练数据集大小 * 神经网络 1 GB 3 1 GB(默认值)
可调
训练数据集大小 * 模板 50 MB 4 50 MB(默认值)
可调
最大页数(训练)* 模板 500 500(默认值)
可调
最大页数(训练)* 神经网络 50,000 50,000(默认值)
可调
自定义神经模型训练 每月 10 次 每月 20 次
可调 3
最大页数(训练)* 分类器 10,000 10,000(默认值)
可调
最大文档类型(类)数量 * 分类器 500 500(默认值)
可调
训练数据集大小 * 分类器 1GB 1GB(默认值)
可调
每个类的最小样本数 * 分类器 5 5(默认值)
可调

自定义模型限制

Quota 免费 (F0) 1 标准 (S0)
组合模型限制 5 200(默认值)
可调
训练数据集大小 50 MB 50 MB(默认值)
可调
最大页数(训练) 500 500(默认值)
可调

1 对于“免费 (F0)”定价层,另请参阅定价页上的每月限额。
2 请参阅最佳做法和 [调整说明(#create-and-submit-support-request)。
3 神经网络模型训练计数在每个日历月重置。 提交支持请求以提高每月训练上限。

4 此限制适用于在进行任何与标记相关的更新之前在训练数据集文件夹中找到的所有文档。

详细说明、配额调整和最佳做法

请求增加配额(如果适用)之前,请确保其必要性。 文档智能服务使用自动缩放技术将所需的计算资源带入“按需”模式,同时通过不保留过多的硬件容量来降低客户成本和取消预配未使用的资源。

如果应用程序返回响应代码 429(表示“请求过多”),但工作负荷又在定义的限制内:很可能该服务正在按需进行缩放,但并没有达到所需的规模。 因此,该服务不会立即提供足够的资源来处理请求。 此状态是暂时性的,应该不会持续太久。

在自动缩放期间缓解限制的常规最佳做法

为了最大程度地减少与限制(响应代码 429)相关的问题,我们建议使用以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增加工作负载
    示例。 应用程序正在使用文档智能,当前工作负载是 10 TPS(每秒事务数)。 接下来,将负载增加到 40 TPS(即原来的四倍)。 服务会立即开始扩展以实现新的负载,但可能无法在一秒钟内完成此操作,因此某些请求会获得响应代码 429。

下一部分介绍调整配额的特定案例。 跳转到文档智能:增加并发请求限制

每秒增加事务请求限制

默认情况下,文档智能资源的事务数量限制为每秒 15 个事务。 此数量在标准定价层中可能有所增加。 提交请求之前,请确保熟悉此部分中的材料,并了解这些最佳做法

增加并发请求限制不会直接影响成本。 文档智能服务使用“只需为使用的资源付费”模型。 此限制定义了服务在开始限制请求之前可缩放的程度。

并发请求限制参数的现有值不通过 Azure 门户、命令行工具或 API 请求显示。 若要验证现有值,请创建 Azure 支持请求。

若要增加每秒事务数,可以在资源上启用自动缩放。 请按照此文档中的说明对资源启用自动缩放 * 启用自动缩放。 还可提交关于增加 TPS 的支持请求。

准备好所需信息

  • 文档智能资源 ID

  • 区域

  • 如何获取信息(基础模型)

    • 登录到 Azure 门户
    • 选择要将增加事务限制的文档智能资源
    • 选择“属性”(资源管理组)
    • 复制并保存以下字段的值:
      • 资源 ID
      • 位置(终结点区域)

创建并提交支持请求

通过提交支持请求,开始增加资源的每秒事务处理数量 (TPS) 限制:

  • 确保具有所需的信息
  • 登录到 Azure 门户
  • 选择要增加 TPS 限制的文档智能资源
  • 选择“新建支持请求”(支持 + 疑难解答组)
  • 会出现一个新窗口,其中包含有关 Azure 订阅和 Azure 资源的自动填充信息
  • 输入“摘要”(例如“增加文档智能 TPS 限制”)
  • 在“问题类型”*中选择“配额或使用情况验证”
  • 选择“下一步: 解决方案”
  • 进一步创建请求
  • 在“详细信息”选项卡下的“说明”字段中输入以下信息:
    • 请注意,请求与文档智能配额有关。
    • 提供想要进行扩展以达到的 TPS 预期值。
    • 收集的 Azure 资源信息。
    • 输入必填信息之后,选择“查看 + 创建”选项卡中的“创建”按钮
    • 注意 Azure 门户通知中的支持请求编号。 我们很快就会与你联系以便进行进一步的处理

工作负载模式最佳做法的示例

本示例介绍了我们建议采用的方法,以减少由于正在进行自动缩放而导致的可能的请求限制。 它不是精确的方案,而只是我们请求用户遵循并根据需要调整的模板。

假设文档智能资源设置有默认限制。 启动工作负载以提交分析请求。 如果你发现你经常看到响应代码为 429 的限制,请首先对 GET 分析响应请求实施指数退避。 通过在连续错误响应的重试之间使用逐渐延长的等待时间,例如请求之间的 2-5-13-34 延迟模式。 通常,对于相应的 POST 请求,建议调用 GET 分析响应的频率不超过每 2 秒一次。

如果发现提交文档的 POST 请求次数受到限制,请考虑在请求之间添加延迟。 如果工作负荷需要更高的并发处理能力,则需要创建支持请求,以提高每秒事务处理数量的服务限制。

通常,我们建议在投入生产之前测试工作负载和工作负载模式。

后续步骤