使用基础模型 API 预配的吞吐量进行批处理推理

本文提供了一个示例笔记本,该笔记本使用 基础模型 APIai_query对预配的吞吐量终结点执行批处理推理。

要求

  • 基础模型 API 支持的区域中的一个工作区。
  • 以下项之一:
    • 具有计算大小 i3.2xlarge 或更大运行 Databricks Runtime 15.4 ML LTS 或更高版本且至少有 2 个辅助角色的通用计算。
    • SQL 仓库中型和更大。

运行批量推理

通常,设置批处理推理涉及 2 个步骤:

  1. 创建要用于批处理推理的终结点。
  2. 使用 ai_query构造批处理请求并将这些请求发送到批处理推理终结点。

示例笔记本介绍了这些步骤,并演示了使用 Meta Llama 3.1 70B 模型的批处理推理。

使用预配吞吐量终结点笔记本进行批量推理

获取笔记本

其他资源