使用基础模型 API 预配的吞吐量进行批处理推理
本文提供了一个示例笔记本,该笔记本使用 基础模型 API 和 ai_query对预配的吞吐量终结点执行批处理推理。
要求
- 基础模型 API 支持的区域中的一个工作区。
- 以下项之一:
- 具有计算大小
i3.2xlarge
或更大运行 Databricks Runtime 15.4 ML LTS 或更高版本且至少有 2 个辅助角色的通用计算。 - SQL 仓库中型和更大。
- 具有计算大小
运行批量推理
通常,设置批处理推理涉及 2 个步骤:
- 创建要用于批处理推理的终结点。
- 使用
ai_query
构造批处理请求并将这些请求发送到批处理推理终结点。
示例笔记本介绍了这些步骤,并演示了使用 Meta Llama 3.1 70B 模型的批处理推理。