你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Visual Studio Code 中使用 AI 工具链操作器 (KAITO) 部署和测试推理模型

本文介绍如何在 Visual Studio Code 的 Azure Kubernetes 服务(AKS)扩展中使用 AI 工具链运算符 (KAITO) 加载项。 KAITO 会自动预配正确的 GPU 节点,并将推理服务器设置为 AI 模型,以便轻松测试和试验 AKS 上的 AI。

先决条件

在群集上安装 KAITO

  1. 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“安装 KAITO”。
  2. 在该页面上,选择“安装 KAITO”以启动 KAITO 安装过程。
  3. 安装完成后,你将看到一个“生成工作区”按钮,用于将你重定向到模型部署页。

显示 KAITO 安装屏幕的屏幕截图。

创建 KAITO 工作区

创建 KAITO 工作区时,可以直接将默认工作区 CRD 部署到 AKS 群集,也可以保存 CRD 并根据需要对其进行自定义。

  1. 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“创建 KAITO 工作区”。
  2. 找到并选择要部署的模型
  3. 选择“部署默认工作区 CRD”或“自定义工作区 CRD”。
  4. 选择“部署默认工作区 CRD”以部署模型。 它会跟踪模型的进度,并在模型成功部署后通知你。 如果模型已部署到群集上但未成功,它也会通知你。
  5. 部署完成后,会看到“查看已部署的模型”按钮,用于将你重定向到部署管理页。

显示模型选择屏幕的屏幕截图。

管理 KAITO 模型

“管理 KAITO 模型”页允许查看 AKS 群集中部署的所有模型及其状态(正在进行的成功失败)。

  1. 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“管理 KAITO 模型”。

  2. 在此页中,可以选择执行以下操作之一:

    • 获取日志:选择“获取日志”以从 KAITO 工作区 Pod 访问部署的最新日志。 此操作将生成包含最近 500 行日志的新文本文件。
    • 删除模型:选择“删除工作区” (或“取消正在进行的部署”)。 对于失败的部署,请选择“重新部署默认 CRD”以从头开始删除当前部署并重启模型部署过程。
    • 测试模型:选择“测试”。 此操作将转到一个新页面,可在其中通过聊天界面与已部署的模型进行交互。

显示“管理模型”屏幕的屏幕截图。

测试模型

  1. 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“管理 KAITO 模型”。

  2. 选择“测试”。 此操作将转到一个新页面,可在其中通过“提示”框聊天界面与已部署的模型进行交互。

  3. 可以选择性地调整参数:

    • 温度:控制模型输出的随机性。 低温适用于需要精度的任务,如数学问题,而高温更适用于创造性写作等任务。
    • Top P:将下一个单词的选择限制为由累积概率阈值确定的词汇动态子集。
    • Top K:将下一个单词选择限制为最可能的前 K 个单词。 较小的 K 值会导致更可预测的输出,而较大的值会增加可变性。
    • 重复处罚:对重复相同短语、单词或序列的模型进行惩罚。 这对于避免重复输出或循环输出非常有用,尤其是在较长的生成中。
    • 最大长度:定义生成的输出中标记(单词或子字)的最大数目。

显示测试模型屏幕的屏幕截图。

有关详细信息,请参阅 Visual Studio Code 功能的 AKS 扩展

删除模型推理部署

  1. 完成模型测试后,想要释放群集上分配的 GPU 资源,请转到 Kubernetes 选项卡,然后在 azure Clouds>Azure>订阅下,>使用 KAITO部署 LLM,右键单击群集并选择“管理 KAITO 模型”
  2. 对于每个已部署的模型,选择 “删除工作区 ”以清除推理部署创建的所有已分配资源。

产品支持和反馈

如果你有疑问或想要提供产品反馈,请在 AKS 扩展 GitHub 存储库中提出问题。

后续步骤

若要详细了解其他 AKS 加载项和扩展,请参阅加载项、扩展和其他 AKS 集成