你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文介绍如何在 Visual Studio Code 的 Azure Kubernetes 服务(AKS)扩展中使用 AI 工具链运算符 (KAITO) 加载项。 KAITO 会自动预配正确的 GPU 节点,并将推理服务器设置为 AI 模型,以便轻松测试和试验 AKS 上的 AI。
先决条件
- 需要安装用于 Visual Studio Code 的 Azure Kubernetes 服务 (AKS) 扩展才能使用 KAITO 体验。 有关详细信息,请参阅安装 Visual Studio Code 的 Azure Kubernetes 服务 (AKS) 扩展。
- 要部署到的群集是标准群集(目前无法在自动群集上安装 Kaito)。
- 通过检查 KAITO 模型工作区,验证 Azure 订阅是否具有所选模型的 GPU 配额。
在群集上安装 KAITO
- 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“安装 KAITO”。
- 在该页面上,选择“安装 KAITO”以启动 KAITO 安装过程。
- 安装完成后,你将看到一个“生成工作区”按钮,用于将你重定向到模型部署页。
创建 KAITO 工作区
创建 KAITO 工作区时,可以直接将默认工作区 CRD 部署到 AKS 群集,也可以保存 CRD 并根据需要对其进行自定义。
- 在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“创建 KAITO 工作区”。
- 找到并选择要部署的模型
- 选择“部署默认工作区 CRD”或“自定义工作区 CRD”。
- 选择“部署默认工作区 CRD”以部署模型。 它会跟踪模型的进度,并在模型成功部署后通知你。 如果模型已部署到群集上但未成功,它也会通知你。
- 部署完成后,会看到“查看已部署的模型”按钮,用于将你重定向到部署管理页。
管理 KAITO 模型
“管理 KAITO 模型”页允许查看 AKS 群集中部署的所有模型及其状态(正在进行的、成功或失败)。
在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“管理 KAITO 模型”。
在此页中,可以选择执行以下操作之一:
- 获取日志:选择“获取日志”以从 KAITO 工作区 Pod 访问部署的最新日志。 此操作将生成包含最近 500 行日志的新文本文件。
- 删除模型:选择“删除工作区” (或“取消正在进行的部署”)。 对于失败的部署,请选择“重新部署默认 CRD”以从头开始删除当前部署并重启模型部署过程。
- 测试模型:选择“测试”。 此操作将转到一个新页面,可在其中通过聊天界面与已部署的模型进行交互。
测试模型
在 Kubernetes 选项卡中,在 azure Clouds>Azure>订阅>使用 KAITO 部署 LLM,右键单击群集并选择“管理 KAITO 模型”。
选择“测试”。 此操作将转到一个新页面,可在其中通过“提示”框聊天界面与已部署的模型进行交互。
可以选择性地调整参数:
- 温度:控制模型输出的随机性。 低温适用于需要精度的任务,如数学问题,而高温更适用于创造性写作等任务。
- Top P:将下一个单词的选择限制为由累积概率阈值确定的词汇动态子集。
-
Top K:将下一个单词选择限制为最可能的前
K
个单词。 较小的K
值会导致更可预测的输出,而较大的值会增加可变性。 - 重复处罚:对重复相同短语、单词或序列的模型进行惩罚。 这对于避免重复输出或循环输出非常有用,尤其是在较长的生成中。
- 最大长度:定义生成的输出中标记(单词或子字)的最大数目。
有关详细信息,请参阅 Visual Studio Code 功能的 AKS 扩展。
删除模型推理部署
- 完成模型测试后,想要释放群集上分配的 GPU 资源,请转到 Kubernetes 选项卡,然后在 azure Clouds>Azure>订阅下,>使用 KAITO部署 LLM,右键单击群集并选择“管理 KAITO 模型”。
- 对于每个已部署的模型,选择 “删除工作区 ”以清除推理部署创建的所有已分配资源。
产品支持和反馈
如果你有疑问或想要提供产品反馈,请在 AKS 扩展 GitHub 存储库中提出问题。
后续步骤
若要详细了解其他 AKS 加载项和扩展,请参阅加载项、扩展和其他 AKS 集成。