Share via


將優化的 LLM 服務端點遷移至布建的輸送量

本文說明如何將現有的 LLM 服務端點移轉至使用基礎模型 API 提供的布建輸送量體驗。

有什麼變更?

布建的輸送量提供更簡單的體驗,可啟動優化的 LLM 服務端點。 Databricks 已修改其 LLM 模型服務系統,以便:

  • 相應放大範圍可以在 LLM 原生詞彙中設定,例如每秒的令牌,而不是並行。
  • 客戶不再需要選取 GPU 工作負載類型本身。

新的 LLM 服務端點預設會以布建的輸送量建立。 如果您想要繼續選取 GPU 工作負載類型,此體驗僅支援使用 API。

將提供端點的 LLM 遷移至布建的輸送量

將現有端點移轉至布建輸送量的最簡單方式,就是使用新的模型版本來更新您的端點。 選取新的模型版本之後,UI 會顯示布建輸送量的體驗。 UI 會根據一般使用案例的 Databricks 基準檢驗,顯示每秒的令牌範圍。

Provisioned throughput LLM serving

這項更新供應專案的效能會因為優化改善而變得更好,而且端點的價格保持不變。 請連絡 model-serving-feedback@databricks.com 以取得產品意見反應或疑慮。