共用方式為


進行您自己的 LLM 端點基準檢驗

本文提供 Databricks 建議的筆記本範例,以基準檢驗 LLM 端點。 它也包含 Databricks 如何執行 LLM 推斷,並計算延遲和輸送量作為端點效能計量的簡短簡介。

Databricks 上的 LLM 推斷會測量基礎模型 API 布建輸送量模式的每秒令牌。 請參閱 布建輸送量中的每秒令牌範圍是什麼意思?

基準檢驗範例筆記本

您可以將下列筆記本匯入 Databricks 環境,並指定要執行負載測試的 LLM 端點名稱。

基準檢驗 LLM 端點

取得筆記本

LLM 推斷簡介

LLM 會在雙步驟程式中執行推斷:

  • 預先填入,其中輸入提示中的令牌會平行處理。
  • 碼,其中文字會以自動回歸的方式一次產生一個令牌。 每個產生的令牌都會附加至輸入,並送回模型以產生下一個令牌。 當 LLM 輸出特殊停止令牌或符合使用者定義條件時,產生就會停止。

大部分的生產應用程式都有延遲預算,而 Databricks 建議您在延遲預算的情況下將輸送量最大化。

  • 輸入令牌數目會對處理要求所需的記憶體產生重大影響。
  • 輸出令牌的數目主導整體回應延遲。

Databricks 會將 LLM 推斷分成下列子計量:

  • 第一個令牌 的時間(TTFT):這是使用者在輸入其查詢之後開始看到模型輸出的速度。 在即時互動中,回應的等候時間很低,但在離線工作負載中則較不重要。 此計量是由處理提示所需的時間所驅動,然後產生第一個輸出令牌。
  • 每個輸出令牌 的時間(TPOT):為查詢系統的每個用戶產生輸出令牌的時間。 此計量會對應每位使用者如何感知模型的「速度」。 例如,每個令牌 100 毫秒的 TPOT 是每秒 10 個令牌,或每分鐘約 450 個字,比一般人員可以讀取的速度快。

根據這些計量,可以定義總延遲和輸送量,如下所示:

  • 延遲 = TTFT + (TPOT) * (要產生的權杖數目)
  • 輸送量 = 所有並行要求每秒輸出令牌數目

在 Databricks 上,提供端點的 LLM 能夠進行調整,以符合用戶端與多個並行要求所傳送的負載。 延遲和輸送量之間有取捨。 這是因為,在提供端點的 LLM 上,並行要求可以同時處理。 在低並行要求負載下,延遲是可能最低的。 不過,如果您增加要求負載,延遲可能會增加,但輸送量可能會上升。 這是因為每秒可處理兩個值令牌的要求,時間少於兩倍。

因此,控制系統中的平行要求數目,是平衡延遲與輸送量的核心。 如果您有低延遲的使用案例,您想要將較少的並行要求傳送至端點,以保持低延遲。 如果您有高輸送量使用案例,您會想要讓端點飽和,並有許多並行要求,因為更高的輸送量值得,即使犧牲延遲。

Databricks 基準檢驗控管

先前共用 的基準檢驗範例筆記本 是 Databricks 的基準檢驗控管。 筆記本會顯示延遲和輸送量計量,並繪製跨不同平行要求數目的輸送量與延遲曲線。 Databricks 端點自動調整是以延遲與輸送量之間的「平衡」策略為基礎。 在筆記本中,您會發現隨著更多並行用戶同時查詢端點,延遲也會上升以及輸送量。

Throughput-Latency Graph

關於 LLM 效能基準檢驗的 Databricks 哲學詳細數據 ,請參閱 LLM 推斷效能工程:最佳做法部落格