プロビジョニングスループットにおける 1 秒あたりのトークンの範囲は何を意味しますか?

[アーティクル]
03/01/2024

この記事では、Databricks が Foundation Model API でプロビジョニング済みスループットワークロードの 1 秒あたりのトークン数を測定する理由とその方法について説明します。

大規模言語モデル (LLM) のパフォーマンスの多くは、1 秒あたりのトークン数で測定されます。運用モデル提供エンドポイントを構成する場合は、アプリケーションがエンドポイントに送信する要求の数を考慮することが重要です。そうすることで、待機時間に影響を与えないようにスケーリングするようにエンドポイントを構成する必要があるかどうかを理解するのに役立ちます。

プロビジョニング済みスループットで展開されたエンドポイントのスケールアウト範囲を構成する場合、Databricks では、トークンを使用してシステムに対する入力を簡単に推論できることがわかりました。

トークンとは何ですか?

LLM は、トークンと呼ばれるものに関してテキストを読み取り、生成します。トークンには単語またはサブワードを使用できます。テキストをトークンに分割するための正確な規則は、モデルによって異なります。たとえば、オンラインツールを使用して、どのように LLaMa のトークナイザーが単語をトークンに変換するかを確認できます。

1 秒あたりのトークン数で LLM のパフォーマンスを測定する理由

従来、提供エンドポイントは、1 秒あたりの同時要求数 (RPS) に基づいて構成されていました。しかし、LLM 推論の要求では、渡されるトークンの数と生成される数によって実際にかかる時間が異なります。これは、要求間で不均衡になる可能性があります。そのため、エンドポイントに必要なスケールアウトの量を決定するには、要求の内容 (トークン) の観点からエンドポイントのスケールを実際に測定する必要があります。

ユースケースが異なると、入力トークンと出力トークンの比率も異なります。

入力コンテキストの長さが異なる: 一部の要求には少数の入力トークン (短い質問など) しか含まれない場合もあれば、要約用の長いドキュメントのように数百または数千のトークンが含まれる場合もあります。この変動のため、RPS だけに基づいて提供エンドポイントを構成することは困難になります。これは、異なる要求のさまざまな処理要求が考慮されないためです。
ユースケースに応じて出力の長さが異なる: LLM のユースケースが異なると、出力トークンの長さが大きく異なる可能性があります。出力トークンの生成は、LLM 推論の最も時間のかかる部分であるため、スループットに大きな影響を与える可能性があります。たとえば、要約には短い簡潔な応答が含まれますが、記事の作成や製品の説明のようなテキスト生成では、はるかに長い回答が生成される可能性があります。

エンドポイントの 1 秒あたりのトークン範囲を選択するにはどうすればよいですか?

プロビジョニング済みスループットの提供エンドポイントは、エンドポイントに送信できる 1 秒あたりのトークンの範囲に関して構成されます。エンドポイントはスケールアップおよびスケールダウンによって、運用アプリケーションの負荷を処理します。エンドポイントがスケーリングされる 1 秒あたりのトークンの範囲に基づいて、1 時間ごとに課金されます。

プロビジョニング済みスループットの提供エンドポイントの 1 秒あたりのトークン範囲を把握する最善の方法は、代表的なデータセットを使用してロードテストを実行することです。「独自の LLM エンドポイントベンチマークの実施」を参照してください。

考慮すべき重要な要因は 2 つあります。

Databricks が LLM の 1 秒あたりのトークンのパフォーマンスをどのようにして測定するか

Databricks は取得拡張生成のユースケースで一般的な要約タスクを表すワークロードに対してエンドポイントのベンチマークを作成します。具体的には、ワークロードは次で構成されます。
- 2048 の入力トークン
- 256 の出力トークン
表示されるトークン範囲は、入力と出力のトークンのスループットを組み合わせて、規定では、スループットと待機時間のバランスを取るための最適化を行います。

Databricks は、ユーザーが要求あたり 1 つのバッチサイズで 1 秒ごとに多数のトークンを同時にエンドポイントに送信できるベンチマークを作成します。これにより、エンドポイントに同時にヒットする複数の要求をシミュレートします。これは、実際に運用環境でエンドポイントをどのように使用するかをより正確に表します。
自動スケーリングのしくみ

モデル提供には、アプリケーションの 1 秒あたりのトークンの需要を満たすように基になるコンピューティングをスケーリングする迅速な自動スケーリングシステムを備えています。 Databricks は、プロビジョニング済みスループットを 1 秒あたりのトークンのチャンクとしてスケールアップするため、プロビジョニング済みスループットの追加ユニットは、それを使用している場合にのみ課金されます。

次の方法で共有

プロビジョニングスループットにおける 1 秒あたりのトークンの範囲は何を意味しますか?

トークンとは何ですか?

1 秒あたりのトークン数で LLM のパフォーマンスを測定する理由

エンドポイントの 1 秒あたりのトークン範囲を選択するにはどうすればよいですか?

その他のリソース

次の方法で共有

プロビジョニング スループットにおける 1 秒あたりのトークンの範囲は何を意味しますか?

トークンとは何ですか?

1 秒あたりのトークン数で LLM のパフォーマンスを測定する理由

エンドポイントの 1 秒あたりのトークン範囲を選択するにはどうすればよいですか?

その他のリソース

プロビジョニングスループットにおける 1 秒あたりのトークンの範囲は何を意味しますか?