次の方法で共有


プロビジョニング スループットにおける 1 秒あたりのトークンの範囲は何を意味しますか?

この記事では、Databricks が Foundation Model API でプロビジョニング済みスループット ワークロードの 1 秒あたりのトークン数を測定する理由とその方法について説明します。

大規模言語モデル (LLM) のパフォーマンスの多くは、1 秒あたりのトークン数で測定されます。 運用モデル提供エンドポイントを構成する場合は、アプリケーションがエンドポイントに送信する要求の数を考慮することが重要です。 そうすることで、待機時間に影響を与えないようにスケーリングするようにエンドポイントを構成する必要があるかどうかを理解するのに役立ちます。

プロビジョニング済みスループットで展開されたエンドポイントのスケールアウト範囲を構成する場合、Databricks では、トークンを使用してシステムに対する入力を簡単に推論できることがわかりました。

トークンとは何ですか?

LLM は、トークンと呼ばれるものに関してテキストを読み取り、生成します。 トークンには単語またはサブワードを使用できます。テキストをトークンに分割するための正確な規則は、モデルによって異なります。 たとえば、オンライン ツールを使用して、どのように LLaMa のトークナイザーが単語をトークンに変換するかを確認できます。

1 秒あたりのトークン数で LLM のパフォーマンスを測定する理由

従来、提供エンドポイントは、1 秒あたりの同時要求数 (RPS) に基づいて構成されていました。 しかし、LLM 推論の要求では、渡されるトークンの数と生成される数によって実際にかかる時間が異なります。これは、要求間で不均衡になる可能性があります。 そのため、エンドポイントに必要なスケールアウトの量を決定するには、要求の内容 (トークン) の観点からエンドポイントのスケールを実際に測定する必要があります。

ユース ケースが異なると、入力トークンと出力トークンの比率も異なります。

  • 入力コンテキストの長さが異なる: 一部の要求には少数の入力トークン (短い質問など) しか含まれない場合もあれば、要約用の長いドキュメントのように数百または数千のトークンが含まれる場合もあります。 この変動のため、RPS だけに基づいて提供エンドポイントを構成することは困難になります。これは、異なる要求のさまざまな処理要求が考慮されないためです。
  • ユース ケースに応じて出力の長さが異なる: LLM のユース ケースが異なると、出力トークンの長さが大きく異なる可能性があります。 出力トークンの生成は、LLM 推論の最も時間のかかる部分であるため、スループットに大きな影響を与える可能性があります。 たとえば、要約には短い簡潔な応答が含まれますが、記事の作成や製品の説明のようなテキスト生成では、はるかに長い回答が生成される可能性があります。

エンドポイントの 1 秒あたりのトークン範囲を選択するにはどうすればよいですか?

プロビジョニング済みスループットの提供エンドポイントは、エンドポイントに送信できる 1 秒あたりのトークンの範囲に関して構成されます。 エンドポイントはスケールアップおよびスケールダウンによって、運用アプリケーションの負荷を処理します。 エンドポイントがスケーリングされる 1 秒あたりのトークンの範囲に基づいて、1 時間ごとに課金されます。

プロビジョニング済みスループットの提供エンドポイントの 1 秒あたりのトークン範囲を把握する最善の方法は、代表的なデータセットを使用してロード テストを実行することです。 「独自の LLM エンドポイント ベンチマークの実施」を参照してください。

考慮すべき重要な要因は 2 つあります。

  • Databricks が LLM の 1 秒あたりのトークンのパフォーマンスをどのようにして測定するか

    Databricks は取得拡張生成のユース ケースで一般的な要約タスクを表すワークロードに対してエンドポイントのベンチマークを作成します。 具体的には、ワークロードは次で構成されます。

    • 2048 の入力トークン
    • 256 の出力トークン

    表示されるトークン範囲は、入力と出力のトークンのスループットを組み合わせて、規定では、スループットと待機時間のバランスを取るための最適化を行います。

    Databricks は、ユーザーが要求あたり 1 つのバッチ サイズで 1 秒ごとに多数のトークンを同時にエンドポイントに送信できるベンチマークを作成します。 これにより、エンドポイントに同時にヒットする複数の要求をシミュレートします。これは、実際に運用環境でエンドポイントをどのように使用するかをより正確に表します。

  • 自動スケーリングのしくみ

    モデル提供には、アプリケーションの 1 秒あたりのトークンの需要を満たすように基になるコンピューティングをスケーリングする迅速な自動スケーリング システムを備えています。 Databricks は、プロビジョニング済みスループットを 1 秒あたりのトークンのチャンクとしてスケールアップするため、プロビジョニング済みスループットの追加ユニットは、それを使用している場合にのみ課金されます。