次の方法で共有


分散 LLM バッチ推論

Important

この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。

このページでは、サーバーレス GPU コンピューティング上の AI ワークロード用のスケーラブルなデータ処理ライブラリである Ray Data を使用した LLM バッチ推論のノートブック例を示します。

Ray Data での vLLM を使用したバッチ推論

このノートブックでは、サーバーレス GPU で Ray Data と vLLM を使用して大規模に LLM 推論を実行する方法を示します。 分散サーバーレス GPU API を利用して、分散推論用のマルチノード A10 GPU を自動的にプロビジョニングおよび管理します。

vLLM バッチ推論

ノートブックを入手

Ray Data での SGLang を使用したバッチ推論

SGLang は、LLM のハイ パフォーマンス サービス フレームワークです。 このノートブックでは、Databricks サーバーレス GPU で SGLang と Ray Data を使用して LLM バッチ推論を実行する方法を示します。

SGLang バッチ推論

ノートブックを入手