Important
この機能は ベータ版です。 ワークスペース管理者は、[ プレビュー] ページからこの機能へのアクセスを制御できます。 Azure Databricks プレビューの管理を参照してください。
このページでは、サーバーレス GPU コンピューティング上の AI ワークロード用のスケーラブルなデータ処理ライブラリである Ray Data を使用した LLM バッチ推論のノートブック例を示します。
Ray Data での vLLM を使用したバッチ推論
このノートブックでは、サーバーレス GPU で Ray Data と vLLM を使用して大規模に LLM 推論を実行する方法を示します。 分散サーバーレス GPU API を利用して、分散推論用のマルチノード A10 GPU を自動的にプロビジョニングおよび管理します。
vLLM バッチ推論
Ray Data での SGLang を使用したバッチ推論
SGLang は、LLM のハイ パフォーマンス サービス フレームワークです。 このノートブックでは、Databricks サーバーレス GPU で SGLang と Ray Data を使用して LLM バッチ推論を実行する方法を示します。