Freigeben über


Verteilte LLM-Batch-Inferenz

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für die LLM-Batch-Ableitung mithilfe von Ray Data, einer skalierbaren Datenverarbeitungsbibliothek für KI-Workloads, auf serverlosen GPU-Compute.

Batch-Inferenz unter Verwendung von vLLM und Ray Data

Dieses Notizbuch veranschaulicht, wie LLM-Inferenzen in großem Maßstab mithilfe von Ray Data und vLLM auf serverlosen GPUs ausgeführt werden. Sie nutzt die verteilte serverlose GPU-API, um multiknotenbasierte A10-GPUs für verteilte Ableitungen automatisch bereitzustellen und zu verwalten.

vLLM Batch-Ableitung

Notebook abrufen

Batch-Inferenz mit SGLang und Ray Data

SGLang ist ein hochleistungsorientiertes Framework für LLMs. Dieses Notizbuch veranschaulicht, wie LLM-Batcheinleitungen mithilfe von SGLang und Ray Data auf Databricks serverlosen GPU ausgeführt werden.

SGLang BatchInference

Notebook abrufen