Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele für die LLM-Batch-Ableitung mithilfe von Ray Data, einer skalierbaren Datenverarbeitungsbibliothek für KI-Workloads, auf serverlosen GPU-Compute.
Batch-Inferenz unter Verwendung von vLLM und Ray Data
Dieses Notizbuch veranschaulicht, wie LLM-Inferenzen in großem Maßstab mithilfe von Ray Data und vLLM auf serverlosen GPUs ausgeführt werden. Sie nutzt die verteilte serverlose GPU-API, um multiknotenbasierte A10-GPUs für verteilte Ableitungen automatisch bereitzustellen und zu verwalten.
vLLM Batch-Ableitung
Batch-Inferenz mit SGLang und Ray Data
SGLang ist ein hochleistungsorientiertes Framework für LLMs. Dieses Notizbuch veranschaulicht, wie LLM-Batcheinleitungen mithilfe von SGLang und Ray Data auf Databricks serverlosen GPU ausgeführt werden.