Anmerkung
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen, dich anzumelden oder die Verzeichnisse zu wechseln.
Der Zugriff auf diese Seite erfordert eine Genehmigung. Du kannst versuchen , die Verzeichnisse zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele für die LLM-Batch-Ableitung mithilfe von Ray Data, einer skalierbaren Datenverarbeitungsbibliothek für KI-Workloads, auf serverlosen GPU-Compute.
Batch-Inferenz unter Verwendung von vLLM und Ray Data
Dieses Notizbuch veranschaulicht, wie LLM-Inferenzen in großem Maßstab mithilfe von Ray Data und vLLM auf serverlosen GPUs ausgeführt werden. Sie nutzt die verteilte serverlose GPU-API, um multiknotenbasierte A10-GPUs für verteilte Ableitungen automatisch bereitzustellen und zu verwalten.
vLLM Batch-Ableitung
Batch-Inferenz mit SGLang und Ray Data
SGLang ist ein hochleistungsorientiertes Framework für LLMs. Dieses Notizbuch veranschaulicht, wie LLM-Batcheinleitungen mithilfe von SGLang und Ray Data auf Databricks serverlosen GPU ausgeführt werden.