Share via


Gedistribueerde LLM-batch-inferentie

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor LLM-batch-inferentie met behulp van Ray Data, een schaalbare gegevensverwerkingsbibliotheek voor AI-workloads op GPU-rekenkracht zonder server.

Handleiding Beschrijving
Batchdeductie met behulp van vLLM met Ray-gegevens Dit notebook laat zien hoe u LLM-deductie op schaal uitvoert met behulp van Ray Data en vLLM op serverloze GPU. Het maakt gebruik van de gedistribueerde serverloze GPU-API om automatisch A10 GPU's met meerdere knooppunten in te richten en te beheren voor gedistribueerde deductie.
Batchinferentie met SGLang en Ray Data SGLang is een krachtige serverframework voor LLM's. Dit notebook laat zien hoe u LLM-batchdeductie uitvoert met behulp van SGLang en Ray Data op serverloze GPU van Databricks.