Gedistribueerde LLM-batch-inferentie

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor LLM-batch-inferentie met behulp van Ray Data, een schaalbare gegevensverwerkingsbibliotheek voor AI-workloads op GPU-rekenkracht zonder server.

Handleiding	Beschrijving
Batchdeductie met behulp van vLLM met Ray-gegevens	Dit notebook laat zien hoe u LLM-deductie op schaal uitvoert met behulp van Ray Data en vLLM op serverloze GPU. Het maakt gebruik van de gedistribueerde serverloze GPU-API om automatisch A10 GPU's met meerdere knooppunten in te richten en te beheren voor gedistribueerde deductie.
Batchinferentie met SGLang en Ray Data	SGLang is een krachtige serverframework voor LLM's. Dit notebook laat zien hoe u LLM-batchdeductie uitvoert met behulp van SGLang en Ray Data op serverloze GPU van Databricks.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-15

Share via

Gedistribueerde LLM-batch-inferentie

Feedback

Aanvullende resources