Delen via


Gedistribueerde LLM-batch-inferentie

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor LLM-batch-inferentie met behulp van Ray Data, een schaalbare gegevensverwerkingsbibliotheek voor AI-workloads op GPU-rekenkracht zonder server.

Batch-inferentie met vLLM en Ray Data

Dit notebook laat zien hoe u LLM-deductie op schaal uitvoert met behulp van Ray Data en vLLM op serverloze GPU. Het maakt gebruik van de gedistribueerde serverloze GPU-API om automatisch A10 GPU's met meerdere knooppunten in te richten en te beheren voor gedistribueerde deductie.

vLLM Batch-inferentie

Notebook krijgen

Batchdeductie met behulp van SGLang met Ray Data

SGLang is een krachtige serverframework voor LLM's. Dit notebook laat zien hoe u LLM-batchdeductie uitvoert met behulp van SGLang en Ray Data op serverloze GPU van Databricks.

SGLang Batch-inferentie

Notebook krijgen