Share via


Gedistribueerde training voor meerdere GPU's en meerdere knooppunten

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met meerdere knooppunten en meerdere GPU's met behulp van serverloze GPU-rekenkracht. Deze voorbeelden laten zien hoe u training schaalt over meerdere GPU's en knooppunten voor verbeterde prestaties.

Uw parallellismetechniek kiezen

Wanneer u de modeltraining voor meerdere GPU's schaalt, is het kiezen van de juiste parallellismetechniek afhankelijk van de grootte van uw model, het beschikbare GPU-geheugen en de prestatievereisten.

Techniek Wanneer gebruiken
DDP (Distributed Data Parallel) Volledig model past in het geheugen van een enkele GPU; de gegevensdoorvoer moet worden opgeschaald.
FSDP (volledig gesharded Data Parallel) Zeer grote modellen die niet passen in één GPU-geheugen
DeepSpeed ZeRO Grote modellen met geavanceerde geheugenoptimalisatiebehoeften

Zie DDP, FSDP en DeepSpeed voor gedetailleerde informatie over elke techniek.

Voorbeeldnotebooks per methodiek en framework

In de volgende tabel worden voorbeeldnotebooks ingedeeld op basis van het framework/de bibliotheek die u gebruikt en de toegepaste parallellismetechniek. Meerdere notitieblokken kunnen in één cel worden weergegeven.

Framework/Bibliotheek DDP-voorbeelden FSDP-voorbeelden DeepSpeed-voorbeelden
PyTorch (systeemeigen) Eenvoudig MLP-neuraal netwerk
RetinaNet-afbeeldingsdetectie
10M-parametertransformator
Huggingface TRL Gpt OSS 20B verfijnen Gpt OSS 120B verfijnen Llama 3.2 1B verfijnen
Unsloth Llama 3.2 3B verfijnen
Axolotl Olmo3 7B verfijnen
Mozaïek LLM Gieterij Llama 3.2 8B verfijnen
Ray Train ResNet18 op FashionMNIST (computer vision)
XGBoost Hyperparameter optimalisatie
Bliksem Aanbevelingssysteem met twee torens

Get started

Gebruik de volgende handleidingen om aan de slag te gaan met de GPU-Python-bibliotheek voor serverloze toepassingen en gedistribueerde training.

Handleiding Beschrijving
Serverloze GPU-rekenkracht met A10 GPU's In dit notebook ziet u hoe u serverloze GPU-rekenkracht gebruikt om GPU-workloads uit te voeren op A10 GPU's rechtstreeks vanuit Databricks-notebooks. Meer informatie over het gebruik van de Serverloze GPU Python-bibliotheek voor het uitvoeren van functies op één of meerdere GPU's voor gedistribueerde training.