Gedistribueerde training voor meerdere GPU's en meerdere knooppunten

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met meerdere knooppunten en meerdere GPU's met behulp van serverloze GPU-rekenkracht. Deze voorbeelden laten zien hoe u training schaalt over meerdere GPU's en knooppunten voor verbeterde prestaties.

Uw parallellismetechniek kiezen

Wanneer u de modeltraining voor meerdere GPU's schaalt, is het kiezen van de juiste parallellismetechniek afhankelijk van de grootte van uw model, het beschikbare GPU-geheugen en de prestatievereisten.

Techniek	Wanneer gebruiken
DDP (Distributed Data Parallel)	Volledig model past in het geheugen van een enkele GPU; de gegevensdoorvoer moet worden opgeschaald.
FSDP (volledig gesharded Data Parallel)	Zeer grote modellen die niet passen in één GPU-geheugen
DeepSpeed ZeRO	Grote modellen met geavanceerde geheugenoptimalisatiebehoeften

Zie DDP, FSDP en DeepSpeed voor gedetailleerde informatie over elke techniek.

Voorbeeldnotebooks per methodiek en framework

In de volgende tabel worden voorbeeldnotebooks ingedeeld op basis van het framework/de bibliotheek die u gebruikt en de toegepaste parallellismetechniek. Meerdere notitieblokken kunnen in één cel worden weergegeven.

Framework/Bibliotheek	DDP-voorbeelden	FSDP-voorbeelden	DeepSpeed-voorbeelden
PyTorch (systeemeigen)	Eenvoudig MLP-neuraal netwerk RetinaNet-afbeeldingsdetectie	10M-parametertransformator	—
Huggingface TRL	Gpt OSS 20B verfijnen	Gpt OSS 120B verfijnen	Llama 3.2 1B verfijnen
Unsloth	Llama 3.2 3B verfijnen	—	—
Axolotl	Olmo3 7B verfijnen	—	—
Mozaïek LLM Gieterij	Llama 3.2 8B verfijnen	—	—
Ray Train	ResNet18 op FashionMNIST (computer vision) XGBoost Hyperparameter optimalisatie	—	—
Bliksem	Aanbevelingssysteem met twee torens	—	—

Get started

Gebruik de volgende handleidingen om aan de slag te gaan met de GPU-Python-bibliotheek voor serverloze toepassingen en gedistribueerde training.

Handleiding	Beschrijving
Serverloze GPU-rekenkracht met A10 GPU's	In dit notebook ziet u hoe u serverloze GPU-rekenkracht gebruikt om GPU-workloads uit te voeren op A10 GPU's rechtstreeks vanuit Databricks-notebooks. Meer informatie over het gebruik van de Serverloze GPU Python-bibliotheek voor het uitvoeren van functies op één of meerdere GPU's voor gedistribueerde training.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-15