Gedistribueerde training met meerdere GPU's

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met meerdere GPU's met behulp van AI Runtime. Deze voorbeelden laten zien hoe u training schaalt over meerdere GPU's en knooppunten voor verbeterde prestaties.

Opmerking

Gedistribueerde training met meerdere GPU's wordt ondersteund op H100 GPU's.

Uw parallellismetechniek kiezen

Wanneer u de modeltraining voor meerdere GPU's schaalt, is het kiezen van de juiste parallellismetechniek afhankelijk van de grootte van uw model, het beschikbare GPU-geheugen en de prestatievereisten.

Techniek	Wanneer gebruiken
DDP (Distributed Data Parallel)	Volledig model past in het geheugen van een enkele GPU; de gegevensdoorvoer moet worden opgeschaald.
FSDP (volledig gesharded Data Parallel)	Zeer grote modellen die niet passen in één GPU-geheugen
DeepSpeed ZeRO	Grote modellen met geavanceerde geheugenoptimalisatiebehoeften

Zie DDP, FSDP en DeepSpeed voor gedetailleerde informatie over elke techniek.

Voorbeeldnotebooks per methodiek en framework

In de volgende tabel worden voorbeeldnotebooks ingedeeld op basis van het framework/de bibliotheek die u gebruikt en de toegepaste parallellismetechniek. Meerdere notitieblokken kunnen in één cel worden weergegeven.

Framework/Bibliotheek	DDP-voorbeelden	FSDP-voorbeelden	DeepSpeed-voorbeelden
PyTorch (native)	Eenvoudig MLP-neuraal netwerk RetinaNet-afbeeldingsdetectie	10M-parametertransformator	—
Huggingface TRL	Gpt OSS 20B verfijnen	Gpt OSS 120B verfijnen	Llama 3.2 1B verfijnen
Unsloth	Llama 3.2 3B verfijnen	—	—
Axolotl	Olmo3 7B verfijnen	—	—
Mozaïek LLM Gieterij	Llama 3.2 8B verfijnen	—	—
Bliksem	Aanbevelingssysteem met twee torens	—	—

Aan de slag

Gebruik de volgende handleidingen om aan de slag te gaan met de GPU-Python-bibliotheek voor serverloze toepassingen en gedistribueerde training.

Handleiding	Beschrijving
AI Runtime met H100 GPUs	Meer informatie over het gebruik van Databricks AI Runtime met H100-accelerators voor het uitvoeren van gedistribueerde GPU-workloads met behulp van de serverless_gpu Python-bibliotheek.

Feedback

Is deze pagina nuttig?

Last updated on 2026-03-21