Delen via


Gedistribueerde training met meerdere GPU's

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met meerdere GPU's met behulp van AI Runtime. Deze voorbeelden laten zien hoe u training schaalt over meerdere GPU's en knooppunten voor verbeterde prestaties.

Opmerking

Gedistribueerde training met meerdere GPU's wordt ondersteund op H100 GPU's.

Uw parallellismetechniek kiezen

Wanneer u de modeltraining voor meerdere GPU's schaalt, is het kiezen van de juiste parallellismetechniek afhankelijk van de grootte van uw model, het beschikbare GPU-geheugen en de prestatievereisten.

Techniek Wanneer gebruiken
DDP (Distributed Data Parallel) Volledig model past in het geheugen van een enkele GPU; de gegevensdoorvoer moet worden opgeschaald.
FSDP (volledig gesharded Data Parallel) Zeer grote modellen die niet passen in één GPU-geheugen
DeepSpeed ZeRO Grote modellen met geavanceerde geheugenoptimalisatiebehoeften

Zie DDP, FSDP en DeepSpeed voor gedetailleerde informatie over elke techniek.

Voorbeeldnotebooks per methodiek en framework

In de volgende tabel worden voorbeeldnotebooks ingedeeld op basis van het framework/de bibliotheek die u gebruikt en de toegepaste parallellismetechniek. Meerdere notitieblokken kunnen in één cel worden weergegeven.

Framework/Bibliotheek DDP-voorbeelden FSDP-voorbeelden DeepSpeed-voorbeelden
PyTorch (native) Eenvoudig MLP-neuraal netwerk
RetinaNet-afbeeldingsdetectie
10M-parametertransformator
Huggingface TRL Gpt OSS 20B verfijnen Gpt OSS 120B verfijnen Llama 3.2 1B verfijnen
Unsloth Llama 3.2 3B verfijnen
Axolotl Olmo3 7B verfijnen
Mozaïek LLM Gieterij Llama 3.2 8B verfijnen
Bliksem Aanbevelingssysteem met twee torens

Aan de slag

Gebruik de volgende handleidingen om aan de slag te gaan met de GPU-Python-bibliotheek voor serverloze toepassingen en gedistribueerde training.

Handleiding Beschrijving
AI Runtime met H100 GPUs Meer informatie over het gebruik van Databricks AI Runtime met H100-accelerators voor het uitvoeren van gedistribueerde GPU-workloads met behulp van de serverless_gpu Python-bibliotheek.