DDP-träning (Distributed Data Parallel)

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för att använda DDP-träning (Distributed Data Parallel) på serverlös GPU-beräkning. DDP är den vanligaste parallellitetstekniken för distribuerad träning, där den fullständiga modellen replikeras på varje GPU och databatcherna delas mellan GPU:er.

När du ska använda DDP

Använd DDP när:

Din modell passar helt i en enda GPU:s minne
Du vill skala träningen genom att öka dataflödet
Du behöver den enklaste distribuerade träningsmetoden med automatiskt stöd i de flesta ramverk

För större modeller som inte får plats i ett enda GPU-minne bör du överväga FSDP eller DeepSpeed i stället.

Träna ett enkelt neuralt nätverk med flera lager perceptron (MLP) med PyTorch DDP

Följande notebook-fil visar distribuerad träning av ett enkelt neuralt mlp-nätverk (multilayer perceptron) med PyTorchs DDP-modul på Azure Databricks med serverlösa GPU-resurser.

PyTorch DDP

Hämta anteckningsbok

Träna OpenAI GPT-OSS 20B-modell på 8xH100 med TRL och DDP

Den här notebook-filen visar hur du använder Serverlös GPU Python API för att köra övervakad finjustering (SFT) på GPT-OSS 20B-modellen från Hugging Face med hjälp av biblioteket Transformer Reinforcement Learning (TRL). I det här exemplet används DDP för alla 8 H100 GPU:er på noden för att skala den globala batchstorleken.

TRL DDP

Hämta anteckningsbok

Distribuerad finjustering av Llama 3.2 3B genom användning av Unsloth

Den här notebook-filen visar hur du använder Serverless GPU Python API för att finjustera en Llama 3.2 3B-modell genom att använda Unsloth-biblioteket på 8 A10 GPU:er. Unsloth ger minneseffektiva träningsoptimeringar och använder DDP i bakgrunden via Hugging Face Accelerate.

Ta bort DDP

Hämta anteckningsbok

Distribuerad träning som använder Ray Train (datorseende)

Den här anteckningsboken visar distribuerad träning av en PyTorch ResNet-modell på FashionMNIST-datauppsättningen med Ray Train och Ray Data på Databricks Serverless GPU-kluster. Ray Train tillhandahåller distribuerad träningsorkestrering på hög nivå och använder DDP som den underliggande parallellismstrategin. I det här exemplet beskrivs hur du konfigurerar Unity Catalog-lagring, konfigurerar Ray för GPU-träning med flera noder, loggning och registrering av modeller med MLflow och utvärdering av modellprestanda.

Ray DDP

Hämta anteckningsbok

Träna ett tvåtornsrekommendatorsystem med PyTorch Lightning

Den här notebook-filen visar hur du tränar en rekommendationsmodell med två torn med PyTorch Lightning på serverlös GPU-beräkning. PyTorch Lightning tillhandahåller ett högnivågränssnitt som automatiskt hanterar DDP-konfiguration för träning med flera GPU:er. I exemplet ingår dataförberedelse med hjälp av MDS-format (Mosaic Streaming) och distribuerad träning över A10- eller H100 GPU:er.

Se sidan Exempel på rekommendationer med djupinlärning för kompletta anteckningsblock, inklusive:

Dataförberedelse och MDS-formatkonvertering
Tvåtornsrekommendatorträning med PyTorch Lightning

Feedback

Var den här sidan till hjälp?

Last updated on 2025-11-28

Dela via

DDP-träning (Distributed Data Parallel)

När du ska använda DDP

Träna ett enkelt neuralt nätverk med flera lager perceptron (MLP) med PyTorch DDP

PyTorch DDP

Träna OpenAI GPT-OSS 20B-modell på 8xH100 med TRL och DDP

TRL DDP

Distribuerad finjustering av Llama 3.2 3B genom användning av Unsloth

Ta bort DDP

Distribuerad träning som använder Ray Train (datorseende)

Ray DDP

Träna ett tvåtornsrekommendatorsystem med PyTorch Lightning

Feedback

Ytterligare resurser