DDP-träning (Distributed Data Parallel)

Viktigt!

Den här funktionen finns i Beta.

Den här sidan innehåller notebook-exempel för att använda DDP-träning (Distributed Data Parallel) på serverlös GPU-beräkning. DDP är den vanligaste parallellitetstekniken för distribuerad träning, där den fullständiga modellen replikeras på varje GPU och databatcherna delas mellan GPU:er.

När du ska använda DDP

Använd DDP när:

  • Din modell passar helt i en enda GPU:s minne
  • Du vill skala träningen genom att öka dataflödet
  • Du behöver den enklaste distribuerade träningsmetoden med automatiskt stöd i de flesta ramverk

För större modeller som inte får plats i ett enda GPU-minne bör du överväga FSDP eller DeepSpeed i stället.

Träna ett enkelt neuralt nätverk med flera lager perceptron (MLP) med PyTorch DDP

Följande notebook-fil visar distribuerad träning av ett enkelt neuralt mlp-nätverk (multilayer perceptron) med PyTorchs DDP-modul på Azure Databricks med serverlösa GPU-resurser.

PyTorch DDP

Hämta anteckningsbok

Träna OpenAI GPT-OSS 20B-modell på 8xH100 med TRL och DDP

Den här notebook-filen visar hur du använder Serverlös GPU Python API för att köra övervakad finjustering (SFT) på GPT-OSS 20B-modellen från Hugging Face med hjälp av biblioteket Transformer Reinforcement Learning (TRL). I det här exemplet används DDP för alla 8 H100 GPU:er på noden för att skala den globala batchstorleken.

TRL DDP

Hämta anteckningsbok

Distribuerad finjustering av Llama 3.2 3B genom användning av Unsloth

Den här notebook-filen visar hur du använder Serverless GPU Python API för att finjustera en Llama 3.2 3B-modell genom att använda Unsloth-biblioteket på 8 A10 GPU:er. Unsloth ger minneseffektiva träningsoptimeringar och använder DDP i bakgrunden via Hugging Face Accelerate.

Ta bort DDP

Hämta anteckningsbok

Distribuerad träning som använder Ray Train (datorseende)

Den här anteckningsboken visar distribuerad träning av en PyTorch ResNet-modell på FashionMNIST-datauppsättningen med Ray Train och Ray Data på Databricks Serverless GPU-kluster. Ray Train tillhandahåller distribuerad träningsorkestrering på hög nivå och använder DDP som den underliggande parallellismstrategin. I det här exemplet beskrivs hur du konfigurerar Unity Catalog-lagring, konfigurerar Ray för GPU-träning med flera noder, loggning och registrering av modeller med MLflow och utvärdering av modellprestanda.

Ray DDP

Hämta anteckningsbok

Träna ett tvåtornsrekommendatorsystem med PyTorch Lightning

Den här notebook-filen visar hur du tränar en rekommendationsmodell med två torn med PyTorch Lightning på serverlös GPU-beräkning. PyTorch Lightning tillhandahåller ett högnivågränssnitt som automatiskt hanterar DDP-konfiguration för träning med flera GPU:er. I exemplet ingår dataförberedelse med hjälp av MDS-format (Mosaic Streaming) och distribuerad träning över A10- eller H100 GPU:er.

Se sidan Exempel på rekommendationer med djupinlärning för kompletta anteckningsblock, inklusive:

  • Dataförberedelse och MDS-formatkonvertering
  • Tvåtornsrekommendatorträning med PyTorch Lightning