Not
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Den här funktionen finns i Beta.
Den här sidan innehåller notebook-exempel för att använda DDP-träning (Distributed Data Parallel) på serverlös GPU-beräkning. DDP är den vanligaste parallellitetstekniken för distribuerad träning, där den fullständiga modellen replikeras på varje GPU och databatcherna delas mellan GPU:er.
När du ska använda DDP
Använd DDP när:
- Din modell passar helt i en enda GPU:s minne
- Du vill skala träningen genom att öka dataflödet
- Du behöver den enklaste distribuerade träningsmetoden med automatiskt stöd i de flesta ramverk
För större modeller som inte får plats i ett enda GPU-minne bör du överväga FSDP eller DeepSpeed i stället.
Träna ett enkelt neuralt nätverk med flera lager perceptron (MLP) med PyTorch DDP
Följande notebook-fil visar distribuerad träning av ett enkelt neuralt mlp-nätverk (multilayer perceptron) med PyTorchs DDP-modul på Azure Databricks med serverlösa GPU-resurser.
PyTorch DDP
Träna OpenAI GPT-OSS 20B-modell på 8xH100 med TRL och DDP
Den här notebook-filen visar hur du använder Serverlös GPU Python API för att köra övervakad finjustering (SFT) på GPT-OSS 20B-modellen från Hugging Face med hjälp av biblioteket Transformer Reinforcement Learning (TRL). I det här exemplet används DDP för alla 8 H100 GPU:er på noden för att skala den globala batchstorleken.
TRL DDP
Distribuerad finjustering av Llama 3.2 3B genom användning av Unsloth
Den här notebook-filen visar hur du använder Serverless GPU Python API för att finjustera en Llama 3.2 3B-modell genom att använda Unsloth-biblioteket på 8 A10 GPU:er. Unsloth ger minneseffektiva träningsoptimeringar och använder DDP i bakgrunden via Hugging Face Accelerate.
Ta bort DDP
Distribuerad träning som använder Ray Train (datorseende)
Den här anteckningsboken visar distribuerad träning av en PyTorch ResNet-modell på FashionMNIST-datauppsättningen med Ray Train och Ray Data på Databricks Serverless GPU-kluster. Ray Train tillhandahåller distribuerad träningsorkestrering på hög nivå och använder DDP som den underliggande parallellismstrategin. I det här exemplet beskrivs hur du konfigurerar Unity Catalog-lagring, konfigurerar Ray för GPU-träning med flera noder, loggning och registrering av modeller med MLflow och utvärdering av modellprestanda.
Ray DDP
Träna ett tvåtornsrekommendatorsystem med PyTorch Lightning
Den här notebook-filen visar hur du tränar en rekommendationsmodell med två torn med PyTorch Lightning på serverlös GPU-beräkning. PyTorch Lightning tillhandahåller ett högnivågränssnitt som automatiskt hanterar DDP-konfiguration för träning med flera GPU:er. I exemplet ingår dataförberedelse med hjälp av MDS-format (Mosaic Streaming) och distribuerad träning över A10- eller H100 GPU:er.
Se sidan Exempel på rekommendationer med djupinlärning för kompletta anteckningsblock, inklusive:
- Dataförberedelse och MDS-formatkonvertering
- Tvåtornsrekommendatorträning med PyTorch Lightning