Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.
Deze pagina bevat notebookvoorbeelden voor het gebruik van FSDP-training (Fully Sharded Data Parallel) op serverloze GPU-berekeningen. FSDP verdeelt modelparameters, gradiënten en optimizer toestanden over GPU's, waardoor training van zeer grote modellen mogelijk wordt die niet passen in het geheugen van één GPU.
Wanneer gebruikt u FSDP?
FSDP gebruiken wanneer:
- Uw model is te groot om in het geheugen van één GPU te passen
- U moet modellen trainen in het parameterbereik 20B tot 120B+
- U wilt meer geheugenefficiëntie dan DDP biedt
Voor kleinere modellen die in één GPU-geheugen passen, kunt u DDP voor het gemak overwegen. Zie DeepSpeed voor geavanceerde functies voor geheugenoptimalisatie.
Een transformermodel trainen met 10 miljoen parameters met behulp van FSDP2
In het volgende notebook ziet u gedistribueerde training van een transformatiemodel van 10 miljoen parameters met behulp van de FSDP2-bibliotheek .
PyTorch FSDP
OpenAI-GPT-OSS 120B-model trainen met TRL en FSDP
Dit notebook demonstreert hoe u gecontroleerde fijnafstelling kunt uitvoeren op een GPT-OSS 120B-model met behulp van FSDP2 en de Transformer Reinforcement Learning (TRL) bibliotheek. In dit voorbeeld wordt FSDP gebruikt om het geheugenverbruik en DDP te verminderen om de wereldwijde batchgrootte te schalen voor 8 H100 GPU's.