Delen via


FsDP-training (Fully Sharded Data Parallel)

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor het gebruik van FSDP-training (Fully Sharded Data Parallel) op serverloze GPU-berekeningen. FSDP verdeelt modelparameters, gradiënten en optimizer toestanden over GPU's, waardoor training van zeer grote modellen mogelijk wordt die niet passen in het geheugen van één GPU.

Wanneer gebruikt u FSDP?

FSDP gebruiken wanneer:

  • Uw model is te groot om in het geheugen van één GPU te passen
  • U moet modellen trainen in het parameterbereik 20B tot 120B+
  • U wilt meer geheugenefficiëntie dan DDP biedt

Voor kleinere modellen die in één GPU-geheugen passen, kunt u DDP voor het gemak overwegen. Zie DeepSpeed voor geavanceerde functies voor geheugenoptimalisatie.

Een transformermodel trainen met 10 miljoen parameters met behulp van FSDP2

In het volgende notebook ziet u gedistribueerde training van een transformatiemodel van 10 miljoen parameters met behulp van de FSDP2-bibliotheek .

PyTorch FSDP

Notebook krijgen

OpenAI-GPT-OSS 120B-model trainen met TRL en FSDP

Dit notebook demonstreert hoe u gecontroleerde fijnafstelling kunt uitvoeren op een GPT-OSS 120B-model met behulp van FSDP2 en de Transformer Reinforcement Learning (TRL) bibliotheek. In dit voorbeeld wordt FSDP gebruikt om het geheugenverbruik en DDP te verminderen om de wereldwijde batchgrootte te schalen voor 8 H100 GPU's.

TRL FSDP

Notebook krijgen