Delen via


Gedistribueerde training met DeepSpeed

Belangrijk

Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.

Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met behulp van DeepSpeed op serverloze GPU-rekenkracht. DeepSpeed biedt geavanceerde technieken voor geheugenoptimalisatie via de ZeRO-fasen (Zero Redundanty Optimizer), waardoor grote modellen efficiënt kunnen worden getraind.

Wanneer gebruikt u DeepSpeed?

DeepSpeed gebruiken wanneer:

  • U hebt geavanceerde geheugenoptimalisatie nodig dan standaard FSDP
  • U wilt fijnmazige controle over sharding van optimizerstatus (ZeRO Fase 1, 2 of 3)
  • U hebt aanvullende functies nodig, zoals samenvoeging van gradiëntaccumulatie of CPU-offloading.
  • U werkt met grote taalmodellen (1B tot 100B+ parameters)

Voor eenvoudigere gebruiksvoorbeelden kunt u DDP overwegen. Zie FSDP voor pyTorch-systeemeigen training voor grote modellen.

Afstemmen onder supervisie met TRL en DeepSpeed ZeRO Stage 3

In dit notebook wordt gedemonstreerd hoe u de Serverloze GPU Python-API kunt gebruiken om SFT (supervisie) uit te voeren met behulp van de TRL-bibliotheek (Transformer Reinforcement Learning) met DeepSpeed ZeRO Stage 3-optimalisatie op één knooppunt A10 GPU. Deze benadering kan worden uitgebreid naar setups met meerdere knooppunten.

TRL DeepSpeed

Notebook krijgen