Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Belangrijk
Deze functie bevindt zich in de bètaversie. Werkruimtebeheerders kunnen de toegang tot deze functie beheren vanaf de pagina Previews . Zie Azure Databricks-previews beheren.
Deze pagina bevat notebookvoorbeelden voor gedistribueerde training met behulp van DeepSpeed op serverloze GPU-rekenkracht. DeepSpeed biedt geavanceerde technieken voor geheugenoptimalisatie via de ZeRO-fasen (Zero Redundanty Optimizer), waardoor grote modellen efficiënt kunnen worden getraind.
Wanneer gebruikt u DeepSpeed?
DeepSpeed gebruiken wanneer:
- U hebt geavanceerde geheugenoptimalisatie nodig dan standaard FSDP
- U wilt fijnmazige controle over sharding van optimizerstatus (ZeRO Fase 1, 2 of 3)
- U hebt aanvullende functies nodig, zoals samenvoeging van gradiëntaccumulatie of CPU-offloading.
- U werkt met grote taalmodellen (1B tot 100B+ parameters)
Voor eenvoudigere gebruiksvoorbeelden kunt u DDP overwegen. Zie FSDP voor pyTorch-systeemeigen training voor grote modellen.
Examples
| Handleiding | Beschrijving |
|---|---|
| Afstemmen onder supervisie met TRL en DeepSpeed ZeRO Stage 3 | Gebruik de Serverless GPU-Python-API om supervised fine-tuning (SFT) uit te voeren met behulp van de TRL-bibliotheek (Transformer Reinforcement Learning) met DeepSpeed ZeRO Fase 3-optimalisatie op een A10 GPU-knooppunt. |