Training distribuito con DeepSpeed

Importante

Questa funzionalità è in versione beta.

Questa pagina include esempi di notebook per il training distribuito con DeepSpeed su calcolo GPU serverless. DeepSpeed offre tecniche avanzate di ottimizzazione della memoria tramite le fasi zeRO (Zero Redundancy Optimizer), consentendo un training efficiente di modelli di grandi dimensioni.

Quando usare DeepSpeed

Usa DeepSpeed quando:

È necessaria un'ottimizzazione avanzata della memoria oltre a FSDP standard
Si desidera un controllo granulare sulla suddivisione dello stato dell'ottimizzatore (livelli ZeRO Fase 1, 2 o 3)
Sono necessarie funzionalità aggiuntive, ad esempio la fusione dell'accumulo di sfumature o l'offload della CPU
Si lavora con modelli linguistici di grandi dimensioni (da 1B a 100B+ parametri)

Per casi d'uso più semplici, prendere in considerazione DDP. Per il training di modelli di grandi dimensioni nativi di PyTorch, vedere FSDP.

Ottimizzazione con supervisione con TRL e DeepSpeed ZeRO Fase 3

Questo notebook illustra come usare l'API Python Serverless GPU per eseguire il fine-tuning supervisato (SFT) usando la libreria Transformer Reinforcement Learning (TRL) con la tecnica di ottimizzazione DeepSpeed ZeRO Stage 3 su un singolo nodo GPU A10. Questo approccio può essere esteso alle configurazioni multinodo.

TRL DeepSpeed

Ottieni il notebook

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-22