Training completamente partizionato dei dati paralleli (FSDP)

Importante

Questa funzionalità è in versione beta.

Questa pagina include esempi di notebook per l'uso del Fully Sharded Data Parallel (FSDP) nell'addestramento su calcolo GPU serverless. FSDP suddivide i parametri del modello, i gradienti e gli stati dell'ottimizzatore tra le GPU, consentendo il training di modelli molto grandi che non rientrano nella memoria di una singola GPU.

Quando usare FSDP

Si può utilizzare FSDP quando:

Il modello è troppo grande per adattarsi alla memoria di una singola GPU
È necessario eseguire il training dei modelli nell'intervallo di parametri da 20B a 120B+
Si vuole un'efficienza di memoria maggiore rispetto a quella fornita da DDP

Per i modelli più piccoli che rientrano in una singola memoria GPU, prendere in considerazione DDP per semplicità. Per le funzionalità avanzate di ottimizzazione della memoria, vedere DeepSpeed.

Addestramento di un modello Transformer con 10 milioni di parametri utilizzando FSDP2

Il notebook seguente illustra l'addestramento distribuito di un modello Transformer con 10 milioni di parametri utilizzando la libreria FSDP2.

PyTorch FSDP

Ottieni il notebook

Addestramento del modello di OpenAI GPT-OSS 120B con TRL e FSDP

Questo notebook illustra come eseguire l'ottimizzazione con supervisione (SFT) in un modello GPT-OSS 120B usando FSDP2 e la libreria TRL (Transformer Reinforcement Learning). Questo esempio sfrutta FSDP per ridurre il consumo di memoria e DDP per ridimensionare le dimensioni globali del batch tra 8 GPU H100.

TRL FSDP

Ottieni il notebook

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2025-11-22