Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in versione beta.
Questa pagina include esempi di notebook per l'uso del Fully Sharded Data Parallel (FSDP) nell'addestramento su calcolo GPU serverless. FSDP suddivide i parametri del modello, i gradienti e gli stati dell'ottimizzatore tra le GPU, consentendo il training di modelli molto grandi che non rientrano nella memoria di una singola GPU.
Quando usare FSDP
Si può utilizzare FSDP quando:
- Il modello è troppo grande per adattarsi alla memoria di una singola GPU
- È necessario eseguire il training dei modelli nell'intervallo di parametri da 20B a 120B+
- Si vuole un'efficienza di memoria maggiore rispetto a quella fornita da DDP
Per i modelli più piccoli che rientrano in una singola memoria GPU, prendere in considerazione DDP per semplicità. Per le funzionalità avanzate di ottimizzazione della memoria, vedere DeepSpeed.
Addestramento di un modello Transformer con 10 milioni di parametri utilizzando FSDP2
Il notebook seguente illustra l'addestramento distribuito di un modello Transformer con 10 milioni di parametri utilizzando la libreria FSDP2.
PyTorch FSDP
Addestramento del modello di OpenAI GPT-OSS 120B con TRL e FSDP
Questo notebook illustra come eseguire l'ottimizzazione con supervisione (SFT) in un modello GPT-OSS 120B usando FSDP2 e la libreria TRL (Transformer Reinforcement Learning). Questo esempio sfrutta FSDP per ridurre il consumo di memoria e DDP per ridimensionare le dimensioni globali del batch tra 8 GPU H100.