Aracılığıyla paylaş


Tam Parçalı Veri Paralel Eğitimi (Fully Sharded Data Parallel – FSDP)

Önemli

Bu özellik Beta sürümündedir. Çalışma alanı yöneticileri Bu özelliğe erişimi Önizlemeler sayfasından denetleyebilir. Bkz. Azure Databricks önizlemelerini yönetme.

Bu sayfada Sunucusuz GPU işlemi üzerinde Tam Parçalı Veri Paralel (FSDP) eğitimini kullanmaya yönelik not defteri örnekleri bulunur. FSDP parçaları GPU'lar genelinde parametreleri, gradyanları ve iyileştirici durumlarını modelleyerek tek bir GPU belleğine sığmayan çok büyük modellerin eğitilmesini sağlar.

FSDP ne zaman kullanılır?

Aşağıdaki durumlarda FSDP kullanın:

  • Modeliniz tek bir GPU'nun belleğine sığamayacak kadar büyük
  • Modelleri 20B ile 120B+ parametre aralığında eğitmelisiniz
  • DDP'nin sağladığından daha fazla bellek verimliliği istiyorsunuz

Tek GPU belleğine sığan daha küçük modeller için basitlik için DDP'yi göz önünde bulundurun. Gelişmiş bellek iyileştirme özellikleri için bkz. DeepSpeed.

FSDP2 kullanarak 10 milyon parametre ile Transformer modelini eğitme

Aşağıdaki not defterinde FSDP2 kitaplığını kullanan 10 milyon parametreli Transformer modelinin dağıtılmış eğitimi gösterilmektedir.

PyTorch FSDP

Dizüstü bilgisayar al

TRL ve FSDP kullanarak OpenAI GPT-OSS 120B modelini eğitma

Bu not defteri, FSDP2 ve Dönüştürücü Takviyeli Öğrenme (TRL) kitaplığını kullanarak GPT-OSS 120B model üzerinde denetimli ince ayarlamanın (SFT) nasıl çalıştırıldığını göstermektedir. Bu örnek, bellek tüketimini azaltmak için FSDP'yi ve genel toplu iş boyutunu 8 H100 GPU arasında ölçeklendirmek için DDP'yi kullanır.

TRL FSDP

Dizüstü bilgisayar al