Megosztás a következőn keresztül:


Teljes körű széttagolt adat párhuzamos (FSDP) tanulása

Fontos

Ez a funkció bétaverzióban érhető el. A munkaterület rendszergazdái az Előnézetek lapon szabályozhatják a funkcióhoz való hozzáférést. Lásd: Az Azure Databricks előzetes verziójának kezelése.

Ezen az oldalon jegyzetfüzet-példákat talál a teljesen széttöredezett adatpárhuzamos (FSDP) betanítás alkalmazására az AI-futtatási környezetben. Az FSDP szétdarabolja a modellparamétereket, gradiens értékeket és az optimalizálási állapotokat a GPU-k között, amely lehetővé teszi a nagyon nagy modellek betanítását, amelyek nem férnek el egyetlen GPU memóriájában.

Mikor érdemes használni az FSDP-t?

Használja az FSDP-t a következő esetekben:

  • A modell túl nagy ahhoz, hogy elférjen egyetlen GPU memóriájában
  • Be kell tanítania a modelleket a 20B-120B+ paramétertartományban
  • Több memóriahatékonyságot szeretne, mint amennyit a DDP biztosít

Az egy GPU-memóriába illeszkedő kisebb modellek esetében az egyszerűség kedvéért vegye figyelembe a DDP-t . A speciális memóriaoptimalizálási funkciókért lásd: DeepSpeed.

Examples

Oktatóanyag Leírás
Transformer-modell betanítása 10 millió paraméterrel az FSDP2 használatával Ez a jegyzetfüzet egy 10 millió paraméteres transzformátormodell elosztott betanítását mutatja be FSDP2 kódtár használatával.
OpenAI GPT-OSS 120B modell betanítása TRL és FSDP használatával Ez a jegyzetfüzet bemutatja, hogyan futtathat felügyelt finomhangolást (SFT) egy GPT-OSS 120B-modellen az FSDP2 és a Transformer Reinforcement Learning (TRL) kódtár használatával. Ez a példa az FSDP használatával csökkenti a memóriahasználatot és a DDP-t a globális kötegméret 8 H100 GPU-ra való skálázásához.