Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Fontos
Ez a funkció bétaverzióban érhető el. A munkaterület rendszergazdái az Előnézetek lapon szabályozhatják a funkcióhoz való hozzáférést. Lásd: Az Azure Databricks előzetes verziójának kezelése.
Ezen a lapon jegyzetfüzet-példákat talál a DeepSpeed kiszolgáló nélküli GPU-számítással történő elosztott betanítására. A DeepSpeed a ZeRO (Zero Redundancy Optimizer) fázisain keresztül fejlett memóriaoptimalizálási technikákat biztosít, így lehetővé teszi a nagy modellek hatékony betanítását.
Mikor érdemes használni a DeepSpeed-et?
A DeepSpeed használata a következő esetekben:
- Speciális memóriaoptimalizálásra van szükség a standard FSDP-n túl
- Részletes vezérlést szeretne az optimalizálási állapotok skálázása felett (ZeRO 1., 2. vagy 3. szakasz)
- További funkciókra van szüksége, például a gradiensakkumuláció-fúzióra vagy a CPU-tehermentesítésre.
- Nagy nyelvi modellekkel dolgozik (1B–100B+ paraméterek)
Egyszerűbb használati esetek esetén fontolja meg a DDP használatát. A PyTorch-natív nagy modell betanításához lásd az FSDP-t.
Felügyelt finomhangolás a TRL-lel és a DeepSpeed ZeRO Stage 3-mal
Ez a jegyzetfüzet bemutatja, hogyan futtathat felügyelt finomhangolást (SFT) a Kiszolgáló nélküli GPU Python API használatával a Transformer Reinforcement Learning (TRL) kódtár használatával, a DeepSpeed ZeRO Stage 3 optimalizálásával egyetlen csomópont A10 GPU-n. Ez a megközelítés többcsomópontos beállításokra is kiterjeszthető.