Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele für die Verwendung von Fully Sharded Data Parallel (FSDP)-Training auf serverlosem GPU-Compute. FSDP verteilt Modellparameter, Gradienten und Optimiererzustände über GPUs, um das Training sehr großer Modelle zu ermöglichen, die nicht in den Speicher einer einzelnen GPU passen.
Wann soll FSDP verwendet werden?
Verwenden Sie FSDP in folgenden Fällen:
- Ihr Modell ist zu groß, um in den Speicher einer einzelnen GPU zu passen.
- Sie müssen Modelle im Parameterbereich von 20B bis 120B+ trainieren.
- Sie wünschen sich mehr Speicherleistung als DDP bietet
Für kleinere Modelle, die in den einzelnen GPU-Speicher passen, sollten Sie DDP zur Einfachheit berücksichtigen. Erweiterte Speicheroptimierungsfeatures finden Sie unter DeepSpeed.
Schulung eines Transformatormodells mit 10 Millionen Parametern mithilfe von FSDP2
Das folgende Notizbuch veranschaulicht die verteilte Schulung eines 10-Millionen-Parametertransformatiermodells mithilfe der FSDP2-Bibliothek .
PyTorch FSDP
Schulung von OpenAI GPT-OSS 120B-Modell mit TRL und FSDP
Dieses Notizbuch veranschaulicht, wie überwachte Feinabstimmungen (SFT) auf einem GPT-OSS 120B-Modell mit FSDP2 und der TRL-Bibliothek (Transformer Reinforcement Learning) ausgeführt werden. In diesem Beispiel wird FSDP verwendet, um den Speicherverbrauch und die DDP zu reduzieren, um die globale Batchgröße auf 8 H100 GPUs zu skalieren.