Freigeben über


Vollständig Sharded Data Parallel (FSDP)-Schulung

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für die Verwendung von Fully Sharded Data Parallel (FSDP)-Training auf serverlosem GPU-Compute. FSDP verteilt Modellparameter, Gradienten und Optimiererzustände über GPUs, um das Training sehr großer Modelle zu ermöglichen, die nicht in den Speicher einer einzelnen GPU passen.

Wann soll FSDP verwendet werden?

Verwenden Sie FSDP in folgenden Fällen:

  • Ihr Modell ist zu groß, um in den Speicher einer einzelnen GPU zu passen.
  • Sie müssen Modelle im Parameterbereich von 20B bis 120B+ trainieren.
  • Sie wünschen sich mehr Speicherleistung als DDP bietet

Für kleinere Modelle, die in den einzelnen GPU-Speicher passen, sollten Sie DDP zur Einfachheit berücksichtigen. Erweiterte Speicheroptimierungsfeatures finden Sie unter DeepSpeed.

Schulung eines Transformatormodells mit 10 Millionen Parametern mithilfe von FSDP2

Das folgende Notizbuch veranschaulicht die verteilte Schulung eines 10-Millionen-Parametertransformatiermodells mithilfe der FSDP2-Bibliothek .

PyTorch FSDP

Notebook abrufen

Schulung von OpenAI GPT-OSS 120B-Modell mit TRL und FSDP

Dieses Notizbuch veranschaulicht, wie überwachte Feinabstimmungen (SFT) auf einem GPT-OSS 120B-Modell mit FSDP2 und der TRL-Bibliothek (Transformer Reinforcement Learning) ausgeführt werden. In diesem Beispiel wird FSDP verwendet, um den Speicherverbrauch und die DDP zu reduzieren, um die globale Batchgröße auf 8 H100 GPUs zu skalieren.

TRL FSDP

Notebook abrufen