Freigeben über


DDP-Schulung (Distributed Data Parallel)

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für die Verwendung von DDP-Schulungen (Distributed Data Parallel) auf Serverless GPU Compute. DDP ist die am häufigsten verwendete Parallelitätstechnik für verteilte Schulungen, bei der das vollständige Modell für jede GPU repliziert wird und Datenbatches über GPUs verteilt werden.

Wann DDP verwendet werden soll

Verwenden Sie DDP, wenn:

  • Ihr Modell passt vollständig in den Speicher einer einzelnen GPU.
  • Sie möchten die Schulung skalieren, indem Sie den Datendurchsatz erhöhen
  • Sie benötigen den einfachsten verteilten Schulungsansatz mit automatischer Unterstützung in den meisten Frameworks.

Für größere Modelle, die nicht in den einzelnen GPU-Speicher passen, sollten Sie stattdessen FSDP oder DeepSpeed in Betracht ziehen.

Training eines einfachen multilayer perceptron (MLP) neuralen Netzwerks mit PyTorch DDP

Das folgende Notizbuch demonstriert das verteilte Training eines einfachen mehrschichtigen Perzeptrons (MLP) mit dem DDP-Modul von PyTorch auf Azure Databricks mit serverlosen GPU-Ressourcen.

PyTorch DDP

Notebook abrufen

Training des OpenAI GPT-OSS 20B-Modell auf 8xH100 mit TRL und DDP

Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um überwachte Feinabstimmungen (SFT) im GPT-OSS 20B-Modell von Hugging Face mithilfe der TRL-Bibliothek (Transformer Reinforcement Learning) auszuführen. In diesem Beispiel wird DDP genutzt, um die globale Batchgröße über alle 8 H100-GPUs auf dem Knoten zu skalieren.

TRL-DDP

Notebook abrufen

Verteilte Feinjustierung von Llama 3.2, 3B mit Unsloth

Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um ein Llama 3.2 3B-Modell mit unsloth-Bibliothek in 8 A10 GPUs zu optimieren. Unsloth bietet speichereffiziente Trainingsoptimierungen und verwendet DDP im Hintergrund über Hugging Face Accelerate.

Unsloth DDP

Notebook abrufen

Verteilte Feinabstimmung von Olmo3 7B mit Axolotl

Dieses Notizbuch veranschaulicht die Verwendung der Serverless GPU Python-API zum Optimieren eines Olmo3 7B-Modells mit Axolotl-Bibliothek über 16 H100 GPUs hinweg. Axolotl wurde entwickelt, um das Post-Training und die Feinabstimmung für die neuesten LLMs zu vereinfachen.

Axolotl DDP

Notebook abrufen

Verteiltes Fein-Tuning von Llama 3.2 8B mit Mosaic LLM Foundry

Dieses Notizbuch veranschaulicht die Verwendung der Serverless GPU Python-API zum Optimieren eines Llama 3.2 8B-Modells mit der Mosaik LLM Foundry-Bibliothek über 16 A10 GPUs hinweg. Mosaik LLM Foundry bietet einfach zu verwendende, effiziente und flexible APIs zum Trainieren großer Sprachmodelle.

Notebook

Notebook abrufen

Verteiltes Training mit Ray Train (Computervision)

Dieses Notizbuch veranschaulicht die verteilte Schulung eines PyTorch ResNet-Modells auf dem FashionMNIST-Dataset mithilfe von Ray Train and Ray Data auf Databricks Serverless GPU-Clustern. Ray Train bietet hochgradige verteilte Trainingsorchestrierung und verwendet DDP als grundlegende Parallelisierungsstrategie. In diesem Beispiel wird das Einrichten des Unity-Katalogspeichers, das Konfigurieren von Ray für die GPU-Schulung mit mehreren Knoten, das Protokollieren und Registrieren von Modellen mit MLflow und die Auswertung der Modellleistung behandelt.

Ray DDP

Notebook abrufen

Training eines Zweiturm-Empfehlungssystems mit PyTorch Lightning

Dieses Notizbuch veranschaulicht, wie Sie ein Zwei-Turm-Empfehlungsmodell mithilfe von PyTorch Lightning auf serverlosem GPU-Compute trainieren. PyTorch Lightning bietet eine hochwertige Schnittstelle, die die DDP-Konfiguration automatisch für das Training mit mehreren GPUs verarbeitet. Das Beispiel umfasst die Datenvorbereitung mithilfe des MdS-Formats (Mosaik Streaming) und verteilten Schulungen über A10- oder H100-GPUs.

Sehen Sie sich die Seite " Deep Learning-Empfehlungsbeispiele " für die vollständigen Notizbücher an, einschließlich:

  • Datenvorbereitung und MDS-Formatkonvertierung
  • Training des Zwei-Turm-Empfehlungssystems mit PyTorch Lightning