Freigeben über


DDP-Schulung (Distributed Data Parallel)

Von Bedeutung

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.

Diese Seite enthält Notizbuchbeispiele für die Verwendung von DDP-Schulungen (Distributed Data Parallel) auf AI Runtime. DDP ist die am häufigsten verwendete Parallelitätstechnik für verteilte Schulungen, bei der das vollständige Modell für jede GPU repliziert wird und Datenbatches über GPUs verteilt werden.

Wann DDP verwendet werden soll

Verwenden Sie DDP, wenn:

  • Ihr Modell passt vollständig in den Speicher einer einzelnen GPU.
  • Sie möchten die Schulung skalieren, indem Sie den Datendurchsatz erhöhen
  • Sie benötigen den einfachsten verteilten Schulungsansatz mit automatischer Unterstützung in den meisten Frameworks.

Für größere Modelle, die nicht in den einzelnen GPU-Speicher passen, sollten Sie stattdessen FSDP oder DeepSpeed in Betracht ziehen.

Beispiele

Tutorial Beschreibung
Training eines einfachen mehrlagigen Perzeptron (MLP) neuronalen Netzwerks mit PyTorch DDP Dieses Notizbuch veranschaulicht die verteilte Schulung eines einfachen mehrschichtigen perceptron (MLP)-neuralen Netzwerks mithilfe des DDP-Moduls von PyTorch auf Azure Databricks mit serverlosen GPU-Ressourcen.
Training des OpenAI GPT-OSS 20B-Modells auf 8xH100 mit TRL und DDP Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um überwachte Feinabstimmungen (SFT) im GPT-OSS 20B-Modell von Hugging Face mithilfe der TRL-Bibliothek (Transformer Reinforcement Learning) auszuführen. In diesem Beispiel wird DDP genutzt, um die globale Batchgröße über alle 8 H100-GPUs auf dem Knoten zu skalieren.
Verteiltes Fine-Tuning von Llama 3.2 und 3B mit Unsloth Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um ein Llama 3.2 3B-Modell mit unsloth-Bibliothek in 8 A10 GPUs zu optimieren. Unsloth bietet speichereffiziente Optimierungen für das Training und verwendet DDP mithilfe von Hugging Face Accelerate im Hintergrund.
Feinabstimmung von Olmo3 7B unter Verwendung von Axolotl Dieses Notizbuch veranschaulicht die Verwendung der Serverless GPU Python-API zum Optimieren eines Olmo3 7B-Modells mit Axolotl-Bibliothek über 16 H100 GPUs hinweg. Axolotl wurde entwickelt, um das Post-Training und die Feinabstimmung für die neuesten LLMs zu vereinfachen.
Training eines Zweiturm-Empfehlungssystems mit PyTorch Lightning Dieses Notizbuch veranschaulicht, wie Sie ein Zwei-Turm-Empfehlungsmodell mit PyTorch Lightning auf serverlosen GPU trainieren. PyTorch Lightning bietet eine hochwertige Schnittstelle, die die DDP-Konfiguration automatisch für das Training mit mehreren GPUs verarbeitet. Das Beispiel umfasst die Datenvorbereitung mithilfe des MdS-Formats (Mosaik Streaming) und verteilten Schulungen über A10- oder H100-GPUs.
Sehen Sie sich die Seite " Deep Learning-Empfehlungsbeispiele " für die vollständigen Notizbücher an, einschließlich:
  • Datenvorbereitung und MDS-Formatkonvertierung
  • Training des Zwei-Turm-Empfehlungssystems mit PyTorch Lightning

Training eines einfachen multilayer perceptron (MLP) neuralen Netzwerks mit PyTorch DDP

Das folgende Notizbuch demonstriert das verteilte Training eines einfachen mehrschichtigen Perzeptrons (MLP) mit dem DDP-Modul von PyTorch auf Azure Databricks mit serverlosen GPU-Ressourcen.

PyTorch DDP

Notebook abrufen

Training eines Zweiturm-Empfehlungssystems mit PyTorch Lightning

Dieses Notizbuch veranschaulicht, wie Sie ein Zwei-Turm-Empfehlungsmodell mithilfe von PyTorch Lightning auf serverlosem GPU-Compute trainieren. PyTorch Lightning bietet eine hochwertige Schnittstelle, die die DDP-Konfiguration automatisch für das Training mit mehreren GPUs verarbeitet. Das Beispiel umfasst die Datenvorbereitung mithilfe des MdS-Formats (Mosaik Streaming) und verteilten Schulungen über A10- oder H100-GPUs.

Sehen Sie sich die Seite " Deep Learning-Empfehlungsbeispiele " für die vollständigen Notizbücher an, einschließlich:

  • Datenvorbereitung und MDS-Formatkonvertierung
  • Training des Zwei-Turm-Empfehlungssystems mit PyTorch Lightning