Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele für die Verwendung von DDP-Schulungen (Distributed Data Parallel) auf Serverless GPU Compute. DDP ist die am häufigsten verwendete Parallelitätstechnik für verteilte Schulungen, bei der das vollständige Modell für jede GPU repliziert wird und Datenbatches über GPUs verteilt werden.
Wann DDP verwendet werden soll
Verwenden Sie DDP, wenn:
- Ihr Modell passt vollständig in den Speicher einer einzelnen GPU.
- Sie möchten die Schulung skalieren, indem Sie den Datendurchsatz erhöhen
- Sie benötigen den einfachsten verteilten Schulungsansatz mit automatischer Unterstützung in den meisten Frameworks.
Für größere Modelle, die nicht in den einzelnen GPU-Speicher passen, sollten Sie stattdessen FSDP oder DeepSpeed in Betracht ziehen.
Training eines einfachen multilayer perceptron (MLP) neuralen Netzwerks mit PyTorch DDP
Das folgende Notizbuch demonstriert das verteilte Training eines einfachen mehrschichtigen Perzeptrons (MLP) mit dem DDP-Modul von PyTorch auf Azure Databricks mit serverlosen GPU-Ressourcen.
PyTorch DDP
Training des OpenAI GPT-OSS 20B-Modell auf 8xH100 mit TRL und DDP
Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um überwachte Feinabstimmungen (SFT) im GPT-OSS 20B-Modell von Hugging Face mithilfe der TRL-Bibliothek (Transformer Reinforcement Learning) auszuführen. In diesem Beispiel wird DDP genutzt, um die globale Batchgröße über alle 8 H100-GPUs auf dem Knoten zu skalieren.
TRL-DDP
Verteilte Feinjustierung von Llama 3.2, 3B mit Unsloth
Dieses Notizbuch veranschaulicht, wie Sie die Serverless GPU Python-API verwenden, um ein Llama 3.2 3B-Modell mit unsloth-Bibliothek in 8 A10 GPUs zu optimieren. Unsloth bietet speichereffiziente Trainingsoptimierungen und verwendet DDP im Hintergrund über Hugging Face Accelerate.
Unsloth DDP
Verteilte Feinabstimmung von Olmo3 7B mit Axolotl
Dieses Notizbuch veranschaulicht die Verwendung der Serverless GPU Python-API zum Optimieren eines Olmo3 7B-Modells mit Axolotl-Bibliothek über 16 H100 GPUs hinweg. Axolotl wurde entwickelt, um das Post-Training und die Feinabstimmung für die neuesten LLMs zu vereinfachen.
Axolotl DDP
Verteiltes Fein-Tuning von Llama 3.2 8B mit Mosaic LLM Foundry
Dieses Notizbuch veranschaulicht die Verwendung der Serverless GPU Python-API zum Optimieren eines Llama 3.2 8B-Modells mit der Mosaik LLM Foundry-Bibliothek über 16 A10 GPUs hinweg. Mosaik LLM Foundry bietet einfach zu verwendende, effiziente und flexible APIs zum Trainieren großer Sprachmodelle.
Notebook
Verteiltes Training mit Ray Train (Computervision)
Dieses Notizbuch veranschaulicht die verteilte Schulung eines PyTorch ResNet-Modells auf dem FashionMNIST-Dataset mithilfe von Ray Train and Ray Data auf Databricks Serverless GPU-Clustern. Ray Train bietet hochgradige verteilte Trainingsorchestrierung und verwendet DDP als grundlegende Parallelisierungsstrategie. In diesem Beispiel wird das Einrichten des Unity-Katalogspeichers, das Konfigurieren von Ray für die GPU-Schulung mit mehreren Knoten, das Protokollieren und Registrieren von Modellen mit MLflow und die Auswertung der Modellleistung behandelt.
Ray DDP
Training eines Zweiturm-Empfehlungssystems mit PyTorch Lightning
Dieses Notizbuch veranschaulicht, wie Sie ein Zwei-Turm-Empfehlungsmodell mithilfe von PyTorch Lightning auf serverlosem GPU-Compute trainieren. PyTorch Lightning bietet eine hochwertige Schnittstelle, die die DDP-Konfiguration automatisch für das Training mit mehreren GPUs verarbeitet. Das Beispiel umfasst die Datenvorbereitung mithilfe des MdS-Formats (Mosaik Streaming) und verteilten Schulungen über A10- oder H100-GPUs.
Sehen Sie sich die Seite " Deep Learning-Empfehlungsbeispiele " für die vollständigen Notizbücher an, einschließlich:
- Datenvorbereitung und MDS-Formatkonvertierung
- Training des Zwei-Turm-Empfehlungssystems mit PyTorch Lightning