Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Verwalten von Azure Databricks-Vorschauen.
Diese Seite enthält Notizbuchbeispiele für multiknoten- und multi-GPU verteilte Schulungen mit Serverless GPU Compute. In diesen Beispielen wird veranschaulicht, wie Sie Schulungen auf mehrere GPUs und Knoten skalieren, um die Leistung zu verbessern.
Wählen Sie Ihre Parallelitätstechnik aus.
Wenn Sie Ihre Modellschulung auf mehrere GPUs skalieren, hängt die Auswahl der richtigen Parallelitätstechnik von der Modellgröße, verfügbaren GPU-Speicher und Leistungsanforderungen ab.
| Technik | Wann verwendet werden soll |
|---|---|
| DDP (Verteilte Daten parallel) | Ein vollständiges Modell passt in den einzelnen GPU-Speicher; es wird notwendig sein, den Datendurchsatz zu skalieren. |
| FSDP (Vollständig geshardete Datenparallelität) | Sehr große Modelle, die nicht in den einzelnen GPU-Speicher passen |
| DeepSpeed ZeRO | Große Modelle mit erweiterten Speicheroptimierungsanforderungen |
Ausführliche Informationen zu den einzelnen Techniken finden Sie unter DDP, FSDP und DeepSpeed.
Beispielnotizbücher nach Methode und Frameworks
In der folgenden Tabelle sind Beispielnotizbücher nach dem verwendeten Framework/der verwendeten Bibliothek und der angewendeten Parallelitätstechnik angeordnet. Mehrere Notizbücher können in einer einzelnen Zelle angezeigt werden.
| Framework/Bibliothek | DDP-Beispiele | FSDP-Beispiele | DeepSpeed-Beispiele |
|---|---|---|---|
| PyTorch (nativ) |
Einfaches neurales MLP-Netzwerk RetinaNet-Bilddetektion |
10M-Parametertransformer | — |
| Huggingface TRL | Feinjustierung von Gpt OSS 20B | Anpassen von GPT OSS 120B | Feinabstimmung von Llama 3.2 1B |
| Unsloth | Feinabstimmung von Llama 3.2 3B | — | — |
| Axolotl | Feinabstimmung von Olmo3 7B | — | — |
| Mosaik LLM Studio | Feinabstimmung Llama 3.2 8B | — | — |
| Ray Train | ResNet18 auf FashionMNIST (Computer vision) | — | — |
| Blitz | Zwei-Turm-Empfehlungssystem | — | — |
Get started
Das folgende Notizbuch enthält ein grundlegendes Beispiel für die Verwendung der Serverless GPU Python-API zum Starten mehrerer A10-GPUs für verteilte Schulungen.