Dela via


Distribuerad träning för multi-GPU

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.

Den här sidan innehåller kodexempel för distribuerad träning med flera GPU:er med AI Runtime. De här exemplen visar hur du skalar träning över flera GPU:er och noder för bättre prestanda.

Anmärkning

Distribuerad träning för flera GPU:er stöds på H100 GPU:er.

Välj parallellitetsteknik

När du skalar modellträningen över flera GPU:er beror valet av rätt parallellitetsteknik på din modellstorlek, tillgängliga GPU-minne och prestandakrav.

Teknik När det bör användas
DDP (Distributed Data Parallel) Fullständig modell passar i ett enda GPU-minne; behöver skala dataflöde
FSDP (fullständigt fragmenterad dataparallell) Mycket stora modeller som inte får plats i ett enda GPU-minne
DeepSpeed ZeRO Stora modeller med avancerade minnesoptimeringsbehov

Detaljerad information om varje teknik finns i DDP, FSDP och DeepSpeed.

Exempel på notebook-filer efter teknik och ramverk

I följande tabell ordnas exempelanteckningsböcker efter det ramverk/bibliotek som du använder och den parallellitetsteknik som används. Flera notebook-filer kan visas i en enda cell.

Ramverk/bibliotek DDP-exempel FSDP-exempel DeepSpeed-exempel
PyTorch (inbyggt) Enkelt MLP-neuralt nätverk
RetinaNet-avbildningsidentifiering
10M-parametertransformator
Huggingface TRL Finjustera Gpt OSS 20B Finjustera Gpt OSS 120B Finjustera Llama 3.2 1B
Ta bort rullning Finjustera Llama 3.2 3B
Axolotl Finjustera Olmo3 7B
Mosaik LLM Foundry Finjustera Llama 3.2 8B
Lightning Tvåtornsrekommendatorsystem

Get started

Använd följande självstudier för att komma igång med det serverlösa GPU Python-biblioteket för distribuerad träning:

Handledning Beskrivning
AI Runtime med H100 GPU:er Lär dig hur du använder Databricks AI Runtime med H100-acceleratorer för att köra distribuerade GPU-arbetsbelastningar med hjälp av serverless_gpu Python-biblioteket.