Treinamento distribuído de vários gpus e vários nós

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de notebook para treinamento distribuído de vários nós e de várias GPUs usando a computação de GPU sem servidor. Esses exemplos demonstram como dimensionar o treinamento em várias GPUs e nós para melhorar o desempenho.

Escolha sua técnica de paralelismo

Ao dimensionar o treinamento de modelo em várias GPUs, escolher a técnica de paralelismo correta depende do tamanho do modelo, da memória de GPU disponível e dos requisitos de desempenho.

Técnica	Quando usar
DDP (Distributed Data Parallel)	O modelo completo se encaixa na memória de GPU única; precisa dimensionar a taxa de transferência de dados
FSDP (paralelo de dados totalmente fragmentados)	Modelos muito grandes que não se encaixam na memória de GPU única
DeepSpeed ZeRO	Modelos grandes com necessidades avançadas de otimização de memória

Para obter informações detalhadas sobre cada técnica, consulte DDP, FSDP e DeepSpeed.

Exemplo de notebooks por técnica e estrutura

A tabela a seguir organiza blocos de anotações de exemplo pela estrutura/biblioteca que você está usando e a técnica de paralelismo aplicada. Vários blocos de anotações podem aparecer em uma única célula.

Estrutura/Biblioteca	Exemplos de DDP	Exemplos de FSDP	Exemplos de DeepSpeed
PyTorch (nativo)	Rede neural MLP simples Detecção de imagens RetinaNet	Transformador de parâmetro de 10M	—
Huggingface TRL	Aperfeiçoar o GPT OSS 20B	Ajustar o GPT OSS 120B	Ajustar Llama 3.2 1B
Desalocada	Refinar Llama 3.2 3B	—	—
Axolotl	Aprimorar o Olmo3 7B	—	—
Fundição Mosaic LLM	Aprimorar Llama 3.2 8B	—	—
Ray Train	ResNet18 no FashionMNIST (visão computacional) Ajuste de Hiperparâmetros do XGBoost	—	—
Relâmpago	Sistema de recomendação de duas torres	—	—

Introdução

O notebook a seguir tem um exemplo básico de como usar a API Python de GPU sem servidor para iniciar várias GPUs A10 para treinamento distribuído.

API de GPU sem servidor: A10 starter

Obter laptop

Comentários

Esta página foi útil?

Last updated on 2025-12-24