Treinamento do DDP (Distributed Data Parallel)

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página contém exemplos de notebooks para usar o DDP (Distributed Data Parallel) em treinamentos no AI Runtime. O DDP é a técnica de paralelismo mais comum para treinamento distribuído, em que o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.

Quando usar o DDP

Use DDP quando:

Seu modelo se encaixa completamente na memória de uma única GPU
Você deseja dimensionar o treinamento aumentando a taxa de transferência de dados
Você precisa da abordagem de treinamento distribuído mais simples com suporte automático na maioria das estruturas

Para modelos maiores que não se encaixam em memória de GPU única, considere FSDP ou DeepSpeed .

Exemplos

Tutorial	Descrição
Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP	Este notebook demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.
Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP	Este bloco de anotações demonstra como usar a API python de GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face usando a biblioteca TRL (Transformer Reinforcement Learning ). Este exemplo aproveita o DDP em todas as 8 GPUs H100 no nó para dimensionar o tamanho global do lote.
Ajuste fino distribuído de Llama 3.2 3B usando Unsloth	Este notebook demonstra como usar a API Python de GPU Serverless para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O unsloth fornece otimizações de treinamento com eficiência de memória e usa DDP sob o capô por meio do Hugging Face Accelerate.
Distribuição do ajuste fino de Olmo3 7B usando Axolotl	Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar um modelo Olmo3 7B com biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para as LLMs mais recentes.
Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning	Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100. Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo: Preparação de dados e conversão de formato MDS Treinamento de recomendação de duas torres com PyTorch Lightning

Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP

O notebook a seguir demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.

PyTorch DDP

Obter laptop

Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning

Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100.

Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo:

Preparação de dados e conversão de formato MDS
Treinamento de recomendação de duas torres com PyTorch Lightning

Comentários

Esta página foi útil?

Last updated on 2026-03-21