Treino DDP (Paralelo de Dados Distribuídos)

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página tem exemplos de blocos de anotações para usar o treinamento DDP (Distributed Data Parallel) na computação GPU sem servidor. O DDP é a técnica de paralelismo mais comum para treino distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.

Quando usar DDP

Utilize o DDP quando:

O teu modelo cabe completamente na memória de uma única GPU
Pretendes ampliar o treino aumentando a transferência de dados
Precisa da abordagem de treino distribuído mais simples com suporte automático na maioria dos frameworks

Para modelos maiores que não cabem na memória de uma única GPU, considere FSDP ou DeepSpeed.

Treino de uma rede neural perceptrónica multicamada (MLP) simples usando PyTorch DDP

O bloco de anotações a seguir demonstra o treinamento distribuído de uma rede neural simples de perceptron multicamada (MLP) usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.

PyTorch DDP

Obter bloco de notas

Treinar OpenAI GPT-OSS modelo 20B em 8xH100 usando TRL e DDP

Este caderno demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face, utilizando a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza DDP em todas as 8 GPUs H100 do nó para escalar o tamanho global do lote.

TRL DDP

Obter bloco de notas

Ajuste fino realizado de forma distribuída do Llama 3.2 3B usando Unsloth

Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. Unsloth oferece otimizações de treino que economizam memória e utiliza DDP (Distributed Data Parallel) sob a alçada de Hugging Face Accelerate.

DDP Optimizado

Obter bloco de notas

Afinamento distribuído do Olmo3 7B usando Axolotl

Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Olmo3 7B com a biblioteca Axolotl em 16 GPUs H100. O Axolotl foi concebido para simplificar o pós-treino e o ajuste fino para os mais recentes LLMs.

Axolotl DDP

Obter bloco de notas

Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry

Este notebook demonstra como usar a API Python da GPU Serverless para ajustar um modelo Llama 3.2 8B com a biblioteca Mosaic LLM Foundry em 16 GPUs A10. O Mosaic LLM Foundry fornece APIs fáceis de usar, eficientes e flexíveis para treinar grandes modelos de linguagem.

Computador portátil

Obter bloco de notas

Treino distribuído usando Ray Train (visão computacional)

Este notebook demonstra o treinamento distribuído de um modelo PyTorch ResNet no conjunto de dados FashionMNIST usando Ray Train e Ray Data em clusters de GPU Databricks Serverless. O Ray Train oferece coordenação de treino distribuído de alto nível e utiliza o DDP como a estratégia de paralelismo subjacente. Este exemplo abrange a configuração do armazenamento do Unity Catalog, configuração do Ray para treinamento em GPU de múltiplos nós, registro e registo de modelos com MLflow e avaliação do desempenho do modelo.

Ray DDP

Obter bloco de notas

Treinar um sistema de recomendação de duas torres usando PyTorch Lightning

Este bloco de notas demonstra como treinar um modelo de recomendação de duas torres usando PyTorch Lightning em computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que gere automaticamente a configuração DDP para treino multi-GPU. O exemplo inclui preparação de dados usando o formato Mosaic Streaming (MDS) e treino distribuído entre GPUs A10 ou H100.

Consulte a página de exemplos de recomendações de Deep Learning para os cadernos completos, incluindo:

Preparação de dados e conversão do formato MDS
Treino de recomendador de duas torres com PyTorch Lightning

Feedback

Esta página foi útil?

Last updated on 2025-12-20

Partilhar via

Treino DDP (Paralelo de Dados Distribuídos)

Quando usar DDP

Treino de uma rede neural perceptrónica multicamada (MLP) simples usando PyTorch DDP

PyTorch DDP

Treinar OpenAI GPT-OSS modelo 20B em 8xH100 usando TRL e DDP

TRL DDP

Ajuste fino realizado de forma distribuída do Llama 3.2 3B usando Unsloth

DDP Optimizado

Afinamento distribuído do Olmo3 7B usando Axolotl

Axolotl DDP

Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry

Computador portátil

Treino distribuído usando Ray Train (visão computacional)

Ray DDP

Treinar um sistema de recomendação de duas torres usando PyTorch Lightning

Feedback

Recursos adicionais