Partilhar via


Treino DDP (Paralelo de Dados Distribuídos)

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Esta página inclui exemplos de notebooks para usar o treino Distributed Data Parallel (DDP) na plataforma de execução de IA. O DDP é a técnica de paralelismo mais comum para treino distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.

Quando usar DDP

Utilize o DDP quando:

  • O teu modelo cabe completamente na memória de uma única GPU
  • Pretendes ampliar o treino aumentando a transferência de dados
  • Precisa da abordagem de treino distribuído mais simples com suporte automático na maioria dos frameworks

Para modelos maiores que não cabem na memória de uma única GPU, considere FSDP ou DeepSpeed.

Exemplos

Tutorial Descrição
Treino de uma rede neural perceptrónica multicamada (MLP) simples usando PyTorch DDP Este notebook demonstra o treino distribuído de uma rede neural perceptrão multicamada (MLP) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU serverless.
Treinar OpenAI GPT-OSS modelo 20B em 8xH100 usando TRL e DDP Este caderno demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face, utilizando a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza DDP em todas as 8 GPUs H100 do nó para escalar o tamanho global do lote.
Ajuste fino distribuído do Llama 3.2 3B usando Unsloth Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. Unsloth oferece otimizações de treino eficientes em memória e utiliza DDP por trás do Hugging Face Accelerate.
Ajuste fino distribuído do Olmo3 7B usando Axolotl Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Olmo3 7B com a biblioteca Axolotl em 16 GPUs H100. O Axolotl foi concebido para simplificar o pós-treino e o ajuste fino para os mais recentes LLMs.
Treino de um sistema de recomendação de duas torres usando o PyTorch Lightning Este notebook demonstra como treinar um modelo de recomendação de duas torres usando PyTorch Lightning em GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que gere automaticamente a configuração DDP para treino multi-GPU. O exemplo inclui preparação de dados usando o formato Mosaic Streaming (MDS) e treino distribuído entre GPUs A10 ou H100.
Consulte a página de exemplos de recomendações de Deep Learning para os cadernos completos, incluindo:
  • Preparação de dados e conversão do formato MDS
  • Treino de recomendador de duas torres com PyTorch Lightning

Treino de uma rede neural perceptrónica multicamada (MLP) simples usando PyTorch DDP

O bloco de anotações a seguir demonstra o treinamento distribuído de uma rede neural simples de perceptron multicamada (MLP) usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.

PyTorch DDP

Obter bloco de notas

Treinar um sistema de recomendação de duas torres usando PyTorch Lightning

Este bloco de notas demonstra como treinar um modelo de recomendação de duas torres usando PyTorch Lightning em computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que gere automaticamente a configuração DDP para treino multi-GPU. O exemplo inclui preparação de dados usando o formato Mosaic Streaming (MDS) e treino distribuído entre GPUs A10 ou H100.

Consulte a página de exemplos de recomendações de Deep Learning para os cadernos completos, incluindo:

  • Preparação de dados e conversão do formato MDS
  • Treino de recomendador de duas torres com PyTorch Lightning