Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Importante
Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página contém exemplos de notebooks para usar o DDP (Distributed Data Parallel) em treinamentos no AI Runtime. O DDP é a técnica de paralelismo mais comum para treinamento distribuído, em que o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.
Quando usar o DDP
Use DDP quando:
- Seu modelo se encaixa completamente na memória de uma única GPU
- Você deseja dimensionar o treinamento aumentando a taxa de transferência de dados
- Você precisa da abordagem de treinamento distribuído mais simples com suporte automático na maioria das estruturas
Para modelos maiores que não se encaixam em memória de GPU única, considere FSDP ou DeepSpeed .
Exemplos
| Tutorial | Descrição |
|---|---|
| Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP | Este notebook demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor. |
| Treinamento do modelo OpenAI GPT-OSS 20B em 8xH100 usando TRL e DDP | Este bloco de anotações demonstra como usar a API python de GPU sem servidor para executar o ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face usando a biblioteca TRL (Transformer Reinforcement Learning ). Este exemplo aproveita o DDP em todas as 8 GPUs H100 no nó para dimensionar o tamanho global do lote. |
| Ajuste fino distribuído de Llama 3.2 3B usando Unsloth | Este notebook demonstra como usar a API Python de GPU Serverless para ajustar um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. O unsloth fornece otimizações de treinamento com eficiência de memória e usa DDP sob o capô por meio do Hugging Face Accelerate. |
| Distribuição do ajuste fino de Olmo3 7B usando Axolotl | Este notebook demonstra como usar a API Python de GPU sem servidor para ajustar um modelo Olmo3 7B com biblioteca Axolotl em 16 GPUs H100. O Axolotl foi projetado para simplificar o pós-treinamento e o ajuste fino para as LLMs mais recentes. |
| Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning | Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100. Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo:
|
Treinar uma rede neural simples de perceptron de várias camadas (MLP) usando o PyTorch DDP
O notebook a seguir demonstra o treinamento distribuído de uma rede neural MLP (perceptron de várias camadas) simples usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.
PyTorch DDP
Treinar um sistema de recomendação de duas torres usando o PyTorch Lightning
Este notebook demonstra como treinar um modelo de recomendação de duas torres usando o PyTorch Lightning na computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que lida automaticamente com a configuração de DDP para treinamento com várias GPUs. O exemplo inclui a preparação de dados usando o formato MDS (Mosaic Streaming) e o treinamento distribuído entre GPUs A10 ou H100.
Consulte a página de exemplos de recomendação de aprendizado profundo para os blocos de anotações completos, incluindo:
- Preparação de dados e conversão de formato MDS
- Treinamento de recomendação de duas torres com PyTorch Lightning