Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Importante
Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.
Esta página tem exemplos de blocos de anotações para usar o treinamento DDP (Distributed Data Parallel) na computação GPU sem servidor. O DDP é a técnica de paralelismo mais comum para treino distribuído, onde o modelo completo é replicado em cada GPU e os lotes de dados são divididos entre GPUs.
Quando usar DDP
Utilize o DDP quando:
- O teu modelo cabe completamente na memória de uma única GPU
- Pretendes ampliar o treino aumentando a transferência de dados
- Precisa da abordagem de treino distribuído mais simples com suporte automático na maioria dos frameworks
Para modelos maiores que não cabem na memória de uma única GPU, considere FSDP ou DeepSpeed.
Treino de uma rede neural perceptrónica multicamada (MLP) simples usando PyTorch DDP
O bloco de anotações a seguir demonstra o treinamento distribuído de uma rede neural simples de perceptron multicamada (MLP) usando o módulo DDP do PyTorch no Azure Databricks com recursos de GPU sem servidor.
PyTorch DDP
Treinar OpenAI GPT-OSS modelo 20B em 8xH100 usando TRL e DDP
Este caderno demonstra como usar a API Python da GPU Serverless para executar ajuste fino supervisionado (SFT) no modelo GPT-OSS 20B do Hugging Face, utilizando a biblioteca Transformer Reinforcement Learning (TRL ). Este exemplo utiliza DDP em todas as 8 GPUs H100 do nó para escalar o tamanho global do lote.
TRL DDP
Ajuste fino realizado de forma distribuída do Llama 3.2 3B usando Unsloth
Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Llama 3.2 3B com a biblioteca Unsloth em 8 GPUs A10. Unsloth oferece otimizações de treino que economizam memória e utiliza DDP (Distributed Data Parallel) sob a alçada de Hugging Face Accelerate.
DDP Optimizado
Afinamento distribuído do Olmo3 7B usando Axolotl
Este portátil demonstra como usar a API Python da GPU Serverless para afinar finamente um modelo Olmo3 7B com a biblioteca Axolotl em 16 GPUs H100. O Axolotl foi concebido para simplificar o pós-treino e o ajuste fino para os mais recentes LLMs.
Axolotl DDP
Ajuste fino distribuído do Llama 3.2 8B usando o Mosaic LLM Foundry
Este notebook demonstra como usar a API Python da GPU Serverless para ajustar um modelo Llama 3.2 8B com a biblioteca Mosaic LLM Foundry em 16 GPUs A10. O Mosaic LLM Foundry fornece APIs fáceis de usar, eficientes e flexíveis para treinar grandes modelos de linguagem.
Computador portátil
Treino distribuído usando Ray Train (visão computacional)
Este notebook demonstra o treinamento distribuído de um modelo PyTorch ResNet no conjunto de dados FashionMNIST usando Ray Train e Ray Data em clusters de GPU Databricks Serverless. O Ray Train oferece coordenação de treino distribuído de alto nível e utiliza o DDP como a estratégia de paralelismo subjacente. Este exemplo abrange a configuração do armazenamento do Unity Catalog, configuração do Ray para treinamento em GPU de múltiplos nós, registro e registo de modelos com MLflow e avaliação do desempenho do modelo.
Ray DDP
Treinar um sistema de recomendação de duas torres usando PyTorch Lightning
Este bloco de notas demonstra como treinar um modelo de recomendação de duas torres usando PyTorch Lightning em computação de GPU sem servidor. O PyTorch Lightning fornece uma interface de alto nível que gere automaticamente a configuração DDP para treino multi-GPU. O exemplo inclui preparação de dados usando o formato Mosaic Streaming (MDS) e treino distribuído entre GPUs A10 ou H100.
Consulte a página de exemplos de recomendações de Deep Learning para os cadernos completos, incluindo:
- Preparação de dados e conversão do formato MDS
- Treino de recomendador de duas torres com PyTorch Lightning