Compartilhar via


Runtime de IA

Importante

O AI Runtime para tarefas de nó único está na Visualização Pública. A API de treinamento distribuído para cargas de trabalho de várias GPUs permanece em Beta.

Visão geral do AI Runtime

O AI Runtime é uma oferta de computação no Databricks destinada a cargas de trabalho de aprendizado profundo e traz suporte de GPU para o Databricks Serverless. Você pode usar o AI Runtime para treinar e ajustar modelos personalizados usando suas estruturas favoritas e obter eficiência, desempenho e qualidade de última geração. Para obter uma visão geral de como a computação sem servidor se encaixa na arquitetura do Databricks, consulte a arquitetura do workspace sem servidor.

Características principais

  • Infraestrutura de GPU totalmente gerenciada – acesso flexível e sem servidor a GPUs e sem configuração de cluster, seleção de driver ou políticas de dimensionamento automático a serem gerenciadas.
  • Um runtime dedicado ao aprendizado profundo – escolha um ambiente base padrão mínimo para obter flexibilidade máxima sobre dependências ou um ambiente de IA completo pré-carregado com estruturas ML populares.
  • Integrados nativamente em notebooks, trabalhos, Catálogo do Unity e MLflow para desenvolvimento contínuo, acesso a dados e acompanhamento de experimentos.

Opções de hardware

Acelerador Mais Adequado Para Várias GPUs
A10 Tarefas de ML pequenas a médias e tarefas de aprendizado profundo, como o ajuste fino de modelos clássicos de ML ou de menores modelos de linguagem. No
H100 Cargas de trabalho de IA em larga escala, incluindo treinamento ou ajuste fino de modelos massivos ou execução de tarefas avançadas de aprendizado profundo Sim (8 GPUs)

O Databricks recomenda o AI Runtime para qualquer caso de uso de treinamento de modelo personalizado que envolva aprendizado profundo, cargas de trabalho clássicas em larga escala ou GPUs.

Por exemplo:

  • Refinamento de LLM (LoRA, QLoRA, refinamento completo)
  • Pesquisa visual computacional (detecção de objetos, classificação de imagem)
  • Sistemas de recomendação baseados em aprendizado profundo
  • Aprendizado de reforço
  • Previsão de série temporal baseada em aprendizado profundo

Requisitos

  • Um workspace em uma das seguintes regiões com suporte do Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Limitações

  • O AI Runtime só dá suporte a aceleradores A10 e H100.
  • A execução de AI Runtime não é suportada para workspaces de perfil de segurança de conformidade (como HIPAA ou PCI). Não há suporte para o processamento de dados regulamentados.
  • Não há suporte para a adição de dependências usando o painel Ambientes para trabalhos agendados do AI Runtime. Em vez disso, instale dependências usando %pip install programaticamente em seu notebook.
  • Para trabalhos agendados no AI Runtime, não há suporte para o comportamento de recuperação automática para versões de pacote incompatíveis associadas ao seu notebook.
  • O tempo de execução máximo para uma carga de trabalho é de sete dias. Para trabalhos de treinamento de modelo que excedem esse limite, implemente a criação de pontos de verificação e reinicie o trabalho quando o tempo máximo de execução for atingido.
  • O AI Runtime fornece acesso sob demanda aos recursos de GPU. Embora isso leve a um acesso fácil e flexível a GPUs, pode haver períodos em que a capacidade está restrita ou indisponível em sua região.
  • O AI Runtime aproveita GPUs entre regiões em determinados casos durante momentos de alta demanda. Pode haver custos de saída associados a esse uso.

Conectar-se ao AI Runtime

Você pode se conectar ao AI Runtime interativamente a partir de notebooks, agendar notebooks como trabalhos recorrentes ou criar trabalhos programaticamente usando a API de Trabalhos e os Pacotes de Ativos do Databricks. Para obter instruções passo a passo, consulte Conectar-se ao AI Runtime.

Configurar o ambiente

O AI Runtime oferece dois ambientes python gerenciados: um ambiente base padrão mínimo e um ambiente de IA do Databricks completo pré-carregado com estruturas ML populares, como PyTorch e Transformers. Para obter detalhes sobre como escolher um ambiente, comportamento de cache, importação de módulos personalizados e limitações conhecidas, consulte Configurar seu ambiente.

Carregar dados

Entender como o acesso a dados funciona no AI Runtime é essencial para uma experiência tranquila. Para obter detalhes, consulte Carregar dados no AI Runtime.

Treinamento distribuído

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

O AI Runtime dá suporte ao treinamento distribuído em várias GPUs no único nó ao qual seu notebook está conectado. Usando o decorador @distributed da API Python serverless_gpu (Beta), você pode iniciar workloads de múltiplas GPUs com PyTorch DDP, FSDP ou DeepSpeed com configuração mínima. Para obter detalhes, consulte a carga de trabalho de várias GPUs.

Acompanhamento e observabilidade de experimentos

Para a integração com o MLflow, visualização de logs e gerenciamento de checkpoints de modelo, consulte Acompanhamento de experimentos e observabilidade.

Código do Genie para aprendizado profundo

O Genie Code dá suporte a cargas de trabalho de aprendizado profundo no AI Runtime. Ele pode ajudar na geração de código de treinamento, na resolução de erros de instalação da biblioteca, na sugestão de otimizações e na depuração de problemas comuns. Consulte Usar o Genie Code para ciência de dados.

Guides

Para migrar de cargas de trabalho clássicas, notebooks de exemplo e solução de problemas, consulte guias de usuário para o AI Runtime.