Partilhar via


Ambiente de Execução de IA

Importante

O tempo de execução da IA para tarefas de nó único está em Pré-visualização Pública. A API de treino distribuída para cargas de trabalho multi-GPU permanece em Beta.

Visão geral do tempo de execução da IA

AI Runtime é uma solução de computação da Databricks destinada a cargas de trabalho de aprendizagem profunda e oferece suporte para GPU no Databricks Serverless. Pode usar o AI Runtime para treinar e afinar modelos personalizados usando os seus frameworks favoritos e obter eficiência, desempenho e qualidade de última geração. Para uma visão geral de como a computação serverless se integra na arquitetura Databricks, veja Arquitetura de workspace serverless.

Principais características

  • Infraestrutura de GPU totalmente gerida — Serverless, acesso flexível às GPUs e sem configuração de cluster, seleção de drivers ou políticas de autoscaling para gerir.
  • Um runtime dedicado à aprendizagem profunda — Escolha um ambiente base padrão mínimo para máxima flexibilidade em relação às dependências ou um ambiente de IA completo pré-carregado com frameworks populares de ML.
  • Integrado nativamente entre notebooks, jobs, Unity Catalog e MLflow para desenvolvimento fluido, acesso a dados e rastreio de experiências.

Opções de hardware

Acelerador Melhor Para Multi-GPU
A10 Tarefas pequenas a médias de ML e aprendizagem profunda, como modelos clássicos de ML ou ajuste fino de modelos de linguagem mais pequenos No
H100 Cargas de trabalho em IA em grande escala, incluindo treino ou ajuste fino de modelos massivos ou execução de tarefas avançadas de aprendizagem profunda Sim (8 GPUs)

A Databricks recomenda AI Runtime para quaisquer casos de uso de treino de modelos personalizados que envolvam deep learning, cargas de trabalho clássicas de grande escala ou GPUs.

Por exemplo:

  • Ajuste fino de LLM (LoRA, QLoRA, ajuste fino completo)
  • Visão computacional (deteção de objetos, classificação de imagem)
  • Sistemas de recomendação baseados em aprendizagem profunda
  • Aprendizagem por reforço
  • Previsão de séries cronológicas baseada em aprendizagem profunda

Requisitos

  • Um espaço de trabalho em uma das seguintes regiões com suporte do Azure:
    • centralus
    • eastus
    • eastus2
    • northcentralus
    • westcentralus
    • westus
    • westus3

Limitações

  • O AI Runtime só suporta aceleradores A10 e H100.
  • O AI Runtime não é suportado para espaços de trabalho de perfis de segurança de conformidade (como HIPAA ou PCI). O processamento de dados regulados não é suportado.
  • Adicionar dependências usando o Environments não é suportado para trabalhos agendados no AI Runtime. Instala as dependências programaticamente usando %pip install no teu notebook em vez disso.
  • Para trabalhos agendados no AI Runtime, o comportamento de recuperação automática para versões de pacotes incompatíveis associadas ao seu portátil não é suportado.
  • O tempo de execução máximo para uma carga de trabalho é de sete dias. Para trabalhos de treino de modelos que excedam este limite, implemente checkpointing e reinicie o trabalho assim que o tempo máximo de execução for atingido.
  • O AI Runtime fornece acesso sob demanda aos recursos da GPU. Embora isto conduza a um acesso fácil e flexível às GPUs, pode haver períodos em que a capacidade é limitada ou indisponível na sua região.
  • O AI Runtime aproveita GPUs multi-região em certos casos durante momentos de alta procura. Podem existir custos de saída associados a tal uso.

Conectar ao Ambiente de Execução de IA

Pode ligar-se ao AI Runtime de forma interativa a partir dos notebooks, agendar notebooks como tarefas recorrentes ou criar trabalhos programaticamente usando a API de Trabalhos e os Conjuntos de Ativos Databricks. Para instruções passo a passo, consulte Conectar ao Runtime de IA.

Configurar ambiente

O AI Runtime oferece dois ambientes Python geridos: um ambiente base padrão mínimo e um ambiente de IA Databricks completo, pré-carregado com frameworks populares de ML como PyTorch e Transformers. Para detalhes sobre a escolha de um ambiente, comportamento de cache, importação de módulos personalizados e limitações conhecidas, veja Configurar o seu ambiente.

Dados lidos

Compreender como funciona o acesso a dados no AI Runtime é essencial para uma experiência fluida. Para detalhes, consulte Carregar dados no Runtime de IA.

Formação distribuída

Importante

Este recurso está em versão Beta. Os administradores do espaço de trabalho podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

O AI Runtime suporta treino distribuído entre múltiplas GPUs no único nó a que o seu portátil está ligado. Usando o @distributed decorador da serverless_gpu API Python (Beta), pode lançar workloads multi-GPU com PyTorch DDP, FSDP ou DeepSpeed com configuração mínima. Para mais detalhes, veja Carga de trabalho Multi-GPU.

Acompanhamento e observabilidade de experimentos

Para integração de MLflow, visualização de registos de sistema e gestão de ponto de verificação de modelos, consulte Acompanhamento e observabilidade de experiências.

Código Genie para aprendizagem profunda

O Genie Code suporta cargas de trabalho de aprendizagem profunda em tempo de execução de IA. Pode ajudar a gerar código de treino, resolver erros de instalação de bibliotecas, sugerir otimizações e depurar problemas comuns. Consulte Use Genie Code para ciência de dados.

Guides

Para migração de cargas de trabalho clássicas, notebooks de exemplo e resolução de problemas, consulte os guias de utilizador para IA Runtime.