Compartilhar via


Guias do usuário para o AI Runtime

Importante

O AI Runtime para tarefas de nó único está na Visualização Pública. A API de treinamento distribuído para cargas de trabalho de várias GPUs permanece em Beta.

Esta página inclui informações de migração, links para notebooks de exemplo e informações de solução de problemas.

Migrando cargas de trabalho de GPU clássicas para sem servidor

Se você estiver movendo uma carga de trabalho de aprendizado profundo existente de um cluster clássico do Databricks (com o Databricks Runtime ML) para sem servidor (com o AI Runtime), siga estas etapas:

  1. Substitua o código dependente do cluster. Remova todas as referências ao treinamento distribuído baseado em Spark (por exemplo, TorchDistributor) e substitua-as pelo decorador @distributed de serverless_gpu.
  2. Atualizar o carregamento de dados. Substitua caminhos DBFS diretos por caminhos de volumes do Catálogo do Unity (/Volumes/...). Substitua as operações locais do DataFrame do Spark pelo Spark Connect.
  3. Reinstale dependências. Não confie em bibliotecas pré-instaladas do Databricks Runtime ML. Adicione comandos explícitos %pip install para todos os pacotes necessários.
  4. Atualizar caminhos de ponto de verificação. Mover pontos de verificação do DBFS ou armazenamento local para volumes do Catálogo do Unity (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Atualizar a configuração do MLflow. Verifique se os nomes dos experimentos usam caminhos absolutos e configure os nomes de execução para que possam ser reiniciados facilmente.
  6. Teste interativamente primeiro. Valide sua carga de trabalho em um notebook interativo antes de agendá-la como um trabalho.

Acompanhar o uso e os custos

Você pode monitorar os gastos da GPU do AI Runtime consultando a tabela do sistema de uso faturável (system.billing.usage). A consulta a seguir retorna o uso total para cargas de trabalho de GPU sem servidor:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Para obter mais informações sobre o esquema de tabela do uso faturável, consulte o Sistema de Referência de Tabelas de Uso Faturável.

As cobranças do tempo de execução de IA por hora de GPU no SKU para Treinamento de Modelos são feitas aos seguintes preços:

  • H100 sob demanda: US$7,00/GPU/hora (Leste dos EUA)
  • A10 sob demanda: $4,90 por hora de GPU (Estados Unidos - Leste)

Exemplos de notebooks

As seguintes categorias de notebooks de exemplo estão disponíveis para ajudá-lo a começar:

Categoria Descrição
LlMs (modelos de linguagem grandes) Ajuste fino de grandes modelos de linguagem, incluindo métodos eficientes em termos de parâmetros (LoRA, QLoRA)
Visão Computacional Detecção de objetos, classificação de imagem e outras tarefas de CV
Sistemas de recomendação de aprendizado profundo Criando sistemas de recomendação usando abordagens modernas de aprendizado profundo, como modelos de duas torres
ML clássico Tarefas ML tradicionais, incluindo treinamento de modelo XGBoost e previsão de série temporal
Treinamento distribuído de várias GPUs Dimensionar o treinamento em várias GPUs usando a API de GPU sem servidor

Para obter a lista completa, consulte notebooks de exemplo do AI Runtime.

Solução de problemas

O Genie Code pode ajudar a diagnosticar e sugerir correções para erros de instalação da biblioteca. Consulte Usar o Genie Code para depurar erros de ambiente de computação.

ValueError: tamanho numpy.dtype alterado, pode indicar incompatibilidade binária. Esperavam-se 96 do cabeçalho C, recebeu-se 88 de PyObject

O erro normalmente ocorre quando há uma incompatibilidade nas versões numPy usadas durante a compilação de um pacote dependente e a versão NumPy atualmente instalada no ambiente de runtime. Essa incompatibilidade geralmente ocorre devido a alterações na API C do NumPy e é particularmente perceptível de NumPy 1.x para 2.x. Esse erro indica que o pacote python instalado no notebook pode ter alterado a versão numPy.

Solução recomendada:

Verifique a versão do NumPy no runtime e verifique se ela é compatível com seus pacotes. Consulte as notas de versão de computação de GPU sem servidor para o ambiente 4 e o ambiente 3 para obter informações sobre bibliotecas do Python pré-instaladas. Se você tiver uma dependência em uma versão diferente do NumPy, adicione essa dependência ao seu ambiente de computação.

PyTorch não pode encontrar libcudnn ao instalar a tocha

Ao instalar uma versão diferente de torch, você poderá ver o erro: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Isso ocorre porque o torch busca apenas pela biblioteca cuDNN no caminho local.

Solução recomendada:

Reinstale as dependências adicionando --force-reinstall ao instalar torch:

%pip install torch --force-reinstall