Partilhar via


Guias de utilizador para IA Runtime

Importante

O tempo de execução da IA para tarefas de nó único está em Pré-visualização Pública. A API de treino distribuída para cargas de trabalho multi-GPU permanece em Beta.

Esta página inclui informações sobre migração, ligações para cadernos de exemplo e informações sobre resolução de problemas.

Migração de cargas de trabalho clássicas de GPU para um ambiente sem servidor (serverless)

Se estiver a transferir uma carga de trabalho de deep learning existente de um cluster clássico Databricks (com Databricks Runtime ML) para serverless (com AI Runtime), siga estes passos:

  1. Substituir o código dependente do cluster. Remova quaisquer referências ao treinamento distribuído baseado em Spark (por exemplo, TorchDistributor) e substitua-as pelo decorador @distributed de serverless_gpu.
  2. Atualizar o carregamento de dados. Substituir caminhos DBFS diretos por caminhos de volumes do Catálogo Unity (/Volumes/...). Substituir as operações locais do Spark DataFrame pelo Spark Connect.
  3. Reinstala dependências. Não confie nas bibliotecas pré-instaladas do Databricks Runtime ML. Adiciona comandos explícitos %pip install para todos os pacotes necessários.
  4. Atualizar os caminhos dos pontos de controlo. Mover checkpoints do DBFS ou do armazenamento local para volumes do Unity Catalog (/Volumes/<catalog>/<schema>/<volume>/...).
  5. Atualizar a configuração do MLflow. Assegure que os nomes dos experimentos usem caminhos absolutos e configure os nomes das execuções para que possam ser facilmente reiniciados.
  6. Teste de forma interativa primeiro. Valide a sua carga de trabalho num caderno interativo antes de a agendar como um trabalho.

Monitorizar utilização e custos

Pode monitorizar o gasto da sua GPU em tempo de execução de IA consultando a tabela do sistema de utilização faturável (system.billing.usage). A consulta seguinte devolve a utilização total para cargas de trabalho de GPU serverless:

SELECT
  SUM(usage_quantity)
FROM
  system.billing.usage
WHERE
  product_features.serverless_gpu IS NOT NULL

Para mais informações sobre o esquema da tabela de utilização faturável, consulte Referência da tabela do sistema de utilização faturável.

O AI Runtime cobra por hora de GPU no SKU de Treino de Modelos aos seguintes preços:

  • H100 on demand: $7,00/GPU por hora (EUA Este)
  • A10 on demand: 4,90 $/GPU-hora (EUA Este)

Exemplos de cadernos

As seguintes categorias de cadernos de exemplo estão disponíveis para o ajudar a começar:

Categoria Descrição
Modelos de linguagem grande (LLMs) Ajuste fino de grandes modelos de linguagem, incluindo métodos eficientes em parâmetros (LoRA, QLoRA)
Visão por Computador Deteção de objetos, classificação de imagens e outras tarefas de CV
Sistemas de Recomendação de Aprendizagem Profunda Construir sistemas de recomendação usando abordagens modernas de aprendizagem profunda como modelos de duas torres
ML clássico Tarefas tradicionais de ML incluem treino de modelos XGBoost e previsão de séries temporais
Treinamento Distribuído Multi-GPU Escalabilidade do treino em múltiplas GPUs usando a API de GPU Serverless

Para a lista completa, veja notebooks de exemplo do IA Runtime.

Troubleshooting

O Genie Code pode ajudar a diagnosticar e sugerir correções para erros de instalação de bibliotecas. Veja Usar Código Genie para depurar erros do ambiente de computação.

ValueError: numpy.dtype tamanho alterado, pode indicar incompatibilidade binária. Esperava 96 do cabeçalho C, obtive 88 do PyObject

O erro surge normalmente quando existe uma incompatibilidade entre as versões NumPy usadas durante a compilação de um pacote dependente e a versão NumPy atualmente instalada no ambiente de execução. Essa incompatibilidade geralmente ocorre devido a alterações na API C do NumPy e é particularmente percetível do NumPy 1.x para 2.x. Este erro indica que o pacote Python instalado no notebook pode ter alterado a versão do NumPy.

Solução recomendada:

Verifique a versão do NumPy no tempo de execução e certifique-se de que é compatível com os seus pacotes. Consulte as notas de lançamento do Serverless GPU Compute para o ambiente 4 e ambiente 3 para informações sobre bibliotecas Python pré-instaladas. Se você tiver uma dependência em uma versão diferente do NumPy, adicione essa dependência ao seu ambiente de computação.

PyTorch não pode encontrar libcudnn ao instalar a tocha

Quando instala uma versão diferente do torch, poderá ver o erro: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Isso ocorre porque o Torch só procura a biblioteca cuDNN no diretório local.

Solução recomendada:

Reinstale as dependências adicionando --force-reinstall , ao instalar torch:

%pip install torch --force-reinstall