Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
O tempo de execução da IA para tarefas de nó único está em Pré-visualização Pública. A API de treino distribuída para cargas de trabalho multi-GPU permanece em Beta.
Esta página inclui informações sobre migração, ligações para cadernos de exemplo e informações sobre resolução de problemas.
Migração de cargas de trabalho clássicas de GPU para um ambiente sem servidor (serverless)
Se estiver a transferir uma carga de trabalho de deep learning existente de um cluster clássico Databricks (com Databricks Runtime ML) para serverless (com AI Runtime), siga estes passos:
- Substituir o código dependente do cluster. Remova quaisquer referências ao treinamento distribuído baseado em Spark (por exemplo,
TorchDistributor) e substitua-as pelo decorador@distributeddeserverless_gpu. - Atualizar o carregamento de dados. Substituir caminhos DBFS diretos por caminhos de volumes do Catálogo Unity (
/Volumes/...). Substituir as operações locais do Spark DataFrame pelo Spark Connect. - Reinstala dependências. Não confie nas bibliotecas pré-instaladas do Databricks Runtime ML. Adiciona comandos explícitos
%pip installpara todos os pacotes necessários. - Atualizar os caminhos dos pontos de controlo. Mover checkpoints do DBFS ou do armazenamento local para volumes do Unity Catalog (
/Volumes/<catalog>/<schema>/<volume>/...). - Atualizar a configuração do MLflow. Assegure que os nomes dos experimentos usem caminhos absolutos e configure os nomes das execuções para que possam ser facilmente reiniciados.
- Teste de forma interativa primeiro. Valide a sua carga de trabalho num caderno interativo antes de a agendar como um trabalho.
Monitorizar utilização e custos
Pode monitorizar o gasto da sua GPU em tempo de execução de IA consultando a tabela do sistema de utilização faturável (system.billing.usage). A consulta seguinte devolve a utilização total para cargas de trabalho de GPU serverless:
SELECT
SUM(usage_quantity)
FROM
system.billing.usage
WHERE
product_features.serverless_gpu IS NOT NULL
Para mais informações sobre o esquema da tabela de utilização faturável, consulte Referência da tabela do sistema de utilização faturável.
O AI Runtime cobra por hora de GPU no SKU de Treino de Modelos aos seguintes preços:
- H100 on demand: $7,00/GPU por hora (EUA Este)
- A10 on demand: 4,90 $/GPU-hora (EUA Este)
Exemplos de cadernos
As seguintes categorias de cadernos de exemplo estão disponíveis para o ajudar a começar:
| Categoria | Descrição |
|---|---|
| Modelos de linguagem grande (LLMs) | Ajuste fino de grandes modelos de linguagem, incluindo métodos eficientes em parâmetros (LoRA, QLoRA) |
| Visão por Computador | Deteção de objetos, classificação de imagens e outras tarefas de CV |
| Sistemas de Recomendação de Aprendizagem Profunda | Construir sistemas de recomendação usando abordagens modernas de aprendizagem profunda como modelos de duas torres |
| ML clássico | Tarefas tradicionais de ML incluem treino de modelos XGBoost e previsão de séries temporais |
| Treinamento Distribuído Multi-GPU | Escalabilidade do treino em múltiplas GPUs usando a API de GPU Serverless |
Para a lista completa, veja notebooks de exemplo do IA Runtime.
Troubleshooting
O Genie Code pode ajudar a diagnosticar e sugerir correções para erros de instalação de bibliotecas. Veja Usar Código Genie para depurar erros do ambiente de computação.
ValueError: numpy.dtype tamanho alterado, pode indicar incompatibilidade binária. Esperava 96 do cabeçalho C, obtive 88 do PyObject
O erro surge normalmente quando existe uma incompatibilidade entre as versões NumPy usadas durante a compilação de um pacote dependente e a versão NumPy atualmente instalada no ambiente de execução. Essa incompatibilidade geralmente ocorre devido a alterações na API C do NumPy e é particularmente percetível do NumPy 1.x para 2.x. Este erro indica que o pacote Python instalado no notebook pode ter alterado a versão do NumPy.
Solução recomendada:
Verifique a versão do NumPy no tempo de execução e certifique-se de que é compatível com os seus pacotes. Consulte as notas de lançamento do Serverless GPU Compute para o ambiente 4 e ambiente 3 para informações sobre bibliotecas Python pré-instaladas. Se você tiver uma dependência em uma versão diferente do NumPy, adicione essa dependência ao seu ambiente de computação.
PyTorch não pode encontrar libcudnn ao instalar a tocha
Quando instala uma versão diferente do torch, poderá ver o erro: ImportError: libcudnn.so.9: cannot open shared object file: No such file or directory. Isso ocorre porque o Torch só procura a biblioteca cuDNN no diretório local.
Solução recomendada:
Reinstale as dependências adicionando --force-reinstall , ao instalar torch:
%pip install torch --force-reinstall