Databricks Runtime para Aprendizado de Máquina

Esta página descreve o Databricks Runtime para Machine Learning e fornece diretrizes sobre como criar um recurso de computação clássico que o usa.

O que é o Databricks Runtime para Machine Learning?

O Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza a criação de um recurso de computação com aprendizado de máquina pré-criado e infraestrutura de aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns.

Bibliotecas incluídas no Databricks Runtime ML

O Databricks Runtime ML inclui uma variedade de bibliotecas de ML populares. As bibliotecas são atualizadas a cada versão para incluir novos recursos e correções.

O Databricks designou um subconjunto das bibliotecas com suporte como bibliotecas de camada superior. Para essas bibliotecas, o Databricks oferece uma cadência de atualizações mais rápida, atualizando os pacotes para as versões mais recentes em cada nova versão de runtime, exceto em casos de conflitos de dependência. O Databricks também fornece suporte avançado, testes e otimizações inseridas para bibliotecas de camada superior. As bibliotecas de alto nível são adicionadas ou removidas apenas com grandes lançamentos.

Para obter uma lista completa de bibliotecas de nível superior e outras fornecidas, consulte as notas de versão do Databricks Runtime ML.
Para obter informações sobre a frequência com que as bibliotecas são atualizadas e quando são consideradas obsoletas, consulte a política de manutenção do Databricks Runtime ML .

Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu notebook ou recurso de computação.

Para disponibilizar uma biblioteca para todos os notebooks em execução em um ambiente de computação, crie uma biblioteca computacional. Você também pode usar um script de inicialização para instalar bibliotecas durante a criação da computação.
Para instalar uma biblioteca disponível apenas para uma sessão de notebook específica, utilize bibliotecas Python de escopo restrito ao notebook.

Criar um recurso de computação com o Databricks Runtime para ML

Para criar um recurso de computação que usa o Databricks Runtime para ML, selecione a caixa de seleção machine learning na interface do usuário de criação de computação. Isso define automaticamente o modo de acesso como Dedicado com sua conta como o usuário dedicado. Você pode atribuir manualmente o recurso de computação a um usuário ou grupo diferente na seção Avançado da interface do usuário de computação create.

Para computação baseada em GPU, selecione um tipo de instância habilitada para GPU no menu suspenso tipo de trabalhador. Para obter a lista completa de tipos de GPU com suporte, consulte Tipos de instância com suporte.

ML do Photon e do Databricks Runtime

Ao criar um recurso de computação que executa o Databricks Runtime 15.2 ML ou superior, você pode optar por habilitar o Photon. O Photon melhora o desempenho de aplicativos usando Spark SQL, Spark DataFrames, engenharia de recursos, GraphFrames e xgboost4j. Não se espera que ele melhore o desempenho em aplicativos usando RDDs do Spark, UDFs do Pandas e linguagens não JVM, como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não verão uma melhoria com o Photon.

As APIs do Spark RDD e do Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando o Spark RDD ou o Spark MLlib, você pode enfrentar problemas de memória do Spark. Veja Problemas de memória Spark.

Modo de acesso de computação para o Databricks Runtime ML

Para acessar dados no Catálogo do Unity em um recurso de computação que executa o Databricks Runtime ML, você deve definir o modo de acesso como Dedicado. O modo de acesso é definido automaticamente na interface de criação de computação quando você seleciona a opção aprendizagem de máquina.

Quando um recurso de computação tem o modo de acesso dedicado , o recurso pode ser atribuído a um único usuário ou grupo. Quando atribuído a um grupo, as permissões do usuário reduzem automaticamente o escopo para as permissões do grupo, permitindo que o usuário compartilhe com segurança o recurso com outros membros do grupo.

Ao usar o modo de acesso dedicado, os seguintes recursos só estão disponíveis no Databricks Runtime 15.4 LTS ML e acima:

Treinar modelos

Os recursos a seguir mostram como treinar machine learning e modelos de IA.

O Treinamento de Modelos do Databricks simplifica e unifica o processo de treinamento e implantação de modelos ML tradicionais por meio de cargas de trabalho de ajuste fino do Modelo de Base e AutoML.

AutoML

O AutoML simplifica o processo de aplicação de aprendizado de máquina aos seus conjuntos de dados encontrando automaticamente o melhor algoritmo e configuração de hiperparâmetro. O AutoML oferece uma interface do usuário sem código, bem como uma API Python.

Aprimoramento do Modelo Base

Ajuste fino de modelos fundacionais (agora parte do Treinamento de Modelos do Databricks) no Azure Databricks permite personalizar LLMs (modelos de linguagem de grande porte) usando seus próprios dados. Esse processo envolve o ajuste refinado do treinamento de um modelo de fundação pré-existente, o que reduz significativamente os dados, o tempo e os recursos de computação necessários em comparação ao treinamento de um modelo do zero. Os principais recursos incluem:

Ajuste de instrução: Adapte seu modelo a novas tarefas treinando com dados de prompt-response estruturados.
Pré-treinamento contínuo: aprimore o modelo com dados de texto adicionais para adicionar conhecimentos ou focar em um domínio específico.
Conclusão de chat: treine seu modelo em registros de chat para aprimorar as habilidades de conversação.

Exemplos de bibliotecas de software livre

Confira exemplos de treinamento de aprendizado de máquina em uma ampla variedade de bibliotecas de aprendizado de máquina de software livre, incluindo exemplos de ajuste de hiperparâmetros usando Optuna e Hyperopt.

Aprendizado profundo

Veja exemplos e práticas recomendadas para treinamento de aprendizado profundo distribuído para desenvolver e ajustar modelos de aprendizado profundo no Azure Databricks.

Recomendações

Saiba como treinar modelos de recomendação baseados em aprendizado profundo no Azure Databricks. Em comparação com os modelos de recomendação tradicionais, os modelos de aprendizado profundo podem obter resultados de maior qualidade e ser dimensionados para grandes quantidades de dados.

Comentários

Esta página foi útil?

Last updated on 2026-06-01