Configurar um ambiente de desenvolvimento com o Azure Databricks e o AutoML no Azure Machine Learning

2025-01-23

Importante

Este artigo fornece informações sobre como usar o SDK do Azure Machine Learning v1. O SDK v1 foi preterido a partir de 31 de março de 2025. O apoio terminará em 30 de junho de 2026. Você pode instalar e usar o SDK v1 até essa data.

Recomendamos a transição para o SDK v2 antes de 30 de junho de 2026. Para obter mais informações sobre o SDK v2, consulte O que é a CLI do Azure Machine Learning e o SDK do Python v2? e a referência do SDK v2.

Saiba como configurar um ambiente de desenvolvimento no Azure Machine Learning que usa o Azure Databricks e o ML automatizado.

O Azure Databricks é ideal para executar fluxos de trabalho intensivos de aprendizagem automática em grande escala na plataforma escalável Apache Spark na nuvem do Azure. Ele fornece um ambiente colaborativo baseado em Notebook com um recurso de computação baseado em CPU ou GPU.

Para obter informações sobre outros ambientes de desenvolvimento de aprendizado de máquina, consulte Configurar ambiente de desenvolvimento Python.

Pré-requisito

Espaço de trabalho do Azure Machine Learning. Para criar um, use as etapas no artigo Criar recursos do espaço de trabalho.

Azure Databricks com Azure Machine Learning e AutoML

O Azure Databricks integra-se com o Azure Machine Learning e as suas capacidades de AutoML.

Você pode usar o Azure Databricks:

Para treinar um modelo usando o Spark MLlib e implantar o modelo no ACI/AKS.
Com recursos de aprendizado de máquina automatizados usando um SDK do Azure Machine Learning.
Como um destino de computação de um pipeline do Azure Machine Learning.

Configurar a computação do Databricks

Crie um recurso de computação Databricks. Algumas configurações se aplicam somente se você instalar o SDK para aprendizado de máquina automatizado no Databricks.

Leva alguns minutos para criar o recurso de computação.

Utilize estas definições:

Definição	Aplica-se a	Valor
Nome do computador	sempre	seunomecomputadorizado
Versão do Databricks Runtime	sempre	9,1 LTS
Versão de Python	sempre	3
Tipo de trabalhador (determina o máximo # de iterações simultâneas)	ML Automatizado apenas	VM otimizada para memória preferida
Trabalhadores	sempre	2 ou superior
Ativar o Dimensionamento Automático	ML Automatizado apenas	Desselecionar

Aguarde até que a computação esteja em execução antes de prosseguir.

Adicionar o SDK do Azure Machine Learning ao Databricks

Quando a computação estiver em execução, crie uma biblioteca para anexar o pacote apropriado do SDK do Azure Machine Learning à sua computação.

Para usar ML automatizado, pule para Adicionar o SDK do Azure Machine Learning com AutoML.

Clique com o botão direito do rato na pasta de Espaço de Trabalho atual onde pretende armazenar a biblioteca. Selecione Criar>biblioteca.

Gorjeta

Se você tiver uma versão antiga do SDK, desmarque-a das bibliotecas instaladas da computação e vá para a lixeira. Instale a nova versão do SDK e reinicie a computação. Se houver um problema após a reinicialização, desanexe e reanexe sua computação.
Escolha a seguinte opção (nenhuma outra instalação do SDK é suportada):

Extras do pacote SDK Origem Nome PyPi

Para Databricks Carregar Python Egg ou PyPI Azureml-SDK[DataBricks]

Aviso

Nenhum outro extra SDK pode ser instalado. Escolha apenas a opção [databricks] .
- Não selecione Anexar automaticamente a todos os cálculos.
- Selecione Anexar ao lado do nome da computação.
Monitore erros até que o status mude para Anexado, o que pode levar vários minutos. Se este passo falhar:

Tente reiniciar a computação da seguinte forma:
1. No painel esquerdo, selecione Computar.
2. Na tabela, selecione seu nome de computação.
3. Na guia Bibliotecas, selecione Reiniciar.
Uma instalação bem-sucedida mostrará Instalado na coluna de status.

Extras do pacote SDK	Origem	Nome PyPi
Para Databricks	Carregar Python Egg ou PyPI	Azureml-SDK[DataBricks]

Adicionar o SDK do Azure Machine Learning com AutoML ao Databricks

Se a computação tiver sido criada com o Databricks Runtime 7.3 LTS (não ML), execute o seguinte comando na primeira célula do seu bloco de anotações para instalar o SDK do Azure Machine Learning.

%pip install --upgrade --force-reinstall -r https://aka.ms/automl_linux_requirements.txt

Configurações de configuração do AutoML

Na configuração do AutoML, ao usar o Azure Databricks, adicione os seguintes parâmetros:

max_concurrent_iterations é baseado no número de nós de trabalho em sua computação.
spark_context=sc baseia-se no contexto de faísca padrão.

Blocos de anotações de ML que funcionam com o Azure Databricks

Experimente:

Embora muitos blocos de anotações de exemplo estejam disponíveis, apenas esses blocos de anotações de exemplo funcionam com o Azure Databricks.
Importe estes exemplos diretamente do seu espaço de trabalho:
1. No espaço de trabalho, clique com o botão direito do mouse em uma pasta e selecione Importar.
2. Especifique a URL ou navegue até um arquivo que contenha um formato externo suportado ou um arquivo ZIP de blocos de anotações exportados de um espaço de trabalho Databricks.
3. Selecione Importar.
Saiba como criar um pipeline com Databricks como computação de treinamento.

Resolução de Problemas

O Databricks cancela uma execução de aprendizado de máquina automatizado: quando você usa recursos de aprendizado de máquina automatizados no Azure Databricks, para cancelar uma execução e iniciar uma nova execução de experimento, reinicie a computação do Azure Databricks.
Databricks >10 iterações para aprendizado de máquina automatizado: em configurações de aprendizado de máquina automatizado, se você tiver mais de 10 iterações, defina show_output como False quando enviar a execução.
Widget Databricks para o SDK do Azure Machine Learning e aprendizado de máquina automatizado: o widget SDK do Azure Machine Learning não é suportado em um bloco de anotações Databricks porque os blocos de anotações não podem analisar widgets HTML. Você pode exibir o widget no portal usando este código Python na célula do bloco de anotações do Azure Databricks:
```
displayHTML("<a href={} target='_blank'>Azure Portal: {}</a>".format(local_run.get_portal_url(), local_run.id))
```
Falha ao instalar pacotes

A instalação do SDK do Azure Machine Learning falha no Azure Databricks quando mais pacotes são instalados. Alguns pacotes, como psutilo , podem causar conflitos. Para evitar erros de instalação, instale pacotes congelando a versão da biblioteca. Esse problema está relacionado ao Databricks e não ao SDK do Azure Machine Learning. Você também pode enfrentar esse problema com outras bibliotecas. Exemplo:
```
psutil cryptography==1.5 pyopenssl==16.0.0 ipython==2.2.0
```
Como alternativa, você pode usar scripts init se continuar enfrentando problemas de instalação com bibliotecas Python. Esta abordagem não é oficialmente suportada. Para obter mais informações, consulte Scripts de inicialização com escopo de cluster.
Erro de importação: não é possível importar o nome Timedelta de : Se vir este erro quando utilizar a aprendizagem automática automática, execute as duas linhas seguintes no seu bloco de pandas._libs.tslibsnotas:
```
%sh rm -rf /databricks/python/lib/python3.7/site-packages/pandas-0.23.4.dist-info /databricks/python/lib/python3.7/site-packages/pandas
%sh /databricks/python/bin/pip install pandas==0.23.4
```
Erro de importação: Nenhum módulo chamado 'pandas.core.indexes': Se você vir esse erro ao usar o aprendizado de máquina automatizado:
1. Execute este comando para instalar dois pacotes em sua computação do Azure Databricks:
```
scikit-learn==0.19.1
pandas==0.22.0
```
2. Desanexe e reanexe o computador ao seu bloco de anotações.
Se estas etapas não resolverem o problema, tente reiniciar a computação.
FailToSendFeather: Se você vir um FailToSendFeather erro ao ler dados na computação do Azure Databricks, consulte as seguintes soluções:
- Atualize azureml-sdk[automl] o pacote para a versão mais recente.
- Adicione a azureml-dataprep versão 1.1.8 ou superior.
- Adicione a pyarrow versão 0.11 ou superior.

Próximos passos

Treine e implante um modelo no Azure Machine Learning com o conjunto de dados MNIST.
Consulte a referência do SDK do Azure Machine Learning para Python.