Criar um cluster de computação do Azure Machine Learning

Artigo
02/02/2024

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)SDK do Python azure-ai-ml v2 (atual)

Este artigo explica como criar e gerenciar um cluster de computação no seu workspace do Azure Machine Learning.

É possível usar um cluster de cálculo do Azure Machine Learning para distribuir o um processo de treinamento ou lote de inferência em um cluster de nós de computação de CPU ou GPU na nuvem. Para obter mais informações sobre os tamanhos de máquina virtual que incluem GPUs, consulte os Tamanhos de máquinas virtuais com GPU otimizadas.

Saiba como:

Criar um cluster de cálculo.
Reduza o custo do cluster do seu computação com VMs de baixa prioridade.
Configure uma identidade gerenciada para o cluster.

Observação

Em vez de criar um cluster de cálculo, use a computação sem servidor para descarregar o gerenciamento do ciclo de vida da computação para o Azure Machine Learning.

Pré-requisitos

Um Workspace do Azure Machine Learning. Para obter mais informações, confira Gerenciar workspaces do Azure Machine Learning.
A Extensão da CLI do Azure para o serviço do Machine Learning (v2), o SDK de Python do Azure Machine Learning ou a Extensão do Visual Studio Code do Azure Machine Learning.
Ao usar o SDK de Python, configure o seu ambiente de desenvolvimento com um workspace. Depois de configurar o ambiente, conecte-o ao workspace do seu script Python:

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

Execute esse código para se conectar ao workspace do Azure ML.

Substitua a ID da Assinatura, o nome do Grupo de Recursos e o nome do Espaço de Trabalho no código abaixo. Para encontrar esses valores:
1. Entre no Estúdio do Azure Machine Learning.
2. Abra o espaço de trabalho que você deseja usar.
3. Na barra de ferramentas do Estúdio do Azure Machine Learning superior direito, selecione o nome do espaço de trabalho.
4. Copie o valor do workspace, do grupo de recursos e da ID da assinatura no código.
5. Se você estiver usando um bloco de anotações dentro do estúdio, precisará copiar um valor, fechar a área e colar e, em seguida, retornar para o próximo.
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client é um manipulador para o espaço de trabalho que você usará para gerenciar outros recursos e trabalhos.

O que é um cluster de cálculo?

Um cluster de cálculo do Machine Learning do Azure é uma infraestrutura de computação gerenciada que permite ao que você crie facilmente uma computação de um ou vários nós. O cluster de cálculo é um recurso que pode ser compartilhado com outros usuários de seu workspace. A computação escala verticalmente e automaticamente quando um trabalho é enviado e pode ser colocada em uma Rede Virtual do Azure. O cluster de computação também não é compatível com a implantação de IP público na rede virtual. A computação é executada em um ambiente em contêineres, empacotando as dependências do modelo em um contêiner do Docker.

Os clusters de cálculo podem executar trabalhos com segurança em uma rede virtual gerenciada ou em uma rede virtual do Azure, sem exigir que as empresas abram portas SSH. O trabalho é executado em um ambiente de contêineres e empacota as dependências do modelo em um contêiner do Docker.

Limitações

É possível criar clusters de cálculo em uma região diferente da região de seu workspace. Essa funcionalidade está disponível apenas para clusters de computação, não para instâncias de computação.

Aviso

Ao usar um cluster de computação em uma região diferente da do seu espaço de trabalho ou datastores, você poderá observar um aumento na latência da rede e nos custos de transferência de dados. A latência e os custos podem ocorrer ao criar o cluster e ao executar trabalhos nele.
A Computação do Machine Learning do Azure tem limites padrão como o número de núcleos que podem ser alocados. Para obter mais informações, consulte Gerenciar e solicitar cotas para recursos do Azure.
O Azure permite que você coloque bloqueios nos recursos, para que eles não possam ser excluídos ou sejam somente leitura. Não aplique bloqueios de recurso ao grupo de recursos que contém seu workspace. A aplicação de um bloqueio ao grupo de recursos que contém seu espaço de trabalho impede operações de dimensionamento para clusters de cálculo do Azure Machine Learning. Para saber mais sobre como bloquear recursos, confira Bloquear recursos para impedir alterações inesperadas.

Criar

Estimativa de tempo: aproximadamente cinco minutos.

Observação

Se você usar a computação sem servidor, não precisará criar um cluster de computação.

Uma Computação do Azure Machine Learning pode ser reutilizada entre execuções. A computação pode ser compartilhada com outros usuários no workspace e é mantida entre execuções, dimensionando automaticamente os nós para cima ou para baixo com base no número de execuções enviadas e no max_nodes definido no seu cluster. A configuração de min_nodes controla os nós mínimos disponíveis.

Os núcleos dedicados por região por cota de família de VM e cota regional total, que se aplicam à criação de cluster de cálculo, são unificados e compartilhados com a cota de instância de cálculo de treinamento do Azure Machine Learning.

Importante

Para evitar cobranças quando nenhum trabalho estiver em execução, defina os nós mínimos para 0. Essa configuração permite que o Azure Machine Learning desaloque os nós quando eles não estiverem em uso. Qualquer valor maior que 0 manterá esse número de nós em execução, mesmo se eles não estiverem em uso.

A computação é reduzida automaticamente até zero nó quando não é usada. VMs dedicadas são criadas para executar seus trabalhos conforme necessário.

Use os exemplos a seguir para criar um cluster de computação:

Para criar um recurso de persistente de Computação do Azure Machine Learning no Python, especifique as propriedades size e max_instances. O Azure Machine Learning usará padrões inteligentes para o restante das propriedades.

tamanho: a família de VMs dos nós criados pela Computação do Azure Machine Learning.
max_instances: o número máximo de nós para dimensionar automaticamente até quando você executa um trabalho na Computação do Azure Machine Learning.

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

from azure.ai.ml.entities import AmlCompute

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="westus",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic).result()

Também é possível configurar várias propriedades avançadas ao criar a Computação do Azure Machine Learning. Essas propriedades permitem que criar um cluster persistente de tamanho fixo ou dentro de uma Rede Virtual do Azure existente na assinatura. Veja AmlCompute classe para obter detalhes.

Aviso

Ao definir o parâmetro location, se for uma região diferente da do workspace ou dos armazenamentos de dados, você poderá ver um aumento da latência de rede e dos custos de transferência de dados. A latência e os custos podem ocorrer ao criar o cluster e ao executar trabalhos nele.

APLICA-SE A:Extensão do ML da CLI do Azure v2 (atual)

az ml compute create -f create-cluster.yml

Em que o arquivo create-cluster.yml é:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: location-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
location: westus

Aviso

Ao usar um cluster de computação em uma região diferente do workspace ou armazenamentos de dados, você poderá ver um aumento da latência de rede e dos custos de transferência de dados. Pode haver latência e custos ao criar o cluster e ao executar trabalhos nele.

Crie um cluster de computação de vários nós ou único para suas cargas de trabalho de treinamento, inferência em lote ou aprendizado de reforço.

Link para o estúdio do Azure Machine Learning.
Em Gerenciar, selecione Computação.
Se você não tiver recursos de computação, selecione Criar no meio da página.
Se você vir uma lista de recursos de computação, selecione +Novo acima da lista.
Nas guias na parte superior, selecione cluster de computação.

Em seguida, preencha o formulário conforme segue:

Campo	Descrição
Location	A região do Azure em que o cluster de cálculo é criado. Por padrão, é o mesmo local do workspace. Se você não tiver cota suficiente na região padrão, mude para uma região diferente para ter mais opções. Ao usar uma região diferente da do workspace ou dos armazenamentos de dados, você poderá ver um aumento da latência de rede e dos custos de transferência de dados. Pode haver latência e custos ao criar o cluster e ao executar trabalhos nele.
Tipo de máquina virtual	Escolha CPU ou GPU. Esse tipo não pode ser alterado após a criação.
Prioridade de máquina virtual	Escolha Dedicado ou Baixa prioridade. As máquinas virtuais com baixa prioridade são as mais baratas, mas não garantem os nós de computação. Seu trabalho pode ser preemptado.
Tamanho da máquina virtual	Os tamanhos de máquina virtual com suporte podem ser restritos na região. Conferir a lista de disponibilidade

Selecione Avançar para prosseguir para Configurações avançadas e preencha o formulário da seguinte maneira:

Campo	Descrição
Nome da computação	* O nome é obrigatório e precisa ter entre 3 e 24 caracteres. * Os caracteres válidos são letras maiúsculas e minúsculas, dígitos e o caractere -. * O nome deve começar com uma letra. * O nome precisa ser exclusivo em todas as computações existentes em uma região do Azure. Você verá um alerta se o nome escolhido não for exclusivo. * Se - caractere for usado, ele precisará ser seguido por pelo menos uma letra posteriormente no nome.
Número mínimo de nós	Número mínimo de nós que você deseja provisionar. Se você quiser um número dedicado de nós, defina essa contagem aqui. Economize dinheiro definindo o mínimo como 0, para que você não pague por nenhum nó quando o cluster estiver ocioso.
Número máximo de nós	Número máximo de nós que você deseja provisionar. A computação é dimensionada automaticamente para um máximo dessa contagem de nós quando um trabalho é enviado.
Segundos de espera antes de reduzir verticalmente	Tempo ocioso antes de reduzir o cluster para a contagem mínima de nó.
Habilitar acesso SSH	Use as mesmas instruções que Habilitar de acesso SSH para uma instância de computação.
Configurações avançadas	Opcional. Defina as configurações de rede. * Se for uma Rede Virtual do Azure, especifique o Grupo de recursos, a Rede virtual e a Sub-rede para criar a instância de computação dentro da rede. Para obter mais informações, consulte requisitos de rede. * Se for uma Rede gerenciada do Azure Machine Learning, o cluster de cálculo está automaticamente na rede gerenciada. Para obter mais informações, consulte computação gerenciada com uma rede gerenciada. * Nenhum IP público configura se o cluster de cálculo tem um endereço IP público quando está em uma rede. * Atribuir uma identidade gerenciada para conceder acesso aos recursos.

Selecione Criar.

Habilitar acesso SSH

O acesso SSH está desabilitado por padrão. O acesso SSH não poderá ser alterado após a criação. Habilite o acesso se você planeja depurar interativamente com o VS Code Remote.

Depois de selecionar Próximo: Configurações avançadas:

Ative Habilitar acesso SSH.
Em Origem de chave pública SSH, selecione uma das opções na lista suspensa:
- Se você Gerar um novo par de chaves:
  1. Insira um nome para a chave em Nome do par de chaves.
  2. Selecione Criar.
  3. Selecione Baixar chave privada e criar computação. Geralmente, a chave é baixada na pasta Downloads.
- Se você selecionar Usar chave pública existente armazenada no Azure, procure e selecione a chave em Chave armazenada.
- Se você selecionar Usar chave pública existente, forneça uma chave pública RSA no formato de linha única (começando com "ssh-rsa") ou o formato PEM de várias linhas. É possível gerar chaves SSH usando ssh-keygen no Linux e no OS X, ou PuTTYGen no Windows.

Conexão com o acesso SSH

Depois de criar uma computação com acesso SSH habilitado, use estas etapas para acesso.

Encontre a computação nos recursos do workspace:
1. Selecione Computação à esquerda.
2. Use as guias na parte superior para selecionar Instância de computação ou Cluster de computação e encontrar o computador.
Selecione o nome da computação na lista de recursos.
Encontre a cadeia de conexão:
- Para uma instância de computação, selecione Conexão na parte superior da seção Detalhes.
- Para um cluster de computação, clique em Nós na parte superior e, em seguida, selecione a Cadeia de conexão na tabela do nó.
Copie a cadeia de conexão.
No Windows, abra o PowerShell ou um prompt de comando:
1. Acesse o diretório ou a pasta em que a chave está armazenada
2. Adicione o sinalizador -i à cadeia de conexão para localizar a chave privada e apontar para onde ela está armazenada:
  
  ssh -i <keyname.pem> azureuser@... (rest of connection string)
Para usuários do Linux, siga as etapas em Criar e usar um par de chaves SSH para VMs do Linux no Azure
Para uso de SCP:

scp -i key.pem -P {port} {fileToCopyFromLocal } azureuser@yourComputeInstancePublicIP:~/{destination}

Reduzir o custo do cluster de cálculo com VMs de baixa prioridade

Você também pode optar por usar VMs de baixa prioridade para executar algumas ou todas as suas cargas de trabalho. Essas VMs não têm disponibilidade garantida e podem ser substituídas enquanto estiverem em uso. Você precisa reiniciar um trabalho substituído.

O uso de Máquinas Virtuais de baixa prioridade do Azure permite aproveitar a capacidade não usada do Azure com uma economia de custos significativa. A qualquer momento, quando o Azure precisar da capacidade de volta, a infraestrutura do Azure remove as Máquinas Virtuais de Baixa Prioridade do Azure. Portanto, a Máquinas Virtual de Baixa Prioridade do Azure é excelente para cargas de trabalho que podem lidar com interrupções. A quantidade de capacidade disponível pode variar com base no tamanho, região, hora do dia e etc. Ao implantar Máquinas Virtuais de Baixa Prioridade do Azure, o Azure aloca as VMs se houver capacidade disponível, mas não há SLA para essas VMs. Uma Máquina Virtual de baixa prioridade do Azure não oferece garantias de alta disponibilidade. A qualquer momento, quando o Azure precisar da capacidade de volta, a infraestrutura do Azure remove as Máquinas Virtuais de Baixa Prioridade do Azure.

Use uma dessas formas para especificar uma VM de baixa prioridade:

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

from azure.ai.ml.entities import AmlCompute

cluster_low_pri = AmlCompute(
    name="low-pri-example",
    size="STANDARD_DS3_v2",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
    tier="low_priority",
)
ml_client.begin_create_or_update(cluster_low_pri).result()

APLICA-SE A:Extensão do ML da CLI do Azure v2 (atual)

Defina o vm-priority:

az ml compute create -f create-cluster.yml

Em que o arquivo create-cluster.yml é:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

Observação

Se você usar a computação sem servidor, não precisará criar um cluster de computação. Para especificar uma computação sem servidor de baixa prioridade, defina como job_tierSpot nas configurações da fila.

Definir identidade gerenciada

Para obter informações sobre como configurar uma identidade gerenciada com seu cluster de computação, consulte Configurar a autenticação entre o Azure Machine Learning e outros serviços.

Solução de problemas

Há uma chance de que alguns usuários que criaram seu workspace do Azure Machine Learning no portal do Azure antes da versão GA não consigam criar a AmlCompute nesse workspace. Você pode gerar uma solicitação de suporte no serviço ou criar um novo workspace por meio do portal ou do SDK para desbloqueio imediato.

Importante

Se sua instância de computação ou clusters de computação forem baseados em alguma dessas séries, recrie com outro tamanho de VM antes da data de desativação para evitar a interrupção do serviço.

Essas séries serão desativadas em 31 de agosto de 2023:

Essas séries serão desativadas em 31 de agosto de 2024:

Preso no redimensionamento

Se o cluster de computação do Azure Machine Learning aparecer preso no redimensionamento (0 –> 0) no estado do nó, os bloqueios de recursos do Azure poderão ser a causa.

O Azure permite que você coloque bloqueios em recursos, para que eles não possam ser excluídos ou sejam somente leitura. O bloqueio de um recurso pode levar a resultados inesperados. Algumas operações que parecem não modificar o recurso, na verdade, requerem ações que são bloqueadas pelo bloqueio.

Com o Azure Machine Learning, aplicar um bloqueio de exclusão ao grupo de recursos do seu espaço de trabalho impedirá operações de dimensionamento para clusters de computação do Azure ML. Para contornar esse problema, é recomendável remover o bloqueio do grupo de recursos e, em vez disso, aplicá-lo a itens individuais no grupo.

Importante

Não aplique o bloqueio aos seguintes recursos:

Nome do recurso	Tipo de recurso
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	Grupo de segurança de rede
`<GUID>-azurebatch-cloudservicepublicip`	Endereço IP público
`<GUID>-azurebatch-cloudserviceloadbalancer`	Balanceador de carga

Esses recursos são usados para se comunicar com o e executar operações como o dimensionamento no cluster de computação. A remoção do bloqueio de recursos desses recursos deve permitir o dimensionamento automático para seus clusters de computação.

Para obter mais informações sobre como bloquear recursos, consulte Bloquear recursos para evitar alterações inesperadas.

Próxima etapa

Use o cluster de cálculo para:

Criar um cluster de computação do Azure Machine Learning

Pré-requisitos

O que é um cluster de cálculo?

Limitações

Criar

Reduzir o custo do cluster de cálculo com VMs de baixa prioridade

Definir identidade gerenciada

Solução de problemas

Preso no redimensionamento

Próxima etapa

Recursos adicionais