Usar o Estúdio do Azure Machine Learning em uma rede virtual do Azure

Dica

A Microsoft recomenda usar redes virtuais gerenciadas do Azure Machine Learning em vez das etapas neste artigo. Com uma rede virtual gerenciada, o Azure Machine Learning lida com o trabalho de isolamento da rede para seu workspace e computação gerenciada. Você também pode adicionar pontos de extremidade privados para os recursos necessários para o workspace, como uma Conta de Armazenamento do Azure. Para obter mais informações, confira Isolamento de rede gerenciada no workspace.

Este artigo explica como usar o Estúdio do Azure Machine Learning em uma rede virtual. O estúdio inclui recursos como AutoML, designer e rotulagem de dados.

Alguns dos recursos do estúdio estão desabilitados por padrão em uma rede virtual. Para reabilitar essas recursos, você deve habilitar a identidade gerenciada para as contas de armazenamento que pretende usar no estúdio.

As seguintes operações estão desabilitadas por padrão em uma rede virtual:

  • Visualizar dados no estúdio.
  • Visualizar dados no designer.
  • Implantar um modelo no designer.
  • Enviar um experimento do AutoML.
  • Iniciar um projeto de rotulagem.

O estúdio dá suporte à leitura de dados dos seguintes tipos de armazenamento de dados em uma rede virtual:

  • Conta de Armazenamento do Azure (arquivo e blob)
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Banco de Dados SQL do Azure

Neste artigo, você aprenderá como:

  • Conceda ao estúdio acesso aos dados armazenados dentro de uma rede virtual.
  • Acesse o estúdio de um recurso dentro de uma rede virtual.
  • Entenda como o Estúdio afeta a segurança do armazenamento.

Pré-requisitos

Limitações

Conta de Armazenamento do Azure

  • Quando a conta de armazenamento está na rede virtual, há requisitos extras de validação para usar o Estúdio:

    • Se a conta de armazenamento usar um ponto de extremidade de serviço, o ponto de extremidade privado do workspace e o ponto de extremidade de serviço de armazenamento deverão estar na mesma sub-rede da rede virtual.
    • Se a conta de armazenamento usar um ponto de extremidade privado, o ponto de extremidade privado do workspace e o ponto de extremidade privado de armazenamento deverão estar na mesma rede virtual. Nesse caso, eles podem estar em sub-redes diferentes.

Pipeline de exemplo do Designer

Há um problema conhecido em que os usuários não podem executar um pipeline de exemplo na home page do designer. Esse problema ocorre porque o conjunto de dados de exemplo usado no pipeline de exemplo é um conjunto de dados global do Azure. Ele não pode ser acessado de um ambiente de rede virtual.

Para resolver esse problema, use um workspace público para executar o pipeline de exemplo. Ou substitua o conjunto de dados de exemplo pelo seu próprio conjunto de dados no workspace dentro de uma rede virtual.

Armazenamento de dados: conta de Armazenamento do Azure

Use as seguintes etapas para habilitar o acesso aos dados armazenados no Armazenamento de Arquivos e Blobs do Azure:

Dica

A primeira etapa não é necessária para a conta de armazenamento padrão do workspace. Todas as outras etapas são necessárias para qualquer conta de armazenamento que esteja protegida pela VNet e seja usada pelo workspace, incluindo a conta de armazenamento padrão.

  1. Se a conta de armazenamento for o armazenamento padrão do workspace, ignore esta etapa. Se ela não for o padrão, conceda à identidade gerenciada pelo workspace a função Leitor de Dados do Blob de Armazenamento na conta de armazenamento do Azure para que ela possa ler os dados do Armazenamento de Blobs.

    Para obter mais informações, confira a função interna Leitor de Dados do Blob.

  2. Conceda à sua identidade de usuário do Azure a função de Leitor de Dados de Armazenamento de Blobs, para a conta de armazenamento do Azure. O estúdio usa sua identidade para acessar dados ao armazenamento de blobs, mesmo que a identidade gerenciada do espaço de trabalho tenha a função de Leitor.

    Para obter mais informações, confira a função interna Leitor de Dados do Blob.

  3. Conceda à identidade gerenciada pelo workspace a função Leitor em pontos de extremidade privados de armazenamento. Se o serviço de armazenamento usar um ponto de extremidade privado, conceda à identidade gerenciada pelo workspace o acesso de Leitor no ponto de extremidade privado. A identidade gerenciada do workspace no Microsoft Entra ID tem o mesmo nome do workspace do Azure Machine Learning. Um ponto de extremidade privado é necessário para tipos de armazenamento de blob e de arquivo.

    Dica

    Sua conta de armazenamento pode ter vários pontos de extremidade privados. Por exemplo, uma conta de armazenamento pode ter um ponto de extremidade privado separado para blobs, arquivos e dfs (Azure Data Lake Storage Gen2). Adicione a identidade gerenciada a todos esses pontos de extremidade.

    Para obter mais informações, confira a função interna de Leitor.

  4. Habilite a autenticação de identidade gerenciada em contas de armazenamento padrão. Cada workspace do Azure Machine Learning tem duas contas de armazenamento padrão, uma conta de armazenamento de Blobs padrão e uma conta de armazenamento de arquivo padrão. Ambos são definidos quando você cria seu workspace. Você também pode definir novos padrões na página de gerenciamento do Armazenamento de dados.

    Captura de tela mostrando em que local os armazenamentos de dados padrão podem ser encontrados.

    A tabela a seguir descreve o motivo pelo qual a autenticação de identidade gerenciada é usada nas suas contas de armazenamento padrão do workspace.

    Conta de armazenamento Observações
    Armazenamento de blobs padrão do workspace Armazena ativos de modelo do designer. Habilite a autenticação de identidade gerenciada nessa conta de armazenamento para implantar modelos no designer. Se a autenticação de identidade gerenciada estiver desabilitada, a identidade do usuário será usada para acessar os dados armazenados no blob.

    Você pode visualizar e executar um pipeline de designer se ele usa um armazenamento de dados não padrão configurado para usar a identidade gerenciada. No entanto, se você tentar implantar um modelo treinado sem identidade gerenciada habilitada no armazenamento de dados padrão, a implantação falhará independentemente de todos os outros armazenamentos de dados em uso.
    Armazenamento de arquivos padrão do workspace Armazena ativos de experimento do AutoML. Habilite a autenticação de identidade gerenciada nessa conta de armazenamento para enviar experimentos do AutoML.
  5. Configure os armazenamentos de dados para usar a autenticação de identidade gerenciada. Depois de adicionar uma conta de armazenamento do Azure à sua rede virtual com um ponto de extremidade de serviço ou ponto de extremidade privado, você deve configurar seu armazenamento de dados para usar a autenticação de identidade gerenciada. Isso permite que o estúdio acesse dados em sua conta de armazenamento.

    O Azure Machine Learning usa armazenamentos de dados para se conectar às contas de armazenamento. Ao criar um armazenamento de dados, use as seguintes etapas para configurar um armazenamento de dados de modo que ele use a autenticação de identidade gerenciada:

    1. No estúdio, selecione Armazenamentos de dados.

    2. Para criar um novo armazenamento de dados, selecione + Criar.

    3. Nas configurações do armazenamento de dados, selecione ative a opção Usar a identidade gerenciada do workspace para visualização e criação de perfil no Estúdio do Azure Machine Learning.

      Captura de tela mostrando como habilitar a identidade do espaço de trabalho gerenciado.

    4. Nas configurações de rede da Conta de Armazenamento do Azure, adicione o Microsoft.MachineLearningService/workspacesTipo de recurso e defina o Nome da instância para o workspace.

    Essas etapas adicionam a identidade gerenciada pelo workspace como um Leitor ao novo serviço de armazenamento usando o RBAC (controle de acesso baseado em função) do Azure. O acesso como Leitor permite ao workspace ver os recursos, mas não a fazer alterações.

Armazenamento de dados: Azure Data Lake Storage Gen1

Ao usar o Azure Data Lake Storage Gen1 como um armazenamento de dados, você só pode usar listas de controle de acesso no estilo POSIX. Você pode atribuir o acesso de identidade gerenciada do workspace a recursos assim como qualquer outra entidade de segurança. Para obter mais informações, confira Controle de acesso no Azure Data Lake Storage Gen1.

Armazenamento de dados: Azure Data Lake Storage Gen2

Ao usar o Azure Data Lake Storage Gen2 como um armazenamento de dados, você pode usar as ACLs (listas de controle de acesso) no estilo POSIX e RBAC do Azure para controlar o acesso a dados em uma rede virtual.

Para usar o RBAC do Azure, siga as etapas na seção Armazenamento de dados: conta de Armazenamento do Azure deste artigo. O Data Lake Storage Gen2 é baseado no Armazenamento do Azure, portanto, as mesmas etapas se aplicam ao usar o RBAC do Azure.

Para usar ACLs, a identidade gerenciada pelo workspace pode ter acesso atribuído, assim como qualquer outra entidade de segurança. Para obter mais informações, confira Listas de controle de acesso em arquivos e diretórios.

Armazenamento de dados: Banco de Dados SQL do Azure

Para acessar os dados armazenados em um Banco de Dados SQL do Azure com uma identidade gerenciada, você precisa criar um usuário contido no SQL que seja mapeado para a identidade gerenciada. Para obter mais informações sobre como criar um usuário de um provedor externo, confira Criar usuários independentes mapeados para identidades do Microsoft Entra.

Depois de criar um usuário contido no SQL, conceda permissões a ele usando o comando GRANT T-SQL.

Saída do componente intermediário

Ao usar a saída do componente intermediário do Azure Machine Learning Designer, você pode especificar a localização de saída para qualquer componente no designer. Use essa saída para armazenar conjuntos de registros intermediários em local separado para fins de auditoria, segurança e log. Para especificar a saída, use as seguintes etapas:

  1. Selecione o componente cuja saída você gostaria de especificar.
  2. No painel de configurações do componente, selecione Configurações de saída.
  3. Especifique o armazenamento de dados que você deseja usar para cada saída do componente.

Verifique se você tem acesso às contas de armazenamento intermediário em sua rede virtual. Caso contrário, o pipeline falhará.

Habilite a autenticação de identidade gerenciada em contas de armazenamento intermediárias para visualizar os dados de saída.

Acessar o estúdio de um recurso dentro da VNet

Se você acessa o estúdio de um recurso dentro de uma rede virtual (por exemplo, uma instância de computação ou máquina virtual), deve permitir o tráfego de saída da rede virtual para o estúdio.

Por exemplo, se você usa NSG (grupos de segurança de rede) para restringir o tráfego de saída, adicione uma regra a um destino de marca de serviço de AzureFrontDoor.Frontend.

Configurações de firewall

Alguns serviços de armazenamento, como a Conta de Armazenamento do Azure, têm configurações de firewall que se aplicam ao ponto de extremidade público para essa instância de serviço específico. Normalmente, essa configuração permite a você liberar ou não o acesso de endereços específicos de IP da Internet pública. Isso não é suportado pelo estúdio do Azure Machine Learning. Há suporte ao usar o SDK ou a CLI do Azure Machine Learning.

Dica

Há suporte para o estúdio do Azure Machine Learning quando usado com o serviço de Firewall do Azure. Para obter mais informações, veja Configurar o tráfego de entrada e saída.

Este artigo faz parte de uma série sobre como proteger um fluxo de trabalho do Azure Machine Learning. Confira os outros artigos desta série: