Editar

Ambiente de pesquisa seguro para dados regulamentados

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

Esta arquitetura mostra um ambiente de pesquisa seguro destinado a permitir que os pesquisadores acessem dados sensíveis sob um nível mais alto de controle e proteção de dados. Este artigo é aplicável a organizações vinculadas à conformidade regulamentar ou a outros requisitos de segurança rigorosos.

Arquitetura

Diagrama de um ambiente de pesquisa seguro.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. Os proprietários de dados carregam conjuntos de dados em uma conta pública de armazenamento de blobs. Os dados são criptografados usando chaves gerenciadas pela Microsoft.

  2. O Azure Data Factory usa um gatilho que inicia a cópia do conjunto de dados carregado para um local específico (caminho de importação) em outra conta de armazenamento com controles de segurança. A conta de armazenamento só pode ser acessada por meio de um ponto de extremidade privado. Além disso, é acessado por uma entidade de serviço com permissões limitadas. O Data Factory exclui a cópia original, tornando o conjunto de dados imutável.

  3. Os pesquisadores acessam o ambiente seguro por meio de um aplicativo de streaming usando a Área de Trabalho Virtual do Azure como uma caixa de salto privilegiada.

  4. O conjunto de dados na conta de armazenamento seguro é apresentado às VMs de ciência de dados provisionadas em um ambiente de rede seguro para trabalhos de pesquisa. Grande parte da preparação de dados é feita nessas VMs.

  5. O ambiente seguro tem computação do Azure Machine Learning que pode acessar o conjunto de dados por meio de um ponto de extremidade privado para usuários para recursos do Azure Machine Learning, como treinar, implantar, automatizar e gerenciar modelos de aprendizado de máquina. Neste ponto, são criados modelos que atendem às diretrizes regulatórias. Todos os dados do modelo são desidentificados através da remoção de informações pessoais.

  6. Os modelos ou dados não identificados são salvos em um local separado no armazenamento seguro (caminho de exportação). Quando novos dados são adicionados ao caminho de exportação, um aplicativo lógico é acionado. Nessa arquitetura, o aplicativo lógico está fora do ambiente seguro porque nenhum dado é enviado para o aplicativo lógico. Sua única função é enviar notificação e iniciar o processo de aprovação manual.

    O aplicativo inicia um processo de aprovação solicitando uma revisão dos dados que estão na fila para serem exportados. Os revisores manuais garantem que dados confidenciais não sejam exportados. Após o processo de revisão, os dados são aprovados ou negados.

    Nota

    Se uma etapa de aprovação não for necessária na exfiltração, a etapa do aplicativo lógico poderá ser omitida.

  7. Se os dados não identificados forem aprovados, eles serão enviados para a instância do Data Factory.

  8. O Data Factory move os dados para a conta de armazenamento público em um contêiner separado para permitir que pesquisadores externos tenham acesso aos dados e modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança mais baixa.

Componentes

Essa arquitetura consiste em vários serviços do Azure que dimensionam recursos de acordo com a necessidade. Os serviços e suas funções são descritos abaixo. Para obter links para a documentação do produto para começar a usar esses serviços, consulte Próximas etapas.

Componentes principais da carga de trabalho

Aqui estão os principais componentes que movem e processam dados de pesquisa.

  • Máquina Virtual de Ciência de Dados do Azure (DSVM): VMs configuradas com ferramentas usadas para análise de dados e aprendizado de máquina.

  • Azure Machine Learning: usado para treinar, implantar, automatizar e gerenciar modelos de aprendizado de máquina e para gerenciar a alocação e o uso de recursos de computação de aprendizado de máquina.

  • Computação do Azure Machine Learning: um cluster de nós que são usados para treinar e testar modelos de aprendizado de máquina e IA. A computação é alocada sob demanda com base em uma opção de dimensionamento automático.

  • Armazenamento de Blob do Azure: há duas instâncias. A instância pública é usada para armazenar temporariamente os dados carregados pelos proprietários dos dados. Além disso, ele armazena dados desidentificados após a modelagem em um contêiner separado. A segunda instância é privada. Ele recebe os conjuntos de dados de treinamento e teste do Machine Learning que são usados pelos scripts de treinamento. O armazenamento é montado como uma unidade virtual em cada nó de um cluster de computação de Machine Learning.

  • Azure Data Factory: move automaticamente dados entre contas de armazenamento de diferentes níveis de segurança para garantir a separação de tarefas.

  • A Área de Trabalho Virtual do Azure é usada como uma caixa de salto para obter acesso aos recursos no ambiente seguro com aplicativos de streaming e uma área de trabalho completa, conforme necessário. Como alternativa, você pode usar o Azure Bastion. Mas, tenha uma compreensão clara das diferenças de controle de segurança entre as duas opções. O Ambiente de Trabalho Virtual tem algumas vantagens:

    • Capacidade de transmitir um aplicativo como o Microsoft Visual Studio Code para executar blocos de anotações em relação aos recursos de computação de aprendizado de máquina.
    • Capacidade de limitar cópias, colagens e capturas de tela.
    • Suporte para autenticação Microsoft Entra para DSVM.
  • Os Aplicativos Lógicos do Azure fornecem fluxo de trabalho de baixo código automatizado para desenvolver as partes de gatilho e liberação do processo de aprovação manual.

Componentes de gestão postural

Esses componentes monitoram continuamente a postura da carga de trabalho e seu ambiente. O objetivo é descobrir e mitigar riscos assim que eles são descobertos.

  • O Microsoft Defender for Cloud é usado para avaliar a postura geral de segurança da implementação e fornecer um mecanismo de atestado de conformidade regulamentar. Problemas encontrados anteriormente durante auditorias ou avaliações podem ser descobertos antecipadamente. Use recursos para acompanhar o progresso, como pontuação segura e pontuação de conformidade.

  • O Microsoft Sentinel é uma solução de Gerenciamento de Informações e Eventos de Segurança (SIEM) e de resposta automatizada de orquestração de segurança (orquestração de segurança, automação e resposta (SOAR)). Você pode visualizar centralmente logs e alertas de várias fontes e aproveitar a IA avançada e a análise de segurança para detetar, caçar, prevenir e responder a ameaças.

  • O Azure Monitor fornece observabilidade em todo o seu ambiente. Exiba métricas, logs de atividades e logs de diagnóstico da maioria dos seus recursos do Azure sem configuração adicional. As ferramentas de gerenciamento, como as do Microsoft Defender for Cloud, também enviam dados de log por push para o Azure Monitor.

Componentes de governação

  • A Política do Azure ajuda a impor padrões organizacionais e a avaliar a conformidade em escala.

Alternativas

  • Esta solução usa o Data Factory para mover os dados para a conta de armazenamento público em um contêiner separado, a fim de permitir que pesquisadores externos tenham acesso aos seus dados e modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança mais baixa.
  • Esta solução utiliza o Ambiente de Trabalho Virtual do Azure como uma caixa de salto para obter acesso aos recursos no ambiente seguro, com aplicações de streaming e um ambiente de trabalho completo. Como alternativa, você pode usar o Azure Bastion. Mas, a Área de Trabalho Virtual tem algumas vantagens, que incluem a capacidade de transmitir um aplicativo, limitar copiar/colar e capturas de tela e suportar autenticação AAC. Você também pode considerar configurar a VPN Ponto a Site para treinamento offline localmente. Isso também ajudará a economizar custos de ter várias VMs para estações de trabalho.
  • Para proteger os dados em repouso, esta solução encripta todo o Armazenamento do Azure com chaves geridas pela Microsoft utilizando encriptação forte. Como alternativa, você pode usar chaves gerenciadas pelo cliente. As chaves devem ser armazenadas em um armazenamento de chaves gerenciado.

Detalhes do cenário

Potenciais casos de utilização

Esta arquitetura foi originalmente criada para instituições de pesquisa de ensino superior com requisitos da Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA). No entanto, este design pode ser usado em qualquer indústria que exija isolamento de dados para perspetivas de pesquisa. Alguns exemplos incluem:

  • Indústrias que processam dados regulamentados de acordo com os requisitos do National Institute of Standards and Technology (NIST)
  • Centros médicos que colaboram com investigadores internos ou externos
  • Banca e finanças

Seguindo as orientações, você pode manter o controle total de seus dados de pesquisa, ter separação de tarefas e atender a rigorosos padrões de conformidade regulatória, ao mesmo tempo em que fornece colaboração entre as funções típicas envolvidas em uma carga de trabalho orientada para pesquisa; proprietários de dados, pesquisadores e aprovadores.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Segurança

A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.

O principal objetivo desta arquitetura é fornecer um ambiente de pesquisa seguro e confiável que limite estritamente a exfiltração de dados da área segura.

Segurança da rede

Os recursos do Azure usados para armazenar, testar e treinar conjuntos de dados de pesquisa são provisionados em um ambiente seguro. Esse ambiente é uma rede virtual do Azure que tem regras de NSGs (grupos de segurança de rede) para restringir o acesso, principalmente:

  • Acesso de entrada e saída à internet pública e dentro da rede virtual.

  • Acesso de e para serviços e portos específicos. Por exemplo, essa arquitetura bloqueia todos os intervalos de portas, exceto as necessárias para os Serviços do Azure (como o Azure Monitor). Uma lista completa de etiquetas de serviço e os serviços correspondentes podem ser encontrados em Etiquetas de serviço de rede virtual.

    Além disso, o acesso da rede virtual com a Área de Trabalho Virtual do Azure (AVD) em portas limitadas a métodos de acesso aprovados é aceito, todo o restante tráfego é negado. Quando comparada com este ambiente, a outra rede virtual (com AVD) é relativamente aberta.

O armazenamento de blob principal no ambiente seguro está fora da internet pública. Ele só é acessível dentro da rede virtual por meio de conexões de ponto de extremidade privadas e Firewalls de Armazenamento do Azure. Ele é usado para limitar as redes das quais os clientes podem se conectar aos compartilhamentos de arquivos do Azure.

Essa arquitetura usa autenticação baseada em credenciais para o armazenamento de dados principal que está no ambiente seguro. Nesse caso, as informações de conexão, como a ID da assinatura e a autorização do token, são armazenadas em um cofre de chaves. Outra opção é criar acesso a dados baseado em identidade, onde sua conta do Azure é usada para confirmar se você tem acesso ao serviço de armazenamento. Em um cenário de acesso a dados baseado em identidade, nenhuma credencial de autenticação é salva. Para obter detalhes sobre como usar o acesso a dados baseado em identidade, consulte Conectar-se ao armazenamento usando o acesso a dados baseado em identidade.

O cluster de computação só pode se comunicar dentro da rede virtual, usando o ecossistema do Azure Private Link e pontos de extremidade de serviço/privados, em vez de usar IP público para comunicação. Certifique-se de ativar Sem IP público. Para obter detalhes sobre esse recurso, que está atualmente em visualização (a partir de 07/03/2022), consulte Sem IP público para instâncias de computação.

O ambiente seguro usa a computação do Azure Machine Learning para acessar o conjunto de dados por meio de um ponto de extremidade privado. Além disso, o Firewall do Azure pode ser usado para controlar o acesso de saída da computação do Azure Machine Learning. Para saber como configurar o Firewall do Azure para controlar o acesso à computação do Azure Machine Learning, que reside em um espaço de trabalho de aprendizado de máquina, consulte Configurar o tráfego de rede de entrada e saída.

Para saber uma das maneiras de proteger um ambiente do Azure Machine Learning, consulte a postagem do blog, Secure Azure Machine Learning Service (AMLS) Environment.

Para serviços do Azure que não podem ser configurados de forma eficaz com pontos de extremidade privados ou para fornecer inspeção de pacotes com monitoração de estado, considere usar o Firewall do Azure ou um dispositivo virtual (NVA) de rede de terceiros.

Gestão de identidades

O acesso ao armazenamento de Blob é feito por meio de RBAC (controles de acesso baseados em função) do Azure.

A Área de Trabalho Virtual do Azure dá suporte à autenticação do Microsoft Entra para DSVM.

O Data Factory usa identidade gerenciada para acessar dados do armazenamento de blob. As DSVMs também usam identidade gerenciada para tarefas de correção.

Segurança de dados

Para proteger os dados em repouso, todo o Armazenamento do Azure é criptografado com chaves gerenciadas pela Microsoft usando criptografia forte.

Como alternativa, você pode usar chaves gerenciadas pelo cliente. As chaves devem ser armazenadas em um armazenamento de chaves gerenciado. Nessa arquitetura, o Azure Key Vault é implantado no ambiente seguro para armazenar segredos, como chaves de criptografia e certificados. O Cofre da Chave é acessado através de um ponto de extremidade privado pelos recursos na rede virtual segura.

Considerações de governação

Habilite a Política do Azure para impor padrões e fornecer correção automatizada para colocar recursos em conformidade para políticas específicas. As políticas podem ser aplicadas a uma assinatura de projeto ou em um nível de grupo de gerenciamento como uma única política ou como parte de uma Iniciativa regulatória.

Por exemplo, nesta arquitetura, a Configuração de Convidado de Política do Azure foi aplicada a todas as VMs no escopo. A política pode auditar sistemas operacionais e configuração de máquina para VMs de Ciência de Dados.

Imagem da VM

As VMs de Ciência de Dados executam imagens base personalizadas. Para criar a imagem base, recomendamos tecnologias como o Azure Image Builder. Dessa forma, você pode criar uma imagem repetível que pode ser implantada quando necessário.

A imagem base pode precisar de atualizações, como binários adicionais. Esses binários devem ser carregados para o armazenamento de blob público e fluir através do ambiente seguro, da mesma forma que os conjuntos de dados são carregados pelos proprietários de dados.

Outras considerações

A maioria das soluções de pesquisa são cargas de trabalho temporárias e não precisam estar disponíveis por longos períodos. Essa arquitetura foi projetada como uma implantação de região única com zonas de disponibilidade. Se os requisitos de negócios exigirem maior disponibilidade, replique essa arquitetura em várias regiões. Você precisaria de outros componentes, como balanceador de carga global e distribuidor para rotear o tráfego para todas essas regiões. Como parte da sua estratégia de recuperação, é altamente recomendável capturar e criar uma cópia da imagem base personalizada com o Azure Image Builder.

O tamanho e o tipo das VMs de Ciência de Dados devem ser adequados ao estilo de trabalho que está sendo executado. Esta arquitetura destina-se a suportar um único projeto de investigação e a escalabilidade é alcançada ajustando o tamanho e o tipo das VMs e as escolhas feitas para os recursos de computação disponíveis para o Azure Machine Learning.

Otimização de custos

A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.

O custo das DSVMs depende da escolha da série de VMs subjacente. Como a carga de trabalho é temporária, o plano de consumo é recomendado para o recurso do aplicativo lógico. Use a calculadora de preços do Azure para estimar custos com base no dimensionamento estimado dos recursos necessários.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos