Editar

Share via


Ambiente de pesquisa segura para dados regulamentados

Máquinas Virtuais de Ciência de Dados do Azure
Azure Machine Learning
Fábrica de dados do Azure

Essa arquitetura mostra um ambiente de pesquisa seguro destinado a permitir que os pesquisadores acessem dados confidenciais em um nível mais alto de controle e proteção de dados. Este artigo é aplicável às organizações que têm obrigações de conformidade regulatória ou de outros requisitos de segurança estritos.

Arquitetura

Diagrama de um ambiente de pesquisa seguro.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

  1. Os proprietários de dados carregam os conjuntos de dados em uma conta de armazenamento de blobs pública. Os dados são criptografados com chaves gerenciadas pela Microsoft.

  2. O Azure Data Factory usa um gatilho que inicia a cópia do conjunto de dados carregado para um local específico (caminho de importação) em outra conta de armazenamento com controles de segurança. A conta de armazenamento só pode ser obtida por meio de um ponto de extremidade privado. Além disso, ela é acessada por uma entidade de serviço com permissões limitadas. O Data Factory exclui a cópia original, tornando o conjunto de dados imutável.

  3. Os pesquisadores acessam o ambiente seguro por meio de um aplicativo de streaming usando a Área de Trabalho Virtual do Azure como um jumpbox privilegiado.

  4. O conjunto de dados da conta de armazenamento seguro é apresentado às VMs de ciência de dados provisionadas em um ambiente de rede seguro para trabalho de pesquisa. Grande parte da preparação de dados é feita nessas VMs.

  5. O ambiente seguro tem a computação do Azure Machine Learning que pode acessar o conjunto de dados por meio de um ponto de extremidade privado dos usuários para funcionalidades do Azure Machine Learning, como treinar, implantar, automatizar e gerenciar modelos de machine learning. Neste ponto, são criados modelos que atendem às diretrizes regulatórias. Todos os dados do modelo são descaracterizados pela remoção de informações pessoais.

  6. Os modelos ou os dados descaracterizados são salvos em um local separado no armazenamento seguro (caminho de exportação). Quando novos dados são adicionados ao caminho de exportação, um aplicativo lógico é disparado. Nessa arquitetura, o aplicativo lógico está fora do ambiente seguro porque nenhum dado é enviado a ele. A única função dele é enviar uma notificação e iniciar o processo de aprovação manual.

    O aplicativo inicia um processo de aprovação solicitando uma revisão dos dados que estão na fila para serem exportados. Os revisores manuais garantem que os dados confidenciais não serão exportados. Após o processo de revisão, os dados são aprovados ou negados.

    Observação

    Se uma etapa de aprovação não for necessária na exfiltração, a etapa do aplicativo lógico poderá ser omitida.

  7. Se os dados descaracterizados forem aprovados, eles serão enviados para a instância do Data Factory.

  8. O Data Factory move os dados para a conta de armazenamento pública em um contêiner separado para permitir que os pesquisadores externos tenham acesso aos dados e aos modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança inferior.

Componentes

Essa arquitetura consiste em vários serviços do Azure que escalam recursos de acordo com a necessidade. Os serviços e as respectivas funções são descritos abaixo. Para obter links para a documentação do produto a fim de começar a usar esses serviços, confira Próximas etapas.

Componentes principais da carga de trabalho

Estes são os principais componentes que movem e processam os dados de pesquisa.

  • DSVM (Máquina Virtual de Ciência de Dados) do Azure: as VMs configuradas com ferramentas usadas para análise de dados e aprendizado de máquina.

  • Azure Machine Learning: usado para treinar, implantar, automatizar e gerenciar modelos de machine learning e gerenciar a alocação e o uso de recursos de computação do machine learning.

  • Computação do Azure Machine Learning: um cluster de nós que são usados para treinar e testar modelos de IA e de machine learning. A computação é alocada sob demanda de acordo com uma opção de dimensionamento automático.

  • Armazenamento de Blobs do Azure: há duas instâncias. A instância pública é usada para armazenar temporariamente os dados carregados pelos proprietários de dados. Além disso, ela armazena os dados não descaracterizados após a modelagem em um contêiner separado. A segunda instância é privada. Ela recebe os conjuntos de dados de treinamento e de teste no Machine Learning que são usados pelos scripts de treinamento. O armazenamento é montado como uma unidade virtual em cada nó de um cluster de Computação do Machine Learning.

  • Azure Data Factory: move automaticamente os dados entre contas de armazenamento de diferentes níveis de segurança para garantir a separação de tarefas.

  • A Área de Trabalho Virtual do Azure é usada como um jumpbox para obter acesso aos recursos no ambiente seguro com aplicativos de streaming e uma área de trabalho completa, conforme necessário. Como alternativa, você pode usar o Azure Bastion. Porém, tenha uma compreensão clara das diferenças de controle de segurança entre as duas opções. A Área de Trabalho Virtual tem algumas vantagens:

    • Capacidade de transmitir um aplicativo como o Microsoft Visual Studio Code para executar notebooks nos recursos de computação de machine learning.
    • Capacidade de limitar a cópia, a colagem e as capturas de tela.
    • Suporte para autenticação do Microsoft Entra na DSVM.
  • Os Aplicativos Lógicos do Azure fornecem um fluxo de trabalho automatizado com pouco código para desenvolver as partes de gatilho e liberação do processo de aprovação manual.

Componentes do gerenciamento de postura

Esses componentes monitoram continuamente a postura da carga de trabalho e o respectivo ambiente. A finalidade é descobrir e atenuar os riscos assim que eles são descobertos.

  • O Microsoft Defender para Nuvem é usado para avaliar a postura geral de segurança da implementação e fornecer um mecanismo de atestado para conformidade regulatória. Os problemas encontrados anteriormente durante as auditorias ou as avaliações podem ser descobertos no início. Use recursos para acompanhar o progresso, como a classificação de segurança e a pontuação de conformidade.

  • Microsoft Sentinel é uma solução de gerenciamento de eventos e informações de segurança (SIEM) e resposta automatizada de orquestração de segurança (orquestração, automação e resposta de segurança (SOAR)). Você pode ver os logs e os alertas centralmente de várias fontes e aproveitar a análise avançada de IA e segurança para detectar, buscar, impedir as ameaças e responder a elas.

  • O Azure Monitor fornece observabilidade em todo o ambiente. Veja métricas, logs de atividades e logs de diagnóstico da maioria dos seus recursos do Azure sem nenhuma configuração adicionada. As ferramentas de gerenciamento, como aquelas do Microsoft Defender para Nuvem, também enviam por push os dados de log ao Azure Monitor.

Componentes de governança

  • O Azure Policy ajuda a impor padrões organizacionais e a avaliar a conformidade em escala.

Alternativas

  • Essa solução usa o Data Factory para mover os dados para a conta de armazenamento pública em um contêiner separado, a fim de permitir que pesquisadores externos tenham acesso aos dados e aos modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança inferior.
  • Essa solução usa a Área de Trabalho Virtual do Azure como um jumpbox para obter acesso aos recursos no ambiente seguro, com aplicativos de streaming e uma área de trabalho completa. Como alternativa, você pode usar o Azure Bastion. Mas a Área de Trabalho Virtual tem algumas vantagens, que incluem a capacidade de transmitir um aplicativo, limitar a cópia/colagem e as capturas de tela e dar suporte à autenticação do AAC. Você também pode considerar o VPN ponto a site para treinamento offline localmente. Isso também ajudará a economizar custos de ter várias VMs para estações de trabalho.
  • Para proteger os dados inativos, essa solução criptografa todo o Armazenamento do Azure com as chaves gerenciadas pela Microsoft usando a criptografia forte. Como alternativa, você pode usar chaves gerenciadas pelo cliente. As chaves precisam ser armazenadas em um armazenamento de chaves gerenciadas.

Detalhes do cenário

Possíveis casos de uso

Essa arquitetura foi originalmente criada para instituições de pesquisa de ensino superior com requisitos da Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA). No entanto, esse design pode ser usado em qualquer setor que exija isolamento de dados para perspectivas de pesquisa. Alguns exemplos incluem:

  • Indústrias que processam dados regulamentados de acordo com os requisitos do National Institute of Standards and Technology (NIST)
  • Centros médicos que colaboram com pesquisadores internos ou externos
  • Serviços bancários e financeiros

Seguindo as diretrizes, você pode manter controle total dos dados de pesquisa, ter a separação de tarefas e atender a padrões rígidos de conformidade regulatória, fornecendo colaboração entre as funções típicas envolvidas em uma carga de trabalho orientada a pesquis,; proprietários de dados, pesquisadores e aprovadores.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

O objetivo principal dessa arquitetura é fornecer um ambiente de pesquisa seguro e confiável que limita estritamente a exfiltração dos dados da área segura.

Segurança de rede

Os recursos do Azure usados para armazenar, testar e treinar conjuntos de dados de pesquisa são provisionados em um ambiente seguro. Esse ambiente é uma rede virtual do Azure que tem regras de NSGs (grupos de segurança de rede) para restringir o acesso, principalmente:

  • Acesso de entrada e saída à Internet pública e na rede virtual.

  • Acesso em portas e serviços específicos. Por exemplo, essa arquitetura bloqueia todos os intervalos de portas, exceto os necessários para os serviços do Azure (como o Azure Monitor). Uma lista completa de Marcas de Serviço e os serviços correspondentes podem ser encontrados em Marcas de serviço de rede virtual.

    Além disso, o acesso na rede virtual com a Área de Trabalho Virtual do Azure (AVD) em portas limitadas aos métodos de acesso aprovados é aceito, e todos os outros tipos de tráfego são negados. Em comparação com esse ambiente, a outra rede virtual (com AVD) é relativamente aberta.

O armazenamento de blobs principal no ambiente seguro está fora da Internet pública. Ela só pode ser acessada na rede virtual por meio de conexões de ponto de extremidade privado e firewalls do Armazenamento do Azure. É usado para limitar as redes nas quais os clientes podem se conectar aos compartilhamentos de arquivos do Azure.

Essa arquitetura usa a autenticação baseada em credencial para o armazenamento de dados principal que está no ambiente seguro. Nesse caso, as informações de conexão, como a ID da assinatura e a autorização de token são armazenadas em um cofre de chaves. Outra opção é criar acesso a dados baseado em identidade, em que sua conta do Azure é usada para confirmar se você tem acesso ao serviço de armazenamento. Em um cenário de acesso a dados baseado em identidade, nenhuma credencial de autenticação é salva. Para obter detalhes sobre como usar o acesso a dados baseado em identidade, consulte Conectar-se ao armazenamento usando o acesso a dados baseado em identidade.

O cluster de cálculo pode se comunicar exclusivamente dentro da rede virtual usando o ecossistema do Link Privado do Azure e pontos de extremidade privados/de serviço, em vez de usar o IP público para comunicação. Certifique-se de habilitar Nenhum IP público. Para obter detalhes sobre esse recurso, que está atualmente em versão prévia (a partir de 7/03/2022), consulte Nenhum IP público para instâncias de computação.

O ambiente seguro usa a computação do Azure Machine Learning para acessar o conjunto de dados por meio de um ponto de extremidade privado. Além disso, o Firewall do Azure pode ser usado para controlar o acesso de saída da computação do Azure Machine Learning. Para saber mais sobre como configurar o Firewall do Azure para controlar o acesso à computação do Azure Machine Learning, que reside em um workspace de aprendizado de máquina, consulte Configurar o tráfego de rede de entrada e saída.

Para conhecer uma das maneiras de proteger um ambiente do Azure Machine Learning, consulte a postagem no blog Ambiente do AMLS (Serviço do Azure Machine Learning) seguro.

Para os serviços do Azure que não podem ser configurados com eficiência com pontos de extremidade privados ou para fornecer inspeção de pacote com estado, considere o uso do Firewall do Azure ou uma NVA (solução de virtualização de rede) de terceiros.

Gerenciamento de identidades

O acesso ao armazenamento de blobs é feito por meio do RBAC (controles de acesso baseado em função) do Azure.

A Área de Trabalho Virtual do Azure dá suporte à autenticação do Microsoft Entra na DSVM.

O Data Factory usa a identidade gerenciada para acessar os dados do armazenamento de blobs. As DSVMs também usam a identidade gerenciada para tarefas de correção.

Segurança de dados

Para proteger os dados inativos, todo o Armazenamento do Azure é criptografado com chaves gerenciadas pela Microsoft usando a criptografia forte.

Como alternativa, você pode usar chaves gerenciadas pelo cliente. As chaves precisam ser armazenadas em um armazenamento de chaves gerenciadas. Nessa arquitetura, o Azure Key Vault é implantado no ambiente seguro para armazenar segredos, como chaves de criptografia e certificados. O Key Vault é acessado por meio de um ponto de extremidade privado pelos recursos na rede virtual segura.

Considerações de governança

Habilite o Azure Policy para impor padrões e fornecer correção automatizada a fim de colocar os recursos em conformidade com as políticas específicas. As políticas podem ser aplicadas a uma assinatura de projeto ou em um nível de grupo de gerenciamento como uma política individual ou como parte de uma iniciativa regulatória.

Por exemplo, nesta arquitetura, a configuração de convidado do Azure Policy foi aplicada a todas as VMs no escopo. A política pode auditar os sistemas operacionais e a configuração dos computadores das VMs de Ciência de Dados.

Imagem da VM

As VMs de Ciência de Dados executam imagens base personalizadas. Para criar a imagem base, recomendamos expressamente tecnologias como o Construtor de Imagens do Azure. Dessa forma, você pode criar uma imagem repetível que pode ser implantada quando necessário.

A imagem base pode precisar de atualizações, como binários adicionais. Esses binários devem ser carregados no armazenamento de blobs público e fluir pelo ambiente seguro, assim como os conjuntos de dados são carregados pelos proprietários dos dados.

Outras considerações

A maioria das soluções de pesquisa são cargas de trabalho temporárias e não precisa estar disponível por longos períodos. Essa arquitetura foi projetada como uma implantação de região única com zonas de disponibilidade. Se os requisitos de negócios exigirem maior disponibilidade, replique essa arquitetura em várias regiões. Você precisará de outros componentes, como o balanceador de carga global e o distribuidor para rotear o tráfego para todas essas regiões. Como parte da sua estratégia de recuperação, recomendamos expressamente capturar e criar uma cópia da imagem base personalizada com o Construtor de Imagens do Azure.

O tamanho e o tipo das VMs de Ciência de Dados devem ser apropriados para o estilo de trabalho que está sendo executado. Essa arquitetura se destina a dar suporte a um só projeto de pesquisa, e a escalabilidade é obtida com o ajuste do tamanho e do tipo das VMs e com as escolhas feitas para os recursos de computação disponíveis para o Azure Machine Learning.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

O custo das DSVMs depende da escolha da série de VMs subjacentes. Como a carga de trabalho é temporária, o plano de consumo é recomendado para o recurso de aplicativo lógico. Use a Calculadora de Preços do Azure para estimar os custos com base no dimensionamento estimado dos recursos necessários.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Próximas etapas