Editar

Compartilhar via


Embaralhamento de dados para aplicativos SAP usando Delphix e Azure Data Factory

Fábrica de dados do Azure
Azure Synapse Analytics

Em muitas empresas, o SAP é o aplicativo de missão mais crítica e o principal sistema de registro para uma ampla gama de dados. As empresas devem ser capazes de aproveitar dados perspicazes para análises da SAP e de seus aplicativos upstream/downstream de maneira econômica, escalável e flexível. Ao mesmo tempo, as empresas também precisam garantir que esses dados estejam em conformidade com uma miríade de regulamentações.

Arquitetura

A arquitetura a seguir descreve o uso do Delphix CC em um pipeline do Azure Data Factory/Azure Synapse para identificar e mascarar dados confidenciais.

Diagrama mostrando a arquitetura do ambiente necessário ao uso do Delphix para embaralhar dados do SAP para uso com o Azure Data Factory.

Baixe um Arquivo Visio dessa arquitetura.

O que é o Azure Data Factory?

O Azure Data Factory é um serviço de integração de dados sem servidor totalmente gerenciado. Ele fornece uma experiência visual rica para integrar fontes de dados com mais de 100 conectores integrados e livres de manutenção sem custo adicional. Construa facilmente os processos de ETL (extração, transformação e carregamento) e ELT (extração, carregamento e transformação) sem código em um ambiente intuitivo ou escreva seu próprio código. Em seguida, forneça dados integrados ao Azure Synapse Analytics para desbloquear o poder de seus dados através de insights de negócios.

O que é Delphix Continuous Compliance (Delphix CC)?

O Delphix Continuous Compliance (Delphix CC) identifica informações confidenciais e automatiza o mascaramento/embaralhamento de dados. Ele oferece uma maneira rápida, automatizada e orientada por API para fornecer dados seguros onde eles são necessários nas organizações.

Como o Delphix CC e o Azure Data Factory resolvem a automação de dados compatíveis?

A movimentação dos dados seguros é um desafio para todas as organizações. O Delphix facilita a obtenção de conformidade de dados consistente, enquanto o Azure Data Factory permite conectar e mover dados perfeitamente. Juntos, o Delphix CC e o Azure Data Factory estão combinando ofertas de conformidade e automação líderes do setor para facilitar a entrega de dados sob demanda e em conformidade para todos.

Usando os conectores de fonte de dados oferecidos pelo Azure Data Factory, criamos um pipeline de ETL que permite que um usuário final automatize as seguintes etapas:

  1. Leia os dados do sistema de registro (SAP HANA) e grave-os em arquivos CSV no Armazenamento do Azure.
  2. Execute um trabalho de mascaramento Delphix nos arquivos para substituir elementos de dados confidenciais por valores semelhantes, mas fictícios.
  3. Carregar os dados comatíveis no Azure Synapse Analytics.

Fluxo de dados

O fluxo de dados neste cenário ocorre da seguinte forma:

  1. O Azure Data Factory (ADF) extrai dados do(s) armazenamento(s) de dados de origem (SAP HANA) para um contêiner nos Arquivos do Azure usando a atividade Copiar Dados. Esse contêiner é conhecido como Contêiner de Dados de Origem e os dados estão no formato CSV. Para usar o conector SAP HANA, a Microsoft recomenda o uso de um Self Hosted Integration Runtime. Consulte este guia para obter mais informações.
  2. O Data Factory inicia um iterador (atividade ForEach) que percorre uma lista de trabalhos de mascaramento configurados no Delphix. Esses trabalhos de mascaramento serão pré-configurados e mascararão dados confidenciais presentes no Contêiner de Dados de Origem.
  3. Para cada trabalho na lista, a atividade Iniciar mascaramento autentica e inicia o trabalho de mascaramento chamando os pontos de extremidade da API REST no Mecanismo Delphix CC.
  4. O Delphix CC Engine lê dados do Contêiner de Dados de Origem e executa o processo de mascaramento.
  5. Nesse processo de mascaramento, o Delphix mascara dados na memória e grava os dados mascarados resultantes em um contêiner de Arquivos do Azure de destino (conhecido como Contêiner de Dados de Destino).
  6. O Data Factory agora inicia um segundo iterador (atividade ForEach) que monitora as execuções.
  7. Para cada execução (Trabalho de mascaramento) iniciada, a atividade Verificar Status verifica o resultado do mascaramento.
  8. Depois que todos os trabalhos de mascaramento forem concluídos com êxito, o data factory carregará os dados mascarados do Contêiner de Dados de Destino para o Azure Synapse Analytics.

Componentes

  • O Azure Data Factory é o serviço de ETL (extração, transformação e carregamento) para integração e transformação de dados sem servidor em expansão. Ele oferece uma interface do usuário livre de código para criação intuitiva e gerenciamento e monitoramento em painel único.
  • O Armazenamento do Azure armazena os dados extraídos do(s) armazenamento(s) de dados de origem e os dados mascarados que serão carregados no(s) armazenamento(s) de dados de destino.
  • Grupos de Recursos são um contêiner lógico para recursos do Azure. Os grupos de recursos organizam tudo relacionado a este projeto no console do Azure.
  • O Self Hosted Integration Runtime deve ser configurado e um driver SAP HANA ODBC deve ser instalado para extração de dados do SAP HANA.
  • Opcional: a Rede Virtual do Azure fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Ele permite que você gerencie o acesso, a segurança e o roteamento entre recursos.

Possíveis casos de uso

  • Mova automaticamente dados compatíveis de aplicativos SAP (a arquitetura descrita aqui é específica para aplicativos SAP com um back-end HANA) para o Microsoft Synapse para obter dos analistas os dados de que precisam para testes de maneira econômica, rápida e escalável. Execute milhões de operações de embaralhamento em minutos.
  • Coloque automaticamente a estrutura exaustiva do Algoritmo Delphix para trabalhar abordando quaisquer requisitos regulatórios para seus dados (por exemplo, para estar em conformidade com GDPR (Regulamento Geral sobre a Proteção de Dados), CCPA, LGPD e HIPAA).
  • Mascare/embaralhe dados de forma consistente entre fontes de dados, mantendo a integridade referencial para testes de aplicativos integrados. Por exemplo, o nome George deve sempre ser mascarado para Elliot ou um determinado número de seguro social (SSN) deve sempre ser mascarado para o mesmo SSN fictício, independentemente de George e seu SSN aparecerem no Oracle, Salesforce, SAP ou qualquer outro aplicativo.
  • Mascare/embaralhe dados de uma maneira que não aumente os ciclos de treinamento e que não afete a precisão do modelo ou da previsão.
  • Configure uma solução que funcione tanto para o local quanto para a nuvem, simplesmente alterando os conectores de origem. Por exemplo, pode-se extrair dados de um aplicativo SAP local, replicar esses dados para a nuvem e garantir a conformidade antes de carregar no Synapse.

Principais benefícios

  • Mascaramento realista, determinístico/embaralhamento que mantém a integridade referencial
  • Identificação preventiva de dados confidenciais para as tabelas e módulos SAP mais comuns
  • Execução nativa na nuvem
  • Implantação baseada em modelo
  • Escalonável
  • Alternativa de baixo custo ao caro HANA HW na memória

Introdução

  1. Implantar o Delphix CC Engine no Azure
  2. No Azure Data Factory, implante os modelos Data Masking with Delphix e Sensitive Data Discovery with Delphix. Observação: esses modelos funcionam para pipelines do Azure Synapse Analytics e pipelines do Azure Data Factory.
  3. Configure um Self Hosted Integration Runtime conforme detalhado neste guia de instruções para extrair dados do SAP HANA.
  4. Nos componentes Copiar dados, configure a origem desejada como SAP HANA na etapa Extrair e Synapse como o destino desejado na etapa Carregar. Nos componentes de Atividade da Web, insira o endereço IP do aplicativo Delphix/nome do host e as credenciais para autenticar com APIs do Delphix CC.
  5. Execute o modelo Descoberta de Dados Confidenciais com o Delphix Azure Data Factory para configuração inicial e sempre que desejar pré-identificar dados confidenciais (por exemplo, se houver uma alteração de esquema). Este modelo fornece ao Delphix CC a configuração inicial necessária para procurar colunas que possam conter dados confidenciais. Você também pode usar isso em conjunto com o Delphix Compliance Accelerator for SAP, campos confidenciais pré-identificados e algoritmos de mascaramento para proteger dados em tabelas SAP principais, por exemplo, módulos de Finanças, RH e Logística. Entre em contato com a Delphix se estiver interessado nesta opção.
  6. Crie um conjunto de regras indicando a coleção de dados que você gostaria de perfilar. Execute um trabalho de criação de perfil na interface do usuário do Delphix para identificar e classificar campos confidenciais para esse conjunto de regras e atribuir algoritmos de mascaramento apropriados.
  7. Executar o modelo. Depois de concluído, você terá dados mascarados (conforme pré-identificados para tabelas/módulos superiores pelo Delphix Compliance Accelerator for SAP) no Azure Synapse Analytics.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

O Delphix CC mascara irreversivelmente os valores de dados com dados realistas que permanecem totalmente funcionais, permitindo o desenvolvimento de código de maior qualidade. Entre o rico conjunto de algoritmos disponíveis para transformar dados em especificações do usuário, o Delphix CC tem um algoritmo patenteado que intencionalmente produz colisões de dados, ao mesmo tempo em que permite salgar dados com valores específicos necessários para possíveis rotinas de validação executadas no conjunto de dados mascarados. De uma perspectiva Zero Trust, os operadores não precisam acessar os dados reais para mascará-los. Além disso, toda a entrega de dados mascarados do ponto A ao ponto B pode ser automatizada via APIs.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Ao ajustar os valores na calculadora de preços do Azure, você pode ver como seus requisitos específicos afetam o custo.

Azure Synapse: Você pode dimensionar seus níveis de computação e armazenamento independentemente. Os recursos de computação são cobrados por hora e você pode dimensioná-los ou interrompê-los sob demanda. Os recursos de armazenamento são cobrados por terabyte, assim seus custos aumentam à medida que você insere mais dados.

Data Factory: os custos são baseados no número de operações de leitura/gravação, monitoramento e atividades de orquestração realizadas em uma carga de trabalho. Os custos de Data Factory aumentam com cada fluxo de dados adicional e a quantidade de dados processados por cada um.

Delphix CC: Ao contrário de outros produtos de conformidade de dados no mercado, o mascaramento não requer uma cópia física completa do ambiente que está sendo mascarado. A redundância do ambiente pode ser cara devido ao tempo para configurar e manter a infraestrutura, ao custo da própria infraestrutura e ao tempo gasto repetidamente carregando dados físicos no ambiente de mascaramento.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar sua carga de trabalho para atender às demandas colocadas por usuários de maneira eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

O Delphix CC é horizontal e verticalmente escalável. As transformações ocorrem na memória e podem ser paralelizadas. O produto é executado como um serviço e como um dispositivo de vários nós, permitindo arquiteturas de solução de todos os tamanhos, dependendo da aplicação. A Delphix é líder de mercado no fornecimento de conjuntos de dados mascarados grandes.

Os fluxos de mascaramento podem ser aumentados para envolver vários núcleos de CPU em um trabalho. (Recomendações de configuração e sobre como alterar a alocação de memória podem ser encontrados aqui: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Para atingir o desempenho ideal para conjuntos de dados com mais de 1 TB, o Delphix Hyperscale Masking divide os conjuntos de dados grandes e complexos em vários módulos e, em seguida, orquestra os trabalhos de mascaramento em vários Mecanismos de Conformidade Contínua.

Colaboradores

Este artigo foi escrito pelos colaboradores a seguir.

Principais autores:

Outros colaboradores:

Próximas etapas