Gerenciamento de dados mestre com o Azure e o CluedIn

Fábrica de dados do Azure
Banco de Dados SQL do Azure
Azure Synapse Analytics
Azure Monitor

Essa arquitetura CluedIn fornece às empresas métricas sobre a qualidade dos dados que ingerem, detectando de forma inteligente dados sujos e preparando-os para limpeza por engenheiros de dados e administradores de dados. Algoritmos de machine learning lógicos, difusos e proprietários ajudam usuários empresariais e curadores a rotular dados e ensinar o sistema a identificar, corrigir e evitar problemas de qualidade de dados ao longo do tempo.

Arquitetura

Diagram showing CluedIn architectural structure and data flow.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

A solução do CluedIn é composta por várias camadas funcionais executadas em um cluster do Kubernetes no AKS (Serviço de Kubernetes do Azure). Uma combinação de aplicativos de microsserviço do .NET Core lida com funções distintas, como ingestão de dados, processamento de dados de streaming, enfileiramento e interface do usuário.

  1. A camada de rastreamento do CluedIn ingere dados de fontes de nuvem do cliente, como BD SQL do Azure, Azure Cosmos DB, PostgreSQL e bancos de dados do Salesforce por meio de conectores do Azure Data Factory.

    O CluedIn também recebe informações de sistemas acessíveis localmente, como SAP, Oracle, IBM e Hadoop, ou pode usar agentes locais para rastrear dados não públicos.

  2. O barramento de serviço empresarial se conecta por meio das portas 5672 e 15672 a pontos de extremidade de administrador. Os rastreadores enviam dados para o barramento e a camada de processamento consome dados do barramento, pela porta 5672.

  3. A camada de log de transações obtém resultados da camada de processamento.

  4. Na camada de persistência, os bancos de dados consomem dados do log de transações e os persistem para fornecer consistência eventual entre os diferentes armazenamentos de dados. Todas os armazenamentos são executadas no modo de HA (alta disponibilidade).

    Ao contrário da virtualização de dados, a camada de persistência do CluedIn ingere partes dos dados de origem e preserva a versão de fidelidade mais alta dos dados e da estrutura deles. Essa alta fidelidade significa que o CluedIn Data Fabric pode atender a solicitações empresariais de dados em qualquer formato ou modelo.

  5. A camada de abstração de dados se conecta aos diferentes armazenamentos de dados por meio das portas de cada armazenamento.

  6. O acesso a dados ocorre por meio de chamadas GraphQL, REST e WebSockets pela porta 443. A GraphQL e a REST usam um modelo de pull, enquanto o WebSockets usa um modelo push.

    O CluedIn protege o acesso a dados usando limitação e prevenção contra CSRF (solicitação intersite forjada).

  7. O aplicativo Web ASP.NET Core CluedIn se comunica por meio de uma combinação de chamadas REST e GraphQL pela porta 443.

    Toda a comunicação do navegador para o aplicativo usa um conjunto de definições de entrada, que exigem apenas um endereço IP público. Em um ambiente de produção, toda a comunicação ocorre sobre o protocolo SSL.

  8. O aplicativo CluedIn fornece dados limpos e processados para serviços de análise como o Power BI e o Azure Synapse Analytics para gerar insights. O sistema faz backup e armazena todos os dados em bancos de dados SQL ou Redis.

Componentes

O CluedIn é executado no AKS (Serviço de Kubernetes do Azure ), um serviço de Kubernetes altamente disponível, seguro e totalmente gerenciado para implantar e gerenciar aplicativos conteinerizados. O AKS oferece Kubernetes sem servidor, CI/CD integrada e segurança e governança de nível empresarial.

O CluedIn usa e dá suporte a muitas fontes e serviços de banco de dados, incluindo:

  • Banco de Dados SQL do Azure: serviço de banco de dados de nuvem relacional gerenciado que está sempre atualizado e pode dimensionar automaticamente os recursos sob demanda.
  • Instância Gerenciada de SQL do Azure: para ampla compatibilidade do mecanismo do SQL Server com os aplicativos do SQL Server existentes. A Instância Gerenciada do SQL fornece infraestruturas de banco de dados locais com benefícios de nuvem do Azure, como escala elástica, gerenciamento unificado e um modelo de cobrança na nuvem.
  • Azure Cosmos DB: banco de dados sem servidor NoSQL não relacional e totalmente gerenciado para desenvolvimento de aplicativos modernos.
  • Azure Data Lake: serviço de análise e armazenamento de dados escalonável.
  • Azure Data Factory: solução de integração de dados totalmente gerenciada e sem servidor para preparar e transformar dados em escala. O CluedIn usa mais de 90 conectores internos do Data Factory para adquirir dados de fontes como Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow e todos os serviços de dados do Azure.

O CluedIn fornece dados processados e controlados para muitos aplicativos e serviços de análise, incluindo:

  • Azure Databricks: serviço analítico rápido, fácil e colaborativo baseado no Apache Spark.
  • Azure Synapse Analytics: serviço de análise ilimitado que reúne armazenamento de dados empresarial e análise de Big Data.
  • Log Analytics: ferramenta do portal do Azure para editar, executar e analisar consultas de dados de log do Azure Monitor.
  • Serviços Cognitivos do Azure: família abrangente de serviços de IA e APIs cognitivas para criar aplicativos inteligentes.
  • Power BI: um serviço de análise de negócios da Microsoft que combina visualizações interativas e business intelligence com uma interface de criação de relatórios fácil de usar.

Detalhes do cenário

Em empresas modernas, muitos dos processos e projetos são baseados em dados, mas os dados brutos precisam ser preparados para consumo. Os casos de uso de dados da análise avançada para o machine learning exigem processos de preparação de dados e atenção semelhantes.

  1. Os projetos de dados começam com a descoberta de dados, para determinar onde estão os dados e quais sistemas eles usam.
  2. Em seguida, a integração de dados reúne várias fontes de dados em um conjunto de dados unificado ou conectado.
  3. A próxima etapa é normalizar, padronizar, harmonizar e limpar os dados para que os computadores possam processá-los de maneira uniforme, consistente e de alta fidelidade.
  4. Por fim, os dados precisam ser disponibilizados fácil e prontamente para suprir às necessidades de negócios.

Durante esses processos, a governança precisa garantir o controle dos dados e a proteção da privacidade com propriedade clara, rastreabilidade total e uma trilha de auditoria das origens de dados, do processamento e do uso.

A plataforma CluedIn encapsula esses processos e pilares de gerenciamento de dados em uma solução de MDM (Gerenciamento de Dados Mestre) coerente, consistente e de ponta a ponta. O CluedIn usa uma técnica de integração de dados chamada conectividade eventual que gera melhores resultados do que os modelos clássicos de ELT (extração, transformação, carregamento) ou de ELT (extração, carregamento, transformação). A conectividade eventual usa consultas GraphQL para mesclar dados diretamente de várias fontes de dados em silos.

Com a conectividade eventual, os dados não são unidos nem misturados ao entrar ou carregar em outros sistemas. Em vez disso, o CluedIn carrega os dados como estão e marca registros usando metadados. Por fim, os registros com as mesmas marcas mesclam ou criam um relacionamento no grafo.

Essa técnica sofisticada de mesclagem de dados fornece uma base para soluções controladas por dados. O CluedIn Data Fabric integra dados a um pipeline que limpa, prepara, modela, governa, enriquece, elimina duplicatas e cataloga dados para deixá-los facilmente disponíveis e acessíveis para usos empresariais.

O CluedIn fornece às empresas métricas sobre a qualidade dos dados ingeridos, detectando dados sujos de maneira inteligente e preparando-os para limpeza por engenheiros de dados e administradores de dados. Algoritmos de machine learning lógicos, difusos e proprietários ajudam usuários empresariais e curadores a rotular dados e ensinar o sistema a identificar, corrigir e evitar problemas de qualidade de dados ao longo do tempo.

O CluedIn inclui governança de nível empresarial, para garantir que você possa usar dados com segurança e confiança. O CluedIn pode transmitir dados limpos e controlados diretamente para sistemas de análise como o Power BI, o Azure Databricks, o Azure Synapse Analytics ou os Serviços Cognitivos do Azure para deixá-los facilmente disponíveis para o restante dos negócios. O suporte nativo para dimensionamento automático aproveita o eficiência do Azure para fornecer um ambiente escalonável para as maiores cargas de trabalho de dados.

Possíveis casos de uso

Criação de exibição de dados única

  • Devido à modelagem semântica do CluedIn, ele torna a criação de uma Visualização Única de seus Dados Mestres uma coisa muito mais fácil de alcançar em comparação com as abordagens tradicionais. Os clientes do CluedIn estão o usando para criar uma exibição conectada, histórica e de alta qualidade dos dados comerciais mais críticos. Além de dar suporte ao domínio mestre clássico, como Pessoas, Empresas, Fornecedores e Produtos, o CluedIn dá suporte a número infinito de domínios diferentes, bem como domínios não estruturados, como arquivos, emails, eventos e muito mais. Se você precisar de um repositório centralizado de dados mestre limpos, enriquecidos, governados, controlados pela qualidade e catalogados, o CluedIn é uma boa opção para seus casos de uso.

Malha de dados

  • O CluedIn foi listado como um Cool Vendor do Gartner em 2020, devido à capacidade de orquestrar dados em 10, 100 e 1.000 fontes de dados diferentes e complexas em um hub de dados unificado. Se você precisar organizar dados de várias fontes diferentes com facilidade, o CluedIn poderá ser usado como malha de dados para isso. Isso pode fornecer uma infraestrutura de streaming para seus dados, além de limpar e dominar os dados proativamente à medida que eles fluem para consumidores downstream.

Mesclagem sofisticada e vinculação de dados mestres

  • A abordagem exclusiva de modelagem de dados do CluedIn utiliza um banco de dados gráfico, que permite que dados complexos sejam mesclados e vinculados com simplicidade. Ao contrário das abordagens tradicionais, para resolver esse desafio, o CluedIn adiciona análises adicionais de machine learning e de grafo para mesclar, corresponder e vincular registros com uma precisão muito alta.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Confiabilidade

A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você assume com seus clientes. Para obter mais informações, confira Visão geral do pilar de confiabilidade.

  • O CluedIn usa backups de banco de dados diários automáticos e os mantém no armazenamento de longo prazo por 30 dias por padrão. A plataforma inteira é criada em pilhas redundantes e tolerantes a falhas, que mantêm backups para todos os subsistemas. Sistemas de monitoramento 24 horas por dia garantem que os serviços sejam o menos afetado possível. O CluedIn segue as práticas padrão do setor para redundância de infraestrutura.

  • O CluedIn exibe e armazena apenas uma representação dos dados, e não a versão original. Se ele detectar uma invasão de dados destrutiva, ele poderá apagar temporariamente os dados do CluedIn dos servidores. Depois de a intrusão diminuir, o CluedIn reúne os dados para voltar ao estado original.

  • Todos os armazenamentos de dados são executados em modo de alta disponibilidade.

Escalabilidade

  • O CluedIn é executado em contêineres do Docker e usa o Kubernetes para hospedar e orquestrar as diferentes partes do aplicativo. Essa arquitetura significa que o CluedIn funciona bem em ambientes elásticos e pode ser dimensionado automaticamente para atender às necessidades de tamanho e infraestrutura.

  • O suporte nativo para dimensionamento automático aproveita o eficiência do Azure para fornecer um ambiente escalonável para as maiores cargas de trabalho de dados.

  • A modelagem de grafo sem esquema infere automaticamente um modelo de dados dos dados de origem. Novas fontes de dados se conectam automaticamente a todas as outras fontes de dados, em vez de precisarem ser integradas de maneira explícita. A quantidade de fontes de dados pode ser dimensionada infinitamente sem aumentar a complexidade da integração.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

  • A segurança do CluedIn concede permissões e controles de acesso a diferentes serviços por meio do RBAC do Azure, com o controle de chave de segurança do Azure Key Vault e o rastreamento de acesso e registro em log do Azure Monitor.

  • Além das contas de usuário autenticadas, o CluedIn também dá suporte a SSO (logon único) e estruturas de identidade. As solicitações para o aplicativo CluedIn usam tokens de acesso criptografados que não têm correlação com a identidade do usuário.

  • O CluedIn gerencia representações de dados armazenados por trás de várias camadas de firewall e proxy e as autentica com um conjunto de chaves exclusivas.

  • O CluedIn armazena todos os dados de origem com criptografia AES de 256 bits, que é superior ou igual ao nível de criptografia das fontes de dados compatíveis.

  • A limitação e a prevenção contra CSRF protegem o acesso a dados.

DevOps

  • O CluedIn usa os pipelines de CI/CD (integração contínua e entrega contínua) do Azure Pipelines para gerenciar implantações e atualizações sem interrupção no ambiente do AKS.

  • O CluedIn dá suporte a teste funcional, de integração e de unidade para garantir que os dados sejam transformados conforme o esperado. Pipelines de processamento virtualizados podem ser executados na memória para teste de área restrita. As declarações de nível de produção podem ajudar a depurar e rastrear problemas de dados.

  • Para ambientes de teste e produção, o CluedIn fornece um gráfico do gerenciador de pacotes do Helm para instalar o CluedIn rapidamente em um cluster do Kubernetes. Processos de implantação de dados totalmente com script dão suporte à instalação, ao teste e à distribuição.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

O preço do CluedIn é aberto e transparente. Você pode ver os preços neste site.

Dimensionamento do Azure e início de avaliação

É possível iniciar uma avaliação de sete dias do CluedIn no site deles, o que também pode ajudar você a definir o escopo dos custos de hospedagem do Azure com estimativas predefinidas para ambientes de tamanhos diferentes.

Implantar este cenário

  • Para implantar o CluedIn para desenvolvimento e avaliação usando o Docker, confira CluedIn com o Docker.

  • Para instalar o CluedIn rapidamente em um cluster do Kubernetes, confira CluedIn com o Kubernetes. O gráfico do Helm instala o servidor, o site e outros serviços do CluedIn necessários, como armazenamento e filas.

Próximas etapas

  • Para obter mais informações sobre o CluedIn, confira o site do CluedIn.
  • Para obter a documentação do CluedIn, acesse este link.