Administración de datos maestros con Azure y CluedIn

Data Factory
SQL Database
Synapse Analytics

La arquitectura CluedIn proporciona a las empresas métricas sobre la calidad de los datos que ingieren, la detección inteligente de datos sucios y su preparación para la limpieza por parte de los ingenieros de datos y administradores de datos. Los algoritmos de aprendizaje automático de la lógica de aproximación propietaria ayudan a los usuarios empresariales y a los conservadores de datos a etiquetar los datos y a enseñar al sistema a identificar, corregir y evitar problemas de calidad de datos a lo largo del tiempo.

Arquitectura

Diagrama que muestra la estructura de la arquitectura de CluedIn y el flujo de datos.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

La solución CluedIn consta de varias capas funcionales que se ejecutan en un clúster de Kubernetes en Azure Kubernetes Service (AKS). Una combinación de aplicaciones de microservicios de .NET Core controla las distintas funciones, como la ingesta de datos, el procesamiento de datos de streaming, la puesta en cola y la interfaz de usuario.

  1. La capa de rastreo de CluedIn recopila datos de los orígenes en la nube de los clientes, como bases de datos de Azure SQL, Azure Cosmos DB, PostgreSQL y Salesforce mediante conectores de Azure Data Factory.

    CluedIn también toma información de los sistemas locales accesibles, como SAP, Oracle, IBM y Hadoop, o puede usar agentes locales para rastrear datos no públicos.

  2. El bus de servicio empresarial se conecta mediante los puertos 5672 y 15672 para los puntos de conexión de administración. Los rastreadores envían datos al bus y la capa de procesamiento consume los datos del bus por el puerto 5672.

  3. La capa del registro de transacciones toma los resultados de la capa de procesamiento.

  4. En la capa de persistencia, las bases de datos consumen datos del registro de transacciones y los conservan para proporcionar coherencia final en los diferentes almacenes de datos. Todos los almacenes se ejecutan en modo de alta disponibilidad (HA).

    A diferencia de la virtualización de datos, la capa de persistencia de CluedIn ingiere partes de los datos de origen y conserva la versión de mayor fidelidad de los datos y su estructura. Esta alta fidelidad significa que el tejido de datos de CluedIn puede atender las solicitudes de negocio de los datos en cualquier formato o modelo.

  5. La capa de abstracción de datos se conecta a los distintos almacenes de datos mediante los puertos de cada almacén.

  6. El acceso a los datos se realiza mediante llamadas GraphQL, REST y WebSockets en el puerto 443. GraphQL y REST usan un modelo de extracción y WebSockets usa un modelo de inserción.

    CluedIn protege el acceso a los datos mediante la limitación y la prevención de la falsificación de solicitud entre sitios (CSRF).

  7. La aplicación web de ASP.NET Core de CluedIn se comunica mediante una combinación de llamadas REST y GraphQL sobre el puerto 443.

    Toda la comunicación desde el explorador a la aplicación utiliza un conjunto de definiciones de entrada que requieren solo una dirección IP pública única. En un entorno de producción, toda la comunicación se realiza mediante la capa de sockets seguros (SSL).

  8. La aplicación de CluedIn proporciona datos limpios y procesados para servicios de análisis como Power BI y Azure Synapse Analytics para generar conclusiones. El sistema realiza una copia de seguridad y almacena todos los datos en bases de datos SQL o Redis.

Componentes

CluedIn se ejecuta en Azure Kubernetes Service (AKS), un servicio Kubernetes de alta disponibilidad, seguro y totalmente administrado para implementar y administrar aplicaciones en contenedores. AKS ofrece Kubernetes sin servidor, CI/CD integrado y seguridad y gobernanza de nivel empresarial.

CluedIn usa y admite muchos orígenes y servicios de bases de datos, entre los que se incluyen:

  • Azure SQL Database, un servicio administrado de base de datos relacional en la nube que está siempre actualizado y puede escalar automáticamente los recursos a petición.
  • Azure SQL Managed Instance, para una amplia compatibilidad del motor de SQL Server con las aplicaciones de SQL Server existentes. Instancia administrada proporciona infraestructuras de bases de datos locales con las ventajas de la nube de Azure, como el escalado elástico, la administración unificada y un modelo de facturación en la nube.
  • Azure Cosmos DB, una base de datos sin servidor NoSQL no relacional totalmente administrada para el desarrollo de aplicaciones modernas.
  • Azure Data Lake, un servicio de análisis y almacenamiento de datos escalable.
  • Azure Data Factory, una solución de integración de datos sin servidor totalmente administrada para la ingesta, preparación y transformación de datos a gran escala. CluedIn usa más de 90 conectores integrados de Data Factory para adquirir datos desde orígenes como Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow y todos los servicios de datos de Azure.

CluedIn proporciona datos gobernados y procesados a muchas aplicaciones y servicios de análisis, entre los que se incluyen:

  • Azure Databricks, un servicio de análisis rápido, sencillo y de colaboración basado en Apache Spark.
  • Azure Synapse Analytics, un servicio de análisis ilimitado que combina el almacenamiento de datos empresariales y el análisis de macrodatos.
  • Log Analytics, una herramienta de Azure Portal para editar, ejecutar y analizar consultas a partir de datos de registro de Azure Monitor.
  • Azure Cognitive Services, una familia completa de servicios de inteligencia artificial y API cognitivas para la creación de aplicaciones inteligentes.
  • Power BI, un servicio de análisis empresarial de Microsoft que combina visualizaciones interactivas e inteligencia empresarial con una interfaz de creación de informes fácil de usar.

Detalles del escenario

Las empresas modernas basan muchos procesos y proyectos en los datos, pero los datos sin procesar se deben preparar para su consumo. Todos los casos de uso de datos, desde el análisis avanzado hasta el aprendizaje automático, requieren atención y procesos de preparación de datos similares.

  1. Los proyectos de datos comienzan con la detección de datos, para determinar dónde están los datos y qué sistemas se usan.
  2. A continuación, la integración de datos coloca varios orígenes de datos juntos en un conjunto de datos unificado o conectado.
  3. El paso siguiente consiste en normalizar, estandarizar, armonizar y limpiar los datos para que los equipos puedan procesarlos de forma uniforme, coherente y con alta fidelidad.
  4. Por último, los datos deben estar disponibles con facilidad y agilidad para las necesidades empresariales.

Durante estos procesos, la gobernanza debe garantizar el control de los datos y la protección de la privacidad con una propiedad clara, rastreabilidad completa y una pista de auditoría de los orígenes de datos, el procesamiento y el uso.

La plataforma CluedIn encapsula estos procesos de administración de datos y los fundamentos en una solución coherente y de un extremo a otro de administración de datos maestros (MDM). CluedIn usa una técnica de integración de datos llamada conectividad eventual que produce mejores resultados que los modelos clásicos de extracción, transformación y carga (ETL) o extracción, carga y transformación (ELT) . La conectividad eventual usa consultas GraphQL para mezclar datos sin problemas desde muchos orígenes de datos en silos.

Con la conectividad eventual, los datos no se unen ni se mezclan en la entrada o la carga en otros sistemas. En su lugar, CluedIn carga los datos tal cual y etiqueta los registros mediante metadatos. Finalmente, los registros con las mismas etiquetas combinan o crean una relación en el grafo.

Esta sofisticada técnica de combinación de datos proporciona una base para las soluciones controladas por datos. El tejido de datos de CluedIn integra los datos en una canalización que limpia, prepara, modela, gobierna, enriquece, desduplica y cataloga los datos para que estén disponibles fácilmente y estén accesibles para los usos de la empresa.

CluedIn proporciona a las empresas métricas sobre la calidad de la ingesta de datos, la detección inteligente de datos sucios y su preparación para la limpieza por parte de los ingenieros de datos y administradores de datos. Los algoritmos de aprendizaje automático de la lógica de aproximación propietaria ayudan a los usuarios empresariales y a los conservadores de datos a etiquetar los datos y a enseñar al sistema a identificar, corregir y evitar problemas de calidad de datos a lo largo del tiempo.

CluedIn incluye gobernanza de nivel empresarial con el fin de garantizar que puede usar los datos de forma segura y confiable. CluedIn puede transmitir datos gobernados y limpios directamente a sistemas de análisis como Power BI, Azure Databricks, Azure Synapse Analytics o Azure Cognitive Services para que se pongan a disposición del resto de la empresa con facilidad. La compatibilidad nativa con el escalado automático aprovecha la eficacia de Azure para proporcionar un entorno escalable para las mayores cargas de trabajo de datos.

Posibles casos de uso

Compilación de una vista única de los datos

  • Debido al modelado semántico de CluedIn, hace que la creación de una vista única de los datos maestros sea mucho más fácil de lograr en comparación con los enfoques tradicionales. Los clientes de CluedIn usan CluedIn para compilar una vista conectada, histórica y de alta calidad de sus datos empresariales más críticos. CluedIn no solo admite la dominación de dominios maestros clásicos como Contactos, Empresas, Proveedores y Productos, sino que admite un número infinito de dominios diferentes, así como dominios no estructurados, como archivos, correo, eventos y mucho más. Si necesita un repositorio centralizado de datos maestros limpios, enriquecidos, regulados, controlados por la calidad y catalogados, CluedIn es una buena opción para sus casos de uso.

Tejido de datos

  • CluedIn es un proveedor de nivel de acceso esporádico de Gartner en 2020, debido a su capacidad para organizar datos de entre 10, 100 y 1000 orígenes de datos diferentes y complejos en un centro de datos unificado. Si necesita realizar una limpieza y transformación de datos de muchos orígenes de datos diferentes con facilidad, se puede usar CluedIn como un tejido de datos para lograrlo. Esto puede proporcionar una infraestructura de streaming para los datos que también puede limpiar y dominar de forma proactiva los datos a medida que fluyen a los consumidores de bajada.

Combinación y vinculación sofisticadas de datos maestros

  • El enfoque de modelado de datos único de CluedIn usa una base de datos de grafos, que permite combinar y vincular datos complejos con simplicidad. A diferencia de los enfoques tradicionales, para resolver este desafío, CluedIn agrega análisis de grafos y aprendizaje automático adicionales para combinar, hacer coincidir y vincular registros con una precisión muy alta.

Consideraciones

La plataforma CluedIn tiene las siguientes características y consideraciones:

Resistencia

  • CluedIn realiza copias de seguridad de bases de datos diarias automáticas y las mantiene en un almacenamiento a largo plazo durante 30 días de forma predeterminada. Toda la plataforma se basa en pilas redundantes y tolerantes a errores que mantienen copias de seguridad para todos los subsistemas. Los sistemas de supervisión sin interrupción se aseguran de que los servicios estén tan intactos como sea posible. CluedIn sigue los procedimientos estándar del sector para la redundancia de la infraestructura.

  • CluedIn expone y almacena solo una representación de los datos, no la versión original. Si CluedIn detecta intrusiones de datos destructivas, puede borrar temporalmente los datos de CluedIn de los servidores. Una vez que se encuentra la intrusión, CluedIn vuelve a recopilar los datos para volver a su estado original.

  • Todos los almacenes de datos se ejecutan en modo de alta disponibilidad.

Escalabilidad

  • CluedIn se ejecuta en contenedores de Docker y usa Kubernetes para hospedar y organizar las distintas partes de la aplicación. Esta arquitectura significa que CluedIn funciona bien en entornos elásticos y se puede escalar automáticamente a los tamaños y la infraestructura necesarios.

  • La compatibilidad nativa con el escalado automático aprovecha la eficacia de Azure para proporcionar un entorno escalable para las mayores cargas de trabajo de datos.

  • El modelado de grafos sin esquemas infiere automáticamente un modelo de datos a partir de los datos de origen. Los nuevos orígenes de datos se conectan automáticamente a los demás orígenes de datos, en lugar de tener que integrarse explícitamente. El número de orígenes de datos se puede escalar infinitamente sin aumentar la complejidad de la integración.

Seguridad

  • La seguridad de CluedIn concede permisos y controla el acceso a los distintos servicios mediante RBAC de Azure, con el control de claves de seguridad de Azure Key Vault y el seguimiento y el registro de acceso de Azure Monitor.

  • Además de las cuentas de usuario autenticadas, CluedIn también admite el inicio de sesión único (SSO) y marcos de identidad. Las solicitudes a la aplicación de CluedIn usan tokens de acceso cifrados que no tienen ninguna correlación con la identidad del usuario.

  • CluedIn administra las representaciones de datos almacenados detrás de varias capas de firewall y proxy, y las autentica con un conjunto de claves únicas.

  • CluedIn almacena todos los datos de origen con cifrado AES de 256 bits, que es más seguro que el nivel de cifrado de los orígenes de datos admitidos.

  • La limitación y la prevención de CSRF protegen el acceso a los datos.

DevOps

  • CluedIn usa las canalizaciones de integración continua y entrega continua (CI/CD) de Azure Pipelines para controlar las implementaciones y las actualizaciones graduales en el entorno de AKS.

  • CluedIn admite pruebas unitarias, de integración y de funcionalidad para asegurarse de que los datos se transforman según lo esperado. Las canalizaciones de procesamiento virtualizadas se pueden ejecutar en memoria para las pruebas de espacio aislado. Las aserciones de nivel de producción pueden ayudar a depurar y realizar un seguimiento de los problemas de datos.

  • Para los entornos de pruebas y producción, CluedIn proporciona un gráfico del administrador de paquetes Helm para instalar CluedIn rápidamente en un clúster de Kubernetes. Los procesos de implementación de datos totalmente con scripts admiten configuración, pruebas e implementación.

Optimización de costos

Los precios de CluedIn son abiertos y transparentes. Puede ver los precios en su sitio web.

Dimensionamiento de Azure e inicio de una prueba

Puede iniciar una prueba de 7 días de CluedIn en su sitio web, que también puede ayudarle a establecer el ámbito de los costos de hospedaje de Azure con estimaciones de Azure precompiladas para entornos de diferentes tamaños.

Implementación de este escenario

  • Para implementar CluedIn con fines de desarrollo y evaluación mediante Docker, consulte CluedIn con Docker.

  • Para instalar CluedIn rápidamente en un clúster de Kubernetes, consulte CluedIn con Kubernetes. El gráfico de Helm instala el servidor de CluedIn, el sitio web y otros servicios necesarios, como el almacenamiento y las colas.

Pasos siguientes