Editar

Share via


Migración de servicios de datos maestros a Azure con CluedIn y Azure Purview

Microsoft Purview
Azure Data Factory
Azure SQL Database
Azure Synapse Analytics

La arquitectura encapsula muchos pilares de la administración de datos maestros (MDM) en una solución de MDM coherente y de un extremo a otro. CluedIn ha presentado un enfoque de MDM de modelado cero que ha demostrado acelerar los proyectos de MDM y aumentar las tasas de éxito de las iniciativas de MDM.

Arquitectura

En el diagrama siguiente se muestran la estructura de arquitectura y el flujo de datos de CluedIn.

Diagram showing CluedIn architectural structure.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

CluedIn usa la red privada virtual (VPN) de Azure para permitirle conectarse a fin de migrar instancias de MDS locales, o bien para conectarse directamente a una máquina virtual de SQL hospedada en la nube con una instancia de MDS hospedada. Lo único que necesita CluedIn es apuntar al servicio Windows Communication Foundation (WCF) de MDS y automatizará el proceso de mover los datos, las reglas, los flujos de trabajo y todo lo demás a CluedIn o al servicio de Microsoft correspondiente.

Con la integración nativa en Azure Cost Management and Billing, puede predecir fácilmente las cargas de trabajo de MDM de CluedIn, a medida que pasa de MDS a CluedIn. CluedIn usa la característica de escalabilidad automática de Azure para poder escalar y reducir verticalmente el entorno. CluedIn también se integra de forma nativa en los presupuestos de Azure, para que pueda controlar fácilmente los gastos en la nube. Esta integración elimina la necesidad de previsiones y presupuestos lentos, ya que los costos se volverán obvios dentro de la plataforma Azure.

Los paquetes de SSIS se pueden migrar a Azure Data Factory, para mover todas las canalizaciones ETL a una solución nativa de nube.

Componentes

CluedIn proporciona integración nativa con 27 servicios de Azure, incluidos los siguientes componentes:

Alternativas

También puede ampliar la plataforma a escenarios alternativos de las características principales de CluedIn.

En esta versión de CluedIn, la extensión de la plataforma se realiza con los servicios nativos de Azure. Todos los eventos se exponen en el centro de eventos, para que los desarrolladores interactúen con ellos como quieran. Se puede usar Azure Data Factory para insertar datos en CluedIn, que ofrece compatibilidad para traer datos de todos los servicios de Azure a CluedIn. Azure Functions se puede usar para suscribirse a Event Hubs, en el que puede crear las personalizaciones en cualquiera de los lenguajes admitidos en Azure Functions.

Detalles del escenario

Master Data tiene la tarea de resolver la calidad de los datos, la gobernanza de estos y la administración de los datos empresariales más importantes dentro de una empresa. Si actualmente usa instancias o instancias de Master Data Services (MDS) de SQL locales u hospedadas en la nube, el siguiente escenario simplifica la experiencia de pasar a una solución nativa de administración de datos maestros de Azure de CluedIn.

CluedIn ofrece una paridad de características en paralelo a SQL MDS que proporciona familiaridad al usuario para que los administradores de datos y los equipos de MDM migren fácilmente sus cargas de trabajo diarias de MDS a CluedIn. Además, CluedIn proporciona muchas más funcionalidades de datos maestros valiosas, incluida una base de datos listos para obtener conclusiones sobre la empresa.

Características de CluedIn

Tradicionalmente, los servicios de datos maestros contienen la siguiente funcionalidad principal:

  • Compatibilidad con el control de versiones de modelos
  • Reglas de negocios
  • Servicios de calidad de datos
  • Flujo de trabajo
  • Jerarquías
  • Complemento de Excel

CluedIn proporciona funcionalidad para todo lo anterior. Además, también se habilitan los siguientes casos de uso:

  • Ahora las jerarquías se pueden visualizar de forma nativa en Power BI.
  • Los flujos de trabajo se migran y se pueden crear y ampliar directamente en Power Automate.
  • Las reglas de negocio y los servicios de calidad de datos se migran de forma nativa al motor de reglas de CluedIn.
  • CluedIn proporciona enriquecimiento de datos integrado para los registros de MDS, a fin de corregir y validar automáticamente las direcciones, la información de la empresa y mucho más.
  • Administre el consentimiento y ejecute solicitudes de acceso del interesado.
  • Vuelva a escribir en la instancia de MDS, si es necesario.

CluedIn también admite la migración del historial de cambios de datos y puede crear automáticamente el historial de calidad de datos a partir de las instancias de MDS. También puede ejecutar una solución de MDS y CluedIn en sincronización, si no quiere desactivar las instancias de MDS en cuanto finalice el proceso de migración.

CluedIn admite de forma nativa Common Data Model/Dataverse. Es decir, Power Apps, Power Automate, Power BI, bots de chat virtuales y usuarios de Microsoft Dynamics pueden usar datos de forma nativa desde CluedIn, sin necesidad de ninguna configuración o integración adicional.

CluedIn se integra de forma nativa con Azure Purview

Azure Purview aporta funcionalidades de gobernanza de datos a la nube de Microsoft Azure y CluedIn proporciona integración nativa con su funcionalidad.

  • El glosario de Azure Purview está disponible directamente en CluedIn y viceversa.
  • CluedIn puede ingerir recursos que se han registrado en Purview.
  • CluedIn examina la información personal de Azure Purview y puede identificar al nivel de registro donde están los datos personales. También agrega compatibilidad para la información personal en datos no estructurados y semiestructurados, no solo estructurados.
  • CluedIn usará el esquema establecido en Purview para asignar automáticamente conjuntos de datos a CluedIn.
  • CluedIn amplía el linaje de Purview con registros de procesamiento detallados.
  • CluedIn puede iniciar exámenes de Purview antes de programar una nueva ingesta de datos.

En la imagen siguiente se muestra el conjunto de características de linaje.

Screenshot showing the CluedIn Lineage feature set.

Compatibilidad con Azure Data Factory

Azure Data Factory (ADF) ofrece compatibilidad para conectarse a más de 100 servicios. Estos datos se pueden entregar directamente en CluedIn mediante streaming en vivo de datos de inserción desde ADF. CluedIn no solo le permite conectarse a las instancias de Master Data Service (MDS), sino que también se conecta a cientos de orígenes de datos de SAAS, bases de datos, lagos de datos, etc.

Las siguientes son características clave de compatibilidad con ADF:

  • Puede configurarlo para escuchar eventos desde el centro de eventos y, después, puede devolver los datos directamente a CluedIn.
  • La compatibilidad nativa está disponible directamente en CluedIn para configurar puntos de conexión específicos de ADF.
  • Puede usar fácilmente las canalizaciones de ADF existentes con un nuevo receptor de destino.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Modelado

CluedIn usa un proceso de modelado automático, por lo que no es necesario migrar ni volver a crear modelos de datos desde Master Data Services (MDS) u otros orígenes de datos, como Microsoft Dynamics. Esta característica utiliza una base de datos de grafos para crear automáticamente un modelo basado en los datos que se envían al sistema. Si pasa de un modelo relacional tradicional a un grafo, aporta un gran valor y flexibilidad en las iniciativas de datos maestros. El enfoque de grafos no es tan diferente a un estilo de modelado relacional.

El aspecto más importante de este modelado es que un estilo relacional le proporcionará (y al equipo) una manera flexible de representar los modelos de datos maestros, en todas las formas y tamaños diferentes. Este estilo conduce a una flexibilidad enorme, cuando la empresa necesita que el modelo de datos maestros se ajuste a diferentes casos de uso y requisitos empresariales. CluedIn usa un enfoque sin esquema por adelantado para la ingesta de datos. No es necesario que los datos encajen en un esquema estricto al entrar en la plataforma. Pero se puede aplicar un esquema estricto a la salida de los datos de CluedIn, cuando se utiliza en los distintos casos de uso que aplican los datos desde la plataforma CluedIn.

En la imagen siguiente se muestra el conjunto de características de relaciones.

Screenshot showing the CluedIn Relations feature set.

Disponibilidad

Esta solución se hospeda como una oferta de aplicación administrada y se puede aplicar en un inquilino propio, donde el proveedor administrará las actualizaciones, el mantenimiento, las copias de seguridad y mucho más en su nombre.

CluedIn se integra de forma nativa en Azure Service Health y el mantenimiento programado de Azure, de modo que las actualizaciones y revisiones parecen anuncios nativos de Azure. En combinación con la solidez en el entorno de Azure, CluedIn puede satisfacer los requisitos de acuerdo de nivel de servicio (SLA) más altos.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

CluedIn separa el almacenamiento del proceso, por lo que el procesamiento de datos es completamente sin estado. Al tener el respaldo de un bus de servicio de streaming, CluedIn puede escalar y reducir verticalmente, tanto o tan poco como sea necesario, en función de las cargas de trabajo. CluedIn admite las características de escalabilidad automática de Azure dentro de Azure Kubernetes Service (AKS), por lo que el escalado se puede automatizar. Para aumentar el rendimiento del procesamiento de datos, simplemente asignará más pods de procesamiento al clúster de Kubernetes, que se pueden automatizar.

Escalabilidad

CluedIn admite la integración de tantas instancias de MDS como necesite. Por ejemplo, en CluedIn puede ingerir y administrar 50 instancias de MDS. Puede ejecutarlas en varios inquilinos o todas combinadas en la misma cuenta. Una vez que la solución de MDS se ha migrado a CluedIn, hay muchas maneras de incorporar nuevos sistemas y datos maestros, con diferentes opciones de carga de datos.

CluedIn se ejecuta en contenedores de Docker y usa Kubernetes para hospedar y organizar las distintas partes de la aplicación. Esta arquitectura significa que CluedIn funciona bien en entornos elásticos y se puede escalar automáticamente a los tamaños y la infraestructura necesarios.

Con la compatibilidad nativa con el escalado automático, CluedIn usa la eficacia de Azure para proporcionar un entorno escalable para las cargas de trabajo de datos de mayor tamaño. Es habitual que las cuentas de CluedIn tengan decenas o cientos de millones de registros en la plataforma.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

La seguridad de CluedIn concede permisos y controla el acceso a los distintos servicios mediante RBAC de Azure, con el control de claves de seguridad de Azure Key Vault y el seguimiento y el registro de acceso de Azure Monitor. Además de las cuentas de usuario autenticadas, CluedIn también admite el inicio de sesión único (SSO) y marcos de identidad. Las solicitudes a la aplicación de CluedIn usan tokens de acceso cifrados que no tienen ninguna correlación con la identidad del usuario. Con la compatibilidad nativa con Microsoft Entra ID, basta con agregar la información de SAML 2.0 a CluedIn para usarlo inmediatamente con el fin de administrar el acceso de usuarios y roles a la nueva solución de MDM.

Resistencia

CluedIn se ejecuta en modo de alta disponibilidad en el almacén de datos y en el nivel de aplicación. Debido a la separación del almacenamiento y el procesamiento, CluedIn tiene resistencia integrada y tolerancia a errores. Los distintos elementos de la aplicación CluedIn se pueden escalar y reducir verticalmente de forma independiente, para satisfacer una amplia gama de cargas de trabajo.

Excelencia operativa

CluedIn usa las canalizaciones de integración continua y entrega continua (CI/CD) de Azure Pipelines para controlar las implementaciones y las actualizaciones graduales en el entorno de AKS. Los clientes también pueden usar esta infraestructura para implementar sus propias personalizaciones en CluedIn.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Los costos de CluedIn son inicialmente bajos y, en función de la utilización, los precios se escalarán verticalmente. Los presupuestos se pueden establecer directamente dentro de Azure Portal, para que pueda mantener el control de los costos operativos.

Dimensionamiento de Azure e inicio de una prueba

Puede iniciar una prueba de CluedIn en el sitio web, que también puede ayudarle a establecer el ámbito de los costos de hospedaje de Azure con estimaciones de Azure precompiladas para entornos de diferentes tamaños.

Implementación de este escenario

Para implementar CluedIn con fines de desarrollo y evaluación mediante Docker, consulte Guía de instalación local.

Para instalar CluedIn en producción, las instancias de CluedIn se pueden instalar directamente desde Azure Marketplace en un inquilino propio de Azure.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes