Compartir a través de


Uso de Delphix para enmascaramiento de datos en Azure Data Factory y Azure Synapse Analytics

Azure Data Factory
Azure Synapse Analytics

En la arquitectura siguiente se describe el uso de delphix Continuous Compliance (Delphix CC) en una canalización de extracción, transformación y carga (ETL) de Azure Data Factory para identificar y enmascarar datos confidenciales.

Arquitectura

Diagrama que muestra la arquitectura cc de Delphix.

El diagrama muestra un flujo de trabajo de procesamiento de datos de izquierda a derecha que usa los servicios de Microsoft Azure. Consta de tres secciones principales. Una sección de Data Factory que incluye varios componentes está en el centro y las secciones que incluyen Data Factory y almacenes de datos de Azure Synapse Analytics se encuentran en cualquiera de los lados de la sección principal. En el paso 1, los datos se extraen de almacenes de datos admitidos por Data Factory o Azure Synapse Analytics y se almacenan en Azure Files de origen. Source Azure Files apunta a una actividad ForEach, que representa el paso 2. En el paso 6, la actividad ForEach apunta a otra actividad ForEach. En el paso 8, la segunda actividad ForEach apunta a los almacenes de datos de Data Factory y Azure Synapse Analytics a través de una flecha etiquetada. En el paso 3, la primera actividad ForEach apunta a una sección Delphix a través de una flecha etiquetada como iniciar enmascaramiento. La sección Delphix incluye un flujo: leer datos sin máscara, preprocesar, máscara de datos, postprocesar y escribir datos enmascarados. Esta sección también está etiquetada como entorno de ejecución de integración autohospedado de Azure. En el paso 5, esta sección apunta a Azure Files como destino y, a continuación, a la flecha del paso 8. Una flecha de doble cara etiquetada como puntos de estado de comprobación de la sección Delphix a la segunda actividad ForEach, que representa el paso 7. La sección Delphix y la sección principal de Data Factory están conectadas a través de redes virtuales.

Descargue un archivo Visio de esta arquitectura.

Nota

Esta solución es específica de Azure Data Factory y canalizaciones de Azure Synapse Analytics. Las plantillas Dephix CC Profiling y Delphix CC Masking aún no están disponibles para Microsoft Fabric Data Factory. Póngase en contacto con su representante de la cuenta de Perforce Delphix sobre el soporte técnico de Microsoft Fabric.

Flujo de datos

El siguiente flujo de datos corresponde al diagrama anterior:

  1. Data Factory extrae datos de almacenes de datos de origen a un contenedor de Azure Files mediante la actividad Copiar datos. Este contenedor se conoce como contenedor de datos de origen y los datos están en formato CSV.

  2. Data Factory inicia un iterador (actividad ForEach) que recorre en bucle una lista de trabajos de enmascaramiento configurados en Delphix. Estos trabajos de enmascaramiento preconfigurados enmascaran datos confidenciales en el contenedor de datos de origen.

  3. Para cada trabajo de la lista, la actividad Iniciar enmascaramiento se autentica e inicia el trabajo de enmascaramiento llamando a los puntos de conexión de la API REST en el motor cc de Delphix.

  4. El motor Delphix CC lee datos del contenedor de datos de origen y se ejecuta a través del proceso de enmascaramiento.

  5. En este proceso de enmascaramiento, Delphix enmascara los datos en memoria y escribe los datos enmascarados resultantes en un contenedor de Azure Files de destino, que se conoce como contenedor de datos de destino.

  6. Data Factory inicia un segundo iterador (actividad ForEach) que supervisa las implementaciones.

  7. Para cada implementación (trabajo de enmascaramiento) que se inicia, la actividad Comprobar estado comprueba el resultado del enmascaramiento.

  8. Una vez completados correctamente todos los trabajos de enmascaramiento, Data Factory carga los datos enmascarados desde el contenedor de datos de destino al destino especificado.

Componentes

  • Data Factory es un servicio ETL para la integración y transformación de datos sin servidor de escalabilidad horizontal. Proporciona una interfaz de usuario sin código para la creación intuitiva y la supervisión y administración unificadas. En esta arquitectura, Data Factory organiza todo el flujo de trabajo de enmascaramiento de datos. Este flujo de trabajo incluye la extracción de datos, el inicio de trabajos de enmascaramiento, las operaciones de supervisión y la carga de datos enmascarados en almacenes de destino.

  • Azure Synapse Analytics es un servicio de análisis que combina la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos. En esta arquitectura, Azure Synapse Analytics puede servir como destino para los datos enmascarados e incluye canalizaciones de Data Factory para la integración de datos.

  • Azure Storage es una solución basada en la nube que proporciona almacenamiento escalable para datos estructurados y no estructurados. En esta arquitectura, almacena los datos de origen sin procesar y los datos de salida enmascarados. Azure Storage actúa como capa de almacenamiento intermedia para los datos que se cargan en almacenes de datos de destino.

  • Azure Virtual Network es un entorno de red privado y aislado en Azure. En esta arquitectura, Virtual Network proporciona funcionalidades de red privadas para los recursos de Azure que no forman parte del área de trabajo de Azure Synapse Analytics. Permite administrar el acceso, la seguridad y el enrutamiento entre recursos.

  • Otros componentes pueden incluir varios almacenes de datos de origen y destino, en función del caso de uso específico. Estos componentes se integran en la arquitectura en función de los orígenes de datos que use, como SAP, Salesforce o Oracle EBS.

Alternativas

También puede realizar ofuscación de datos mediante Microsoft Presidio. Para obtener más información, consulte Presidio data protection and de-identification SDK (SDK de desidentificación y protección de datos de Presidio).

Detalles del escenario

El volumen de datos aumentó rápidamente en los últimos años. Para desbloquear el valor estratégico de los datos, debe ser dinámico y portátil. Los datos en silos limitan su valor estratégico y son difíciles de usar con fines analíticos.

La separación de los silos de datos presenta desafíos:

  • Los datos deben manipularse para ajustarse a un formato común. Las canalizaciones de ETL deben adaptarse a cada sistema de registros y deben escalarse para admitir los conjuntos de datos masivos de las empresas modernas.

  • El cumplimiento de las regulaciones relativas a la información confidencial debe mantenerse cuando los datos se mueven de sistemas de registro. Los datos del cliente y otros elementos confidenciales deben ocultarse sin afectar al valor empresarial del conjunto de datos.

¿Qué es Data Factory?

Data Factory es un servicio de integración de datos administrado y sin servidor. Proporciona una experiencia visual para integrar orígenes de datos con más de 100 conectores integrados sin mantenimiento, sin costo adicional. Construye fácilmente ETL y extrae, carga, transforma (ELT) procesa código sin código en un entorno intuitivo o escribe tu propio código. Para desbloquear la eficacia de los datos a través de información empresarial, proporcione datos integrados a Azure Synapse Analytics. Azure Synapse Analytics también incluye canalizaciones de Data Factory.

¿Qué es Delphix CC?

Delphix CC identifica información confidencial y automatiza el enmascaramiento de datos. Ofrece una manera automatizada controlada por API para proporcionar datos seguros.

¿Cómo resuelven CC de Delphix y Data Factory la automatización de los datos compatibles?

Delphix simplifica el cumplimiento de los datos, mientras que Data Factory permite la integración y el movimiento de datos. Juntos, Delphix y Data Factory combinan ofertas de automatización y cumplimiento líderes del sector para simplificar la entrega de datos conformes a petición.

Esta solución usa conectores de origen de datos de Data Factory para crear dos canalizaciones ETL que automatizan los pasos siguientes:

  • Leer los datos del sistema de registro y escribirlos en archivos CSV en Azure Blob Storage.

  • Proporcione a Delphix CC requisitos para identificar columnas que puedan contener datos confidenciales y asignar algoritmos de enmascaramiento adecuados.

  • Ejecute un trabajo de enmascaramiento de Delphix en los archivos para reemplazar los elementos de datos confidenciales por valores ficticios pero similares.

  • Cargue los datos compatibles con cualquier almacén de datos compatible con Data Factory.

Posibles casos de uso

Activación de servicios de datos de Azure para soluciones específicas del sector de forma segura

  • Identificar y enmascarar datos confidenciales en aplicaciones grandes y complejas, donde los datos del cliente son difíciles de identificar. Delphix permite a los usuarios mover automáticamente datos compatibles de orígenes como SAP, Salesforce y Oracle E-Business Suite (EBS) a capas de servicio de alto valor, como Azure Synapse Analytics.

  • Use conectores de Microsoft Azure para desbloquear, enmascarar y migrar los datos de cualquier origen de forma segura.

Solución de un cumplimiento normativo complejo para los datos

  • Use el marco de algoritmo delphix para abordar los requisitos normativos de los datos.

  • Aplicar reglas listas para datos para necesidades normativas, como la Ley de Privacidad del Consumidor de California (CCPA), la Ley general de protección de datos (Lei Geral de Proteção de Dados, LGPD) y la Ley de Portabilidad y Responsabilidad del Seguro de Salud (HIPAA).

Aceleración del desplazamiento de DevSecOps a la izquierda

  • Proporcione datos de nivel de producción a las canalizaciones de desarrollo y análisis, como Azure DevOps, Jenkins y Harness, y otros flujos de trabajo de automatización. Para ello, enmascara los datos confidenciales en canalizaciones centralizadas de Data Factory.

  • Enmascara los datos de forma coherente entre orígenes de datos para mantener la integridad referencial para las pruebas de aplicaciones integradas. Por ejemplo, el nombre George siempre debe enmascararse en Elliot. O bien, un número de seguridad social determinado (SSN) siempre debe enmascararse en el mismo SSN, tanto si George como el SSN de George aparecen en Oracle, Salesforce o SAP.

Aceleración del entrenamiento de algoritmos de inteligencia artificial y aprendizaje automático mediante análisis compatibles

  • Enmascara los datos sin aumentar los ciclos de entrenamiento.

  • Conservar la integridad de los datos al enmascarar para evitar que afecte a la precisión del modelo y la predicción.

  • Use cualquier conector de Data Factory o Azure Synapse Analytics para facilitar un caso de uso determinado.

Ventajas principales

  • Conectividad universal
  • Enmascaramiento realista y determinista que mantiene la integridad referencial
  • Identificación preventiva de datos confidenciales para aplicaciones empresariales clave
  • Implementación nativa de la nube
  • Implementación basada en plantillas
  • Escalable

Arquitectura de ejemplo

En el ejemplo siguiente se muestra cómo puede diseñar un entorno para este caso de uso de enmascaramiento.

Diagrama de una arquitectura de ejemplo.

En el diagrama se presenta una arquitectura de varias capas dividida en tres secciones principales: datos de producción de Azure Akora, entorno de producción en la nube de Azure del cliente y servicios compartidos de producción empresarial. A la izquierda, la sección Azure Akora incluye zonas etiquetadas como zona de aterrizaje, zona de una sola región (SRZ), zona mantenida por la empresa y zona de línea de negocio (LOB). Estas zonas se conectan a Data Factory, que mueve los datos de producción sin máscara a una carpeta in y, más adelante, a una carpeta de salida después del procesamiento. En el centro, el entorno de producción en la nube de Azure del cliente muestra una secuencia de cuatro pasos numerados que Data Factory administra: recuperar credenciales, crear instancias de pods de AKS y montar carpetas del sistema de archivos de red (NFS), ejecutar trabajos delphix y finalizar pods. Estos pasos interactúan con los POD del motor cc de Delphix que se ejecutan en Azure Kubernetes Service (AKS). El motor accede a In Folder a través de NFS, realiza enmascaramiento y escribe datos enmascarados en la carpeta Out. A la derecha, la sección servicios compartidos de producción empresarial incluye repositorios de Microsoft Entra ID, Azure Container Registry y GitHub, que admiten la autenticación, la administración de contenedores y la configuración de metadatos. El diagrama usa flechas direccionales para mostrar el flujo de datos entre componentes e incluye una leyenda para explicar iconos y líneas codificadas por colores que representan datos sin máscara y enmascarados.

La arquitectura de ejemplo anterior tiene los siguientes componentes:

  • Data Factory o Azure Synapse Analytics ingiere y se conecta a los datos de producción y sin máscara en la zona de aterrizaje.
  • Los datos se mueven al almacenamiento provisional de datos en Storage.
  • Un montaje del sistema de archivos de red (NFS) de datos de producción en poD cc de Delphix permite a la canalización llamar al servicio Cc delphix.
  • Los datos enmascarados se devuelven para la distribución dentro de Data Factory y entornos inferiores.

Consideraciones

Estas consideraciones implementan los pilares del Azure Well-Architected Framework, que es un conjunto de principios rectores que puede utilizar para mejorar la calidad de una carga de trabajo. Para obtener más información, vea Well-Architected Framework.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el uso indebido de sus valiosos datos y sistemas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para seguridad.

Delphix CC enmascara de forma irreversible los valores de datos con datos realistas que permanecen totalmente funcionales, lo que permite el desarrollo de código de mayor calidad. Entre el conjunto de algoritmos disponibles para transformar datos en especificaciones de usuario, Delphix CC tiene un algoritmo patentado. El algoritmo genera intencionadamente colisiones de datos y permite sal de datos con valores específicos necesarios para posibles rutinas de validación en el conjunto de datos enmascarado. Desde una perspectiva de confianza cero, los operadores no necesitan acceso a los datos reales para enmascararlos. Toda la entrega de datos enmascarados desde el punto A al punto B se puede automatizar a través de las API.

Optimización de costos

La optimización de costos se centra en formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costes.

Para ver cómo afectan los requisitos específicos al costo, ajuste los valores en la calculadora de precios de Azure.

Azure Synapse Analytics: Puede escalar los niveles de proceso y almacenamiento de forma independiente. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan a medida que ingiere datos.

Data Factory o Azure Synapse Analytics: Los costos se basan en el número de operaciones de lectura y escritura, operaciones de supervisión y actividades de orquestación para cada carga de trabajo. Los costos aumentan con cada flujo de datos adicional y la cantidad de datos que cada uno procesa.

Delphix CC: A diferencia de otros productos de cumplimiento de datos, Delphix no requiere una copia física completa del entorno para realizar el enmascaramiento.

La redundancia del entorno puede ser costosa debido a varias razones:

  • El tiempo necesario para configurar y mantener la infraestructura
  • El costo de la propia infraestructura
  • El tiempo que dedica a cargar datos físicos repetidamente en el entorno de enmascaramiento

Eficiencia del rendimiento

La eficiencia del rendimiento hace referencia a la capacidad de escalado de la carga de trabajo para satisfacer las demandas de los usuarios de forma eficaz. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la eficiencia del rendimiento.

Delphix CC es escalable horizontal y verticalmente. Las transformaciones se producen en memoria y se pueden paralelizar. El producto se ejecuta como servicio y como dispositivo de varios nodos, por lo que puede diseñar arquitecturas de solución de cualquier tamaño en función de la aplicación. Delphix es el líder del mercado en la entrega de grandes conjuntos de datos enmascarados.

Se pueden aumentar los flujos de enmascaramiento para interactuar con varios núcleos de CPU en un trabajo. Para obtener más información sobre cómo modificar la asignación de memoria, consulte Creación de trabajos de enmascaramiento.

Para obtener un rendimiento óptimo de los conjuntos de datos de más de 1 TB de tamaño, El enmascaramiento de hiperescala de Delphix divide los conjuntos de datos en numerosos módulos y, a continuación, organiza los trabajos de enmascaramiento en varios motores de cumplimiento continuo.

Implementación de este escenario

  1. Implemente el motor cc de Delphix en Azure.

  2. En Data Factory, implemente las plantillas Dephix CC Profiling y Delphix CC Masking . Estas plantillas funcionan para canalizaciones de Azure Synapse Analytics y Data Factory.

  3. En los componentes Copiar datos, configure los almacenes de datos de origen y destino deseados. En los componentes de actividad web, escriba la dirección IP o el nombre de host de la aplicación Delphix y las credenciales para autenticarse con las API cc de Delphix.

  4. Ejecute la plantilla Dephix CC Profiling Data Factory para la configuración inicial y en cualquier momento en que quiera volver a identificar datos confidenciales, como un cambio de esquema. Esta plantilla proporciona Alphix CC con la configuración inicial que requiere para buscar columnas que puedan contener datos confidenciales.

  5. Cree un conjunto de reglas que indique la colección de datos que desea generar perfiles. Ejecute un trabajo de generación de perfiles en la interfaz de usuario de Delphix para identificar y clasificar campos confidenciales para ese conjunto de reglas y asignar algoritmos de enmascaramiento adecuados.

  6. Revise y modifique los resultados de la pantalla de inventario según sea necesario. Cuando quiera aplicar el enmascaramiento, cree un trabajo de enmascaramiento.

  7. En la interfaz de usuario de Data Factory, abra la plantilla Delphix CC Masking Data Factory. Proporcione el identificador de trabajo de enmascaramiento del paso anterior y, a continuación, ejecute la plantilla.

  8. Los datos enmascarados aparecen en el almacén de datos de destino que prefiera.

Nota

Necesita la dirección IP de la aplicación Delphix y el nombre de host con credenciales para autenticarse en las API de Delphix.

Colaboradores

Microsoft mantiene este artículo. Los colaboradores siguientes escribieron este artículo.

Creadores de entidad de seguridad:

  • Tess Maggio | Responsable de producto 2
  • Arun Saju | Ingeniero sénior de personal
  • David Wells | Director sénior, Jefe de producto de Cumplimiento continuo

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Consulte los siguientes recursos de Delphix:

Obtenga más información sobre los servicios clave de Azure en esta solución: