Lire en anglais Modifier

Partager via


Obfuscation des données sur Azure avec Delphix et Azure Data Factory

Azure Data Factory
Azure Synapse Analytics

L’architecture suivante décrit l’utilisation de la conformité continue de Delphix dans un pipeline extraction, transformation et chargement (ETL) Azure Data Factory pour identifier et masquer les données sensibles.

Architecture

Diagramme illustrant l’architecture de la conformité continue de Delphix.

Téléchargez un fichier Visio de cette architecture.

Dataflow

Les données circulent dans le scénario comme suit :

  1. Azure Data Factory extrait les données de magasins de données sources vers un conteneur dans Azure Files à l’aide de l’activité Copier des données. Ce conteneur est appelé conteneur de données source et les données sont au format CSV.
  2. Data Factory lance un itérateur (activité ForEach) qui effectue une boucle dans une liste de travaux de masquage configurés dans Delphix. Ces travaux de masquage sont préconfigurés et masquent les données sensibles présentes dans le conteneur de données source.
  3. Pour chaque travail de la liste, l’activité Lancer le masquage s’authentifie et lance le travail de masquage en appelant les points de terminaison de l’API REST sur le moteur Delphix CC.
  4. Le moteur Delphix CC lit les données du conteneur de données source et passe par le processus de masquage.
  5. Dans ce processus de masquage, Delphix masque les données en mémoire et réécrit les données masquées résultantes dans un conteneur de fichiers Azure cible (appelé conteneur de données cible).
  6. Data Factory lance maintenant un deuxième itérateur (activité ForEach) qui supervise les exécutions.
  7. Pour chaque exécution (travail de masquage) démarrée, l’activité Vérifier l’état vérifie le résultat du masquage.
  8. Une fois tous les travaux de masquage terminés, Data Factory charge les données masquées du conteneur de données cible vers la destination spécifiée.

Composants

  • Azure Data Factory est un service ETL qui permet le scale-out de l’intégration et la transformation de données serverless. Il offre une interface utilisateur sans code pour une création intuitive et une supervision et une gestion dans une seule et même vue.
  • Azure Synapse Analytics est un service d’analyse qui réunit l’intégration de données, l’entreposage des données d’entreprise et l’analyse du Big Data. Il inclut des pipelines Azure Data Factory pour fournir une intégration de données.
  • Le Stockage Azure stocke les données extraites des magasins de données sources et les données masquées qui seront chargées dans les magasins de données de destination.
  • Facultatif : le Réseau virtuel Azure fournit des fonctionnalités de réseau privé pour les ressources Azure qui ne font pas partie de l’espace de travail Azure Synapse. Il vous permet de gérer l’accès, la sécurité et le routage entre les ressources.
  • Autres composants : en fonction des magasins de données utilisés comme source et destination, d’autres composants peuvent être ajoutés. Ces magasins de données peuvent varier en fonction de vos besoins.

Autres solutions

Vous pouvez également effectuer une obfuscation des données à l’aide de Microsoft Presidio. En savoir plus sur cette option sur Presidio - Data Protection and De-identification SDK.

Détails du scénario

Il y a eu une explosion des données au cours des dernières années. Pour déverrouiller la valeur stratégique des données, il doit être dynamique et portable. Les données présentes dans des silos limitent sa valeur stratégique et sont difficiles à utiliser à des fins analytiques.

La décomposition des silos de données est difficile :

  • Les données doivent être manipulées pour s’adapter à un format commun. Les pipelines ETL doivent être adaptés à chaque système d’enregistrement et doivent être mis à l’échelle pour prendre en charge les jeux de données massifs des entreprises modernes.
  • La conformité aux réglementations concernant les informations sensibles doit être conservée lorsque les données sont déplacées à partir de systèmes d’enregistrement. Le contenu client et d’autres éléments sensibles doivent être masqués sans affecter la valeur commerciale du jeu de données.

qu’est-ce qu’Azure Data Factory ?

Azure Data Factory est un service d’intégration de données serverless complètement managé. Il offre une expérience visuelle enrichie pour l’intégration de sources de données avec plus de 100 connecteurs intégrés et sans frais supplémentaires. Créez facilement des processus ETL et extraction, transformation et chargement (ELT) sans code dans un environnement intuitif ou écrivez votre propre code. Fournissez ensuite des données intégrées à Azure Synapse Analytics pour exploiter toute la puissance de vos données par le biais d’insights métier. Les pipelines data factory sont également disponibles dans Azure Synapse Analytics.

Qu’est-ce que la conformité continue de Delphix (Delphix CC) ?

La conformité continue de Delphix identifie les informations sensibles et automatise le masquage des données. Elle offre un moyen rapide, automatisé et piloté par l’API de fournir des données sécurisées où elles sont nécessaires dans les organisations.

Comment Delphix CC et Data Factory résolvent-ils l’automatisation des données conformes ?

Le déplacement de données sécurisées est un défi pour toutes les organisations. Delphix facilite la conformité des données cohérente, tandis que Data Factory permet de connecter et de déplacer des données de manière fluide. Ensemble, Delphix et Data Factory combinent des offres de conformité et d’automatisation de pointe pour faciliter la livraison de données à la demande et conformes à tous.

En utilisant les connecteurs de source de données proposés par Data Factory, nous avons créé deux pipelines ETL qui automatisent les étapes suivantes :

  • Lire les données du système d’enregistrement et les écrire dans des fichiers CSV dans Stockage Blob Azure.

  • Fournir à la conformité continue Delphix ce dont elle a besoin pour identifier les colonnes qui peuvent contenir des données sensibles et affecter des algorithmes de masquage appropriés.

  • Exécuter un travail de masquage de Delphix sur les fichiers pour remplacer les éléments de données sensibles par des valeurs similaires mais fictives.

  • Charger les données conformes dans n’importe quel magasin de données pris en charge par Data Factory.

Cas d’usage potentiels

Activer en toute sécurité Azure Data Services pour des solutions propres au secteur

  • Identifiez et masquez les données sensibles dans des applications volumineuses et complexes, où le contenu client serait autrement difficile à identifier. Delphix permet aux utilisateurs finaux de déplacer automatiquement des données conformes à partir de sources telles que SAP, Salesforce et Oracle EBS vers des couches de service à valeur élevée, comme Microsoft Synapse.
  • Utilisez les connecteurs puissants et complets fournis par Microsoft Azure pour déverrouiller, masquer et migrer vos données en toute sécurité, quel que soit leur origine.

Résoudre une conformité réglementaire complexe pour les données

  • Placez automatiquement l’infrastructure d’algorithme Delphix exhaustive pour répondre aux exigences réglementaires de vos données.
  • Appliquez des règles prêtes pour les données pour les besoins réglementaires tels que CCPA, LGPD, HIPAA et d’autres.

Accélérer le décalage « DevSecOps » vers la gauche

  • Équipez vos pipelines de développement et d’analytique (Azure DevOps, Jenkins, Harness) et d’autres workflows d’automatisation avec des données de niveau production en masquant systématiquement et de façon déterministe les données sensibles dans les pipelines Data Factory centraux.
  • Masquez les données de manière cohérente entre les sources de données, en conservant l’intégrité référentielle pour les tests d’application intégrés. Par exemple, le nom de George doit toujours être masqué par Elliot ou un numéro de sécurité sociale donné (SSN) doit toujours être masqué au même SSN, que George et son SSN apparaissent dans Oracle, Salesforce ou SAP.

Réduire le temps d’apprentissage de l’algorithme IA/ML avec des analyses conformes

  • Masquez les données d’une manière qui n’augmente pas les cycles d’entraînement.
  • Conservez l’intégrité des données lors du masquage pour éviter d’affecter la précision du modèle/de la prédiction.

N’importe quel connecteur Azure Data Factory ou Azure Synapse Analytics peut être utilisé pour faciliter un cas d’usage donné.

Principaux avantages

  • Connectivité universelle
  • Masquage déterministe réaliste qui maintient l’intégrité référentielle
  • Identification préemptive des données sensibles pour les applications d’entreprise clés
  • Exécution cloud native
  • Déploiement basé sur un modèle
  • Évolutif

Exemple d’architecture

L’exemple suivant a été fourni par un client anonyme. Il n’est destiné qu’à un exemple pour la façon dont on peut concevoir un environnement pour ce cas d’usage de masquage.

Diagramme d’un exemple d’architecture fourni par un client anonyme.

Dans l’exemple d’architecture ci-dessus :

  • Azure Data Factory ou Azure Synapse Analytics ingère/se connecte à la production, les données non masquées dans la zone d’atterrissage
  • Les données sont déplacées vers la mise en lot de données dans Stockage Azure
  • Le montage NFS de données de production vers les POD de Delphix CC permet au pipeline d’appeler le service Delphix CC
  • Les données masquées sont retournées pour la distribution dans les environnements Data Factory et inférieurs

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Delphix CC masque de manière irréversible les valeurs de données avec des données réalistes qui restent entièrement fonctionnelles, ce qui permet de développer du code de qualité supérieure. Parmi l’ensemble riche d’algorithmes disponibles pour transformer des données en spécifications utilisateur, Delphix CC a un algorithme breveté qui produit intentionnellement des collisions de données, tandis qu’en même temps permet de saler des données avec des valeurs spécifiques nécessaires pour les routines de validation potentielles exécutées sur le jeu de données masqué. D’un point de vue Confiance nulle, les opérateurs n’ont pas besoin d’accéder aux données réelles pour le masquer. En outre, toute la livraison de données masquées du point A au point B peut être automatisée via des API.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

En ajustant les valeurs sur la calculatrice de prix Azure, vous pouvez voir comment vos exigences particulières affectent les coûts. Azure Synapse : vous pouvez mettre à l’échelle les niveaux de calcul et de stockage indépendamment. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.

Les coûts Data Factory ou Azure Synapse Analytics sont basés sur le nombre d’opérations de lecture/écriture et de surveillance et sur les activités d’orchestration effectuées dans une charge de travail. Vos coûts augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.

Delphix CC : Contrairement à d’autres produits de conformité des données sur le marché, le masquage ne nécessite pas une copie physique complète de l’environnement masqué. La redondance de l’environnement peut être extrêmement coûteuse en raison du temps de configuration et de maintenance de l’infrastructure, du coût de l’infrastructure elle-même et du temps passé à charger à plusieurs reprises des données physiques dans l’environnement de masquage.

Efficacité des performances

L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour plus d’informations, consultez Vue d’ensemble du pilier d’efficacité des performances.

Delphix CC est horizontalement et verticalement évolutif. Les transformations se produisent en mémoire et peuvent être parallélisées. Le produit s’exécute en tant que service et en tant qu’appliance à plusieurs nœuds, ce qui permet aux architectures de solutions de toutes tailles en fonction de l’application. Delphix est le leader du marché dans la fourniture de jeux de données masqués extrêmement volumineux.

Le masquage des flux peut être augmenté pour impliquer plusieurs cœurs de processeur dans un travail. (Des recommandations de configuration et des détails sur la modification de l’allocation de mémoire sont disponibles ici : https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Pour des performances optimales pour les jeux de données de taille supérieure à 1 To, le masquage Hyperscale Delphix interrompt les jeux de données volumineux et complexes en de nombreux modules, puis orchestre les travaux de masquage sur plusieurs moteurs de conformité continus.

Déployer ce scénario

  1. Déployer le moteur Delphix CC sur Azure
  2. Dans Data Factory, déployez à la fois les modèles Data Factory de la conformité continue de Delphix : profilage (profilage Delphix CC) et la conformité continue de Delphix : masquage (masquage Delphix CC). Ces modèles fonctionnent à la fois pour les pipelines Azure Synapse Analytics et Azure Data Factory.
  3. Dans les composants Copier des données, configurez les magasins de données source et cible souhaités. Dans les composants d’activité web, entrez l’adresse IP de l’application Et le nom d’hôte de l’application Delphix et les informations d’identification pour s’authentifier auprès des API Delphix CC.
  4. Exécutez le modèle Data Factory de profilage Delphix CC pour la configuration initiale, et chaque fois que vous souhaitez réidentifier les données sensibles (par exemple, s’il y a eu une modification de schéma). Ce modèle fournit à Delphix CC la configuration initiale requise pour rechercher les colonnes qui peuvent contenir des données sensibles.
  5. Créez un ensemble de règles indiquant la collection de données que vous souhaitez profiler. Exécutez un travail de profilage dans l’interface utilisateur de Delphix pour identifier et classifier les champs sensibles pour cet ensemble de règles et affecter les algorithmes de masquage appropriés.
  6. Examinez et modifiez les résultats à partir de l’écran Inventaire comme vous le souhaitez. Une fois que vous êtes satisfait des résultats et que vous souhaitez masquer en conséquence, créez un travail de masquage.
  7. Revenez dans l’interface utilisateur de Data Factory et ouvrez le modèle Data Factory de masquage Delphix CC. Fournissez l’ID du travail de masquage de l’étape ci-dessus, puis exécutez le modèle.
  8. À la fin de cette étape, vous aurez masqué les données dans le magasin de données cible de votre choix.

Notes

Vous aurez besoin de l’adresse IP et du nom d’hôte de l’application Delphix avec des informations d’identification pour vous authentifier auprès des API Delphix.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Autres contributeurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Consultez les ressources Delphix suivantes :

Apprenez-en plus sur les services Azure clés dans cette solution :