Partager via


Concevoir un environnement de recherche sécurisé pour les données réglementées

Azure Data Science Virtual Machines
Azure Machine Learning
Azure Data Factory

Cet article décrit un environnement de recherche sécurisé qui permet aux chercheurs d’accéder à des données sensibles sous un niveau élevé de contrôle et de protection. Cet article s’applique aux organisations qui doivent respecter la conformité réglementaire ou d’autres exigences de sécurité strictes.

Architecture

Diagramme montrant un environnement de recherche sécurisé.

Téléchargez un fichier Visio de cette architecture.

Flux de données

Le flux de données ou suivant correspond au diagramme ci-dessus :

  1. Les propriétaires de données chargent les jeux de données dans un compte de stockage d’objets Blob public. Ils utilisent des clés gérées par Microsoft pour chiffrer les données.

  2. Azure Data Factory utilise un déclencheur qui commence à copier le jeu de données chargé à un emplacement spécifique, ou à importer un chemin d’accès, sur un autre compte de stockage qui a des contrôles de sécurité. Vous ne pouvez accéder au compte de stockage qu’à l’aide d’un point de terminaison privé. Un principal de service disposant d’autorisations limitées peut également accéder au compte. Data Factory supprime la copie d’origine, ce qui rend le jeu de données immuable.

  3. Les chercheurs accèdent à l’environnement sécurisé via une application de diffusion en continu à l’aide d’Azure Virtual Desktop en tant que jump box privilégié.

  4. Le jeu de données du compte de stockage sécurisé est présenté aux machines virtuelles de science des données que vous approvisionnez dans un environnement réseau sécurisé pour le travail de recherche. La majeure partie de la préparation des données est effectuée sur ces machines virtuelles.

  5. L’environnement sécurisé dispose d’Azure Machine Learning et d’Azure Synapse Analytics, qui peuvent accéder au jeu de données via un point de terminaison privé. Vous pouvez utiliser ces plateformes pour entraîner, déployer, automatiser et gérer des modèles Machine Learning ou utiliser Azure Synapse Analytics. À ce stade, vous pouvez créer des modèles qui répondent aux directives réglementaires. Dé-identifier toutes les données de modèle en supprimant les informations personnelles.

  6. Les modèles ou les données dé-identifiées sont enregistrés dans un emplacement distinct sur le stockage sécurisé ou le chemin d’exportation. Lorsque vous ajoutez de nouvelles données au chemin d’exportation, vous déclenchez une application logique. Dans cette architecture, l’application logique est en dehors de l’environnement sécurisé, car aucune donnée n’est envoyée à l’application logique. Sa seule fonction consiste à envoyer des notifications et à démarrer le processus d’approbation manuel.

    L’application logique démarre un processus d’approbation en demandant une révision des données mises en file d’attente à exporter. Les réviseurs manuels permettent de s’assurer que les données sensibles ne sont pas exportées. Après le processus de révision, les données sont approuvées ou refusées.

    Remarque

    Si une étape d’approbation n’est pas requise lors de l’exfiltration, vous pouvez omettre l’étape de l’application logique.

  7. Si les données désidentifiées sont approuvées, elles sont envoyées à l’instance Data Factory.

  8. Data Factory déplace les données vers le compte de stockage public dans un conteneur distinct pour permettre aux chercheurs externes d’accéder à leurs données et modèles exportés. Vous pouvez également approvisionner un autre compte de stockage dans un environnement avec un niveau de sécurité inférieur.

Composants

Cette architecture se compose de plusieurs services Azure qui mettez à l’échelle les ressources en fonction de vos besoins. Les sections suivantes décrivent ces services et leurs rôles. Pour obtenir des liens vers la documentation du produit afin de commencer à utiliser ces services, consultez les étapes suivantes.

Composants de la charge de travail principale

Voici les principaux composants qui déplacent et traitent les données de recherche.

  • Les machines virtuelles de science des données Azure sont des machines virtuelles que vous configurez avec des outils pour l’analytique des données et le Machine Learning. Utilisez la machine virtuelle de science des données lorsque vous avez besoin de packages ou d’outils spécifiques, tels que MATLAB ou SAP, que les environnements PaaS (Platform as a Service) ne peuvent pas prendre en charge. Pour la sécurité et la facilité d’utilisation, choisissez Machine Learning et d’autres options PaaS lorsqu’elles sont prises en charge.

  • Machine Learning est un service que vous pouvez utiliser pour entraîner, déployer, automatiser et gérer des modèles Machine Learning. Vous pouvez également l’utiliser pour gérer l’allocation et l’utilisation des ressources de calcul Machine Learning. Machine Learning est l’outil de choix pour les notebooks Jupyter pour le développement.

  • Le calcul Machine Learning est un cluster de nœuds que vous pouvez utiliser pour entraîner et tester des modèles Machine Learning et IA. Cette capacité est allouée à la demande, en fonction d’une option de mise à l’échelle automatique. Vous pouvez déployer Visual Studio Code (VS Code) en tant qu’application de streaming à partir de Virtual Desktop et la connecter au calcul Machine Learning pour un environnement de développement alternatif.

  • Stockage Blob Azure a deux instances. L’instance publique stocke temporairement les données que les propriétaires de données chargent. L’instance publique stocke également les données dé-identifiées après avoir modélisé les données dans un conteneur distinct. La deuxième instance est privée. Il reçoit les jeux de données d’entraînement et de test de Machine Learning que les scripts d’entraînement utilisent. Le stockage est monté en tant que lecteur virtuel sur chaque nœud d’un cluster de calcul Machine Learning.

  • Data Factory déplace automatiquement les données entre les comptes de stockage de différents niveaux de sécurité pour garantir la séparation des tâches.

  • Azure Synapse Analytics est un outil analytique pour le Big Data et les pipelines pour l’intégration et l’extraction, la transformation, la charge de travail. Azure Synapse Analytics est également un service préféré pour exécuter des charges de travail Apache Spark.

  • Virtual Desktop est un service que vous pouvez utiliser comme zone de rebond pour accéder aux ressources de l’environnement sécurisé avec des applications de diffusion en continu et un bureau complet, selon les besoins. Vous pouvez également utiliser Azure Bastion, mais vous devez avoir une compréhension claire des différences de contrôle de sécurité entre les deux options. Virtual Desktop présente quelques avantages, notamment :

    • Possibilité de diffuser en continu une application comme VS Code pour exécuter des notebooks sur les ressources de calcul Machine Learning.
    • Possibilité de limiter la copie, le collage et les captures d’écran.
    • Prise en charge de l’authentification Microsoft Entra sur les machines virtuelles de science des données.
  • Azure Logic Apps fournit des flux de travail automatisés à faible code pour développer les parties de déclencheur et de mise en production du processus d’approbation manuel.

Composants de gestion de la posture

Ces composants surveillent en permanence la posture de la charge de travail et de son environnement. Leur objectif est de découvrir et d’atténuer les risques dès qu’ils sont découverts.

  • Microsoft Defender pour le cloud est un service que vous pouvez utiliser pour évaluer la posture de sécurité globale de l’implémentation et fournir un mécanisme d’attestation pour la conformité réglementaire. Vous pouvez détecter les problèmes au début, au lieu de l’exécution d’audits ou d’évaluations. Utilisez des fonctionnalités pour suivre la progression, comme le score de sécurisation et le score de conformité. Ces scores sont des outils importants qui permettent de vérifier la conformité.

  • Microsoft Sentinel est une solution de gestion des informations et des événements de sécurité et une solution d’orchestration, d’automatisation et de réponse de sécurité. Vous pouvez consulter de façon centralisée les journaux et alertes de différentes sources et tirer parti des fonctionnalités d’intelligence artificielle et d’analyse de sécurité avancées pour détecter, rechercher, prévenir et réagir face aux menaces. Cette fonctionnalité fournit des insights de sécurité précieux pour vous assurer que le trafic et toutes les activités associées à l’espace de travail répondent à vos attentes.

  • Azure Monitor fournit une observabilité dans l’ensemble de votre environnement. Consultez les métriques, les journaux d’activité et les journaux de diagnostic de la plupart de vos ressources Azure sans aucune autre configuration. Les outils de gestion, tels que ceux de Defender pour le cloud, envoient également des données de journal à Azure Monitor.

Composants de gouvernance

  • Azure Policy vous aide à appliquer les normes organisationnelles et à évaluer la conformité à grande échelle.

Autres solutions

  • Cette solution utilise Data Factory pour déplacer des données vers le compte de stockage public dans un conteneur distinct pour permettre aux chercheurs externes d’avoir accès à leurs données et modèles exportés. Vous pouvez également provisionner un autre compte de stockage dans un environnement de sécurité inférieur.
  • Cette solution utilise Virtual Desktop comme une zone de rebond pour accéder aux ressources de l’environnement sécurisé avec des applications de streaming et un bureau complet. Vous pouvez également utiliser Azure Bastion, mais Virtual Desktop présente certains avantages. Ces avantages incluent la possibilité de diffuser en continu une application, de limiter les captures d’écran et de copier-coller et de prendre en charge l’authentification Microsoft Entra. Vous pouvez également envisager de configurer un VPN point à site pour une formation hors connexion localement. Ce VPN permet également de réduire le coût de plusieurs machines virtuelles pour les stations de travail.
  • Pour sécuriser les données au repos, cette solution chiffre tous les comptes Stockage Azure avec des clés gérées par Microsoft à l’aide d’un chiffrement fort. Vous pouvez également utiliser des clés gérées par le client. Vous devez stocker les clés dans un magasin de clés managé.

Détails du scénario

Ce scénario combine des données réglementées et privées auxquelles les personnes doivent accéder, mais ne sont pas autorisées à stocker ou à transmettre.

  • Les scientifiques des données en dehors de votre organisation ont besoin d’un accès total aux données pour entraîner et exporter leurs modèles sans données propriétaires ou protégées laissant l’environnement.
  • Vous devez isoler l’accès. Même les propriétaires et les consignataires de données ne sont pas autorisés à accéder aux données après leur chargement dans l’environnement.
  • Vous devez exiger une piste d’audit pour toutes les exportations transférées hors de l’environnement pour vous assurer que seuls les modèles ont été exportés.

Cas d’usage potentiels

Cette architecture a été créée à l’origine pour les établissements de recherche d’enseignement supérieur soumis aux exigences de la loi américaine sur l’assurance maladie (HIPAA, Health Insurance Portability and Accountability Act). Toutefois, vous pouvez utiliser cette conception dans n’importe quel secteur qui nécessite l’isolation des données à des fins de recherche. Voici quelques exemples :

  • Industries qui traitent des données réglementées selon les exigences de l’Institut national des normes et de la technologie (NIST).
  • Centres médicaux qui collaborent avec des chercheurs internes ou externes.
  • Industries bancaires et financières.

En suivant les conseils fournis dans cet article, vous pouvez maintenir un contrôle total de vos données de recherche, séparer les tâches et respecter des normes strictes de conformité réglementaire. Cette approche facilite également la collaboration entre les rôles clés dans un environnement axé sur la recherche, comme les propriétaires de données, les chercheurs et les approbateurs.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Fiabilité

La fiabilité permet de s’assurer que votre application tient vos engagements auprès de vos clients. Pour en savoir plus, consultez Liste de contrôle de l'examen de la conception pour la fiabilité.

La plupart des solutions de recherche sont des charges de travail temporaires et n’ont pas besoin d’être disponibles pendant très longtemps. Cette architecture est conçue comme un déploiement sur une seule région avec des zones de disponibilité. Si les besoins exigent une plus haute disponibilité, répliquez cette architecture dans plusieurs régions. Vous avez besoin d’autres composants, tels qu’un équilibreur de charge global et un serveur de distribution, pour acheminer le trafic vers toutes ces régions. Dans le cadre de votre stratégie de récupération, utilisez azure VM Image Builder pour capturer et créer une copie de l’image de base personnalisée.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour en savoir plus, consultez Liste de contrôle de l'examen de la conception pour la sécurité.

L’objectif principal de cette architecture est d’offrir un environnement de recherche sécurisé et de confiance qui limite strictement l’exfiltration des données hors de la zone sécurisée.

Sécurité du réseau

Provisionnez des ressources Azure utilisées pour stocker, tester et entraîner des jeux de données de recherche dans un environnement sécurisé. Cet environnement est un réseau virtuel Azure qui a des règles de groupe de sécurité réseau pour restreindre l’accès. Ces règles s’appliquent à :

  • L’accès entrant et sortant à l’Internet public et au sein du réseau virtuel.

  • L’accès via certains services et ports. Par exemple, cette architecture bloque toutes les plages de ports, sauf celles requises pour les services Azure, tels qu’Azure Monitor. Pour obtenir la liste complète des étiquettes de service et des services correspondants, consultez balises de service de réseau virtuel.

    L’accès à partir du réseau virtuel disposant de Virtual Desktop est limité aux méthodes d’accès approuvées sur des ports spécifiques, mais tout autre trafic est refusé. Par rapport à cet environnement, l’autre réseau virtuel doté de Virtual Desktop est relativement ouvert.

Le stockage Blob principal dans l’environnement sécurisé se trouve en dehors de l’Internet public. Vous pouvez y accéder uniquement au sein du réseau virtuel via des connexions de point de terminaison privé et des pare-feu de stockage. Utilisez-le pour limiter les réseaux à partir desquels les clients peuvent se connecter aux partages de fichiers dans Azure Files.

Cette architecture utilise l’authentification basée sur les informations d’identification pour le magasin de données principal qui se trouve dans l’environnement sécurisé. Dans ce cas, les informations de connexion, telles que l’ID d’abonnement et l’autorisation de jeton, sont stockées dans un coffre de clés. Une autre option consiste à créer un accès aux données basé sur l’identité, où vous utilisez votre compte Azure pour vérifier si vous avez accès au stockage. Dans un scénario d’accès aux données basé sur l’identité, aucune information d’authentification n’est enregistrée. Pour plus d’informations, consultez Créer des magasins de données.

Le cluster de calcul peut communiquer uniquement au sein du réseau virtuel à l’aide de l’écosystème et des points de terminaison privés Azure Private Link, au lieu d’utiliser des adresses IP publiques pour la communication. Veillez à activer aucune adresse IP publique. Pour plus d’informations sur cette fonctionnalité, actuellement en préversion, consultez Instance de calcul/cluster ou calcul serverless sans adresse IP publique.

L’environnement sécurisé utilise le calcul Machine Learning pour accéder au jeu de données via un point de terminaison privé. Vous pouvez également configurer Pare-feu Azure pour contrôler l’accès au calcul Machine Learning, qui réside dans un espace de travail Machine Learning. Utilisez Pare-feu Azure pour contrôler l’accès sortant à partir du calcul Machine Learning. Pour plus d’informations, consultez Configurer le trafic du réseau entrant et sortant.

Pour en savoir plus sur l’une des façons dont vous pouvez sécuriser un environnement Machine Learning, consultez le billet de blog Sécuriser l’environnement de service Machine Learning.

Pour les services Azure que vous ne pouvez pas configurer efficacement avec des points de terminaison privés ou pour fournir une inspection des paquets avec état, envisagez d’utiliser Pare-feu Azure ou une appliance virtuelle réseau non-Microsoft.

Gestion des identités

Accédez au stockage d’objets blob via des contrôles d’accès en fonction du rôle Azure.

Virtual Desktop prend en charge l’authentification Microsoft Entra pour les machines virtuelles de science des données.

Data Factory utilise l’identité managée pour accéder aux données du stockage d’objets Blob. Les machines virtuelles de science des données utilisent également l’identité managée pour les tâches de correction.

Sécurité des données

Pour sécuriser les données au repos, tous les comptes de stockage sont chiffrés avec des clés gérées par Microsoft qui utilisent un chiffrement fort.

Vous pouvez également utiliser des clés gérées par le client. Vous devez stocker les clés dans un magasin de clés managé. Dans cette architecture, vous déployez Azure Key Vault dans l’environnement sécurisé pour stocker des secrets tels que des clés de chiffrement et des certificats. Les ressources du coffre de clés d’accès au réseau virtuel sécurisé via un point de terminaison privé.

Considérations sur la gouvernance

Activer Azure Policy pour appliquer des normes et fournir une correction automatisée pour mettre en conformité les ressources en fonction de stratégies spécifiques. Vous pouvez appliquer les stratégies à un abonnement de projet ou au niveau d’un groupe d’administration, en tant que stratégie unique ou dans le cadre d’une initiative réglementaire.

Par exemple, dans cette architecture, la configuration de machine Azure s’applique à toutes les machines virtuelles dans l’étendue. La stratégie peut auditer les systèmes d’exploitation et la configuration des machines virtuelles de science des données.

Image de machine virtuelle

Les machines virtuelles de science des données exécutent des images de base personnalisées. Pour générer l’image de base, utilisez des technologies telles que vm Image Builder. À l’aide du Générateur d’images de machine virtuelle, vous pouvez créer une image reproductible que vous pouvez déployer si nécessaire.

L’image de base peut avoir besoin de mises à jour, telles que des fichiers binaires supplémentaires. Vous devez charger ces fichiers binaires dans le stockage d’objets blob public. Ils doivent passer par l’environnement sécurisé, comme la façon dont les propriétaires de données chargent les jeux de données.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d'informations, consultez Liste de contrôle de la révision de la conception pour l'optimisation des coûts.

Le coût des machines virtuelles de science des données dépend du choix de la série de machines virtuelles sous-jacentes. Étant donné que la charge de travail est temporaire, nous vous recommandons le plan de consommation pour la ressource d’application logique. Utilisez la calculatrice de prix Azure pour estimer les coûts en fonction du dimensionnement estimé des ressources dont vous avez besoin. Veillez à arrêter l’environnement lorsqu’il n’est pas utilisé pour optimiser les coûts et améliorer la sécurité.

Efficacité des performances

L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour en savoir plus, consultez Liste de vérification de l'examen de la conception pour l'efficacité des performances

La taille et le type des machines virtuelles de science des données doivent être appropriés pour le style de travail qu’ils effectuent. Cette architecture est destinée à soutenir un seul projet de recherche. Vous obtenez une scalabilité en ajustant la taille et le type des machines virtuelles et en choisissant les ressources de calcul disponibles pour Machine Learning.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes