Cet article présente une solution destinée à l’analyse génomique et à la création de rapports. Les processus et les résultats sont adaptés aux scénarios de médecine de précision ou aux domaines médicaux utilisant le profilage génétique.
Architecture
Ce diagramme se compose de deux zones. La première, sur la gauche, contient l’étiquette Azure Data Factory pour l’orchestration. La seconde contient les vues d’étiquette des médecins. La première zone contient plusieurs zones plus petites représentant des données ou divers composants Azure. Les flèches relient les zones et les étiquettes numérotées qui s’y trouvent flèches correspondent aux étapes numérotées dans le texte du document. Deux flèches évoluent entre les zones, se terminant par la zone des vues des médecins. Une flèche pointe vers une icône de médecin. L’autre pointe vers une icône Power BI.
Téléchargez un fichier Visio de cette architecture.
Workflow
Azure Data Factory orchestre le workflow :
Data Factory transfère l’exemple de fichier initial vers Stockage Blob Azure. Le fichier se présente au format FASTQ.
Microsoft Genomics exécute une analyse secondaire sur le fichier.
Microsoft Genomics stocke la sortie dans Stockage Blob dans l’un des formats suivants :
- VCF (Variant Call Format)
- GVCF (Genomic VCF)
Jupyter Notebook annote le fichier de sortie. Le notebook s’exécute sur Azure Databricks.
Azure Data Lake Storage stocke le fichier annoté.
Jupyter Notebook fusionne le fichier avec d’autres jeux de données et analyse ces dernières. Le notebook s’exécute sur Azure Databricks.
Data Lake Storage stocke les données traitées.
Azure Healthcare APIs regroupe les données dans un pack FHIR (Fast Healthcare Interoperability Resources). Les données cliniques sont transférées dans le dossier médical électronique du patient (EHR).
Les médecins affichent les résultats dans les tableaux de bord Power BI.
Components
Cette solution utilise les composants suivants :
Microsoft Genomics
Microsoft Genomics offre un pipeline génomique efficace et précis qui met en œuvre les meilleures pratiques du secteur. Son moteur à hautes performances est optimisé pour les tâches suivantes :
- Lecture de fichiers volumineux de données génomiques
- Traitement efficace des données sur de nombreux cœurs
- Tri et filtrage des résultats
- Écriture des résultats dans des fichiers de sortie
Pour optimiser le débit, ce moteur utilise une variante d’appelant HaplotypeCaller BWA (Burrows-Wheeler Aligner) et GATK (Genome Analysis Toolkit). Le moteur utilise également plusieurs autres composants qui composent les pipelines génomiques standard. Les exemples incluent le marquage en double, le réétalonnage du score de qualité de base et l’indexation. En quelques heures, le moteur peut traiter un seul échantillon génomique sur un serveur multicœur unique. Le traitement commence par des lectures brutes. Il produit des lectures alignées et des appels de variants.
En interne, le contrôleur Microsoft Genomics gère ces aspects du processus :
- Distribution de lots de génomes sur des pools de machines dans le cloud
- Maintenance d’une file d’attente de requêtes entrantes
- Distribution des requêtes aux serveurs qui exécutent le moteur génomique
- Surveillance des performances et de la progression des serveurs
- Évaluation des résultats
- Exécution du traitement de manière fiable et sécurisée à grande échelle, derrière une API de service web sécurisée
Vous pouvez facilement utiliser les résultats de Microsoft Genomics dans des services d’analyse tertiaire et de Machine Learning. Microsoft Genomics étant un service cloud, vous n’avez pas besoin de gérer ou de mettre à jour du matériel ou des logiciels.
Autres composants
Data Factory est un service d’intégration qui fonctionne avec des données provenant de magasins de données disparates. Vous pouvez utiliser cette plateforme complètement managée et serverless pour orchestrer et automatiser des workflows. Plus précisément, les pipelines Data Factory transfèrent les données vers Azure dans cette solution. Une séquence de pipelines déclenche ensuite chaque étape du workflow.
Stockage Blob offre un stockage d’objets cloud optimisé destiné à d’importants volumes de données non structurées. Dans ce scénario, Stockage blob fournit la zone de destination initiale pour le fichier FASTQ. Ce service fonctionne également en tant que cible de sortie pour les fichiers VCF et GVCF générés par Microsoft Genomics. La fonctionnalité de hiérarchisation de Stockage Blob permet d’archiver des fichiers FASTQ dans un stockage à long terme économique après traitement.
Azure Databricks est une plateforme d’analytique des données. Ses clusters Spark complètement managés traitent d’importants flux de données provenant de différentes sources. Dans cette solution, Azure Databricks fournit les ressources de calcul dont Jupyter Notebook a besoin pour annoter, fusionner et analyser les données.
Le référentiel Data Lake Storage est un lac de données évolutif et sécurisé pour vos charges de travail d’analytique hautes performances. Il peut traiter plusieurs pétaoctets d’informations tout en maintenant un débit de plusieurs centaines de gigabits. Les données peuvent être structurées, semi-structurées ou non structurées. Elles proviennent généralement de plusieurs sources hétérogènes. Dans cette architecture, Data Lake Storage fournit la zone de destination finale pour les fichiers annotés et les jeux de données fusionnés. Il permet également aux systèmes en aval d’accéder à la sortie finale.
Power BI est une collection de services logiciels et d’applications qui affichent des informations analytiques. Vous pouvez utiliser Power BI pour connecter et visualiser des sources de données non liées. Dans cette solution, vous pouvez consigner les résultats dans des tableaux de bord Power BI. Les médecins peuvent ensuite créer des visuels à partir du jeu de données final.
Azure Healthcare APIs est une interface managée, normalisée et conforme permettant d’accéder aux données médicales cliniques. Dans ce scénario, Azure Healthcare APIs transmet une offre groupée FHIR au EHR avec les données cliniques.
Détails du scénario
Cet article présente une solution destinée à l’analyse génomique et à la création de rapports. Les processus et les résultats sont adaptés aux scénarios de médecine de précision ou aux domaines médicaux utilisant le profilage génétique. Plus précisément, la solution fournit un workflow génomique clinique qui automatise les tâches suivantes :
- Extraction de données à partir d’un séquenceur
- Déplacement des données via une analyse secondaire
- Mise à disposition de résultats destinés aux médecins
La mise à l’échelle croissante, la complexité et les exigences de sécurité de la génomique en font un candidat idéal à la migration vers le cloud. Dès lors, la solution utilise les services Azure en plus des outils open source. Cette approche tire parti des fonctionnalités de sécurité, de performances et de scalabilité du cloud Azure :
- Les scientifiques envisagent de séquencer des centaines de milliers de génomes au cours des années à venir. La tâche de stockage et d’analyse de ces données requiert une puissance de calcul et une capacité de stockage conséquentes. Grâce à ses centres de données situés dans le monde entier et capables de fournir ces ressources, Azure peut répondre à ces exigences.
- Azure est certifié pour les principales normes de sécurité et de confidentialité internationales, telles que la norme ISO 27001.
- Azure est conforme aux normes de sécurité et de provenance stipulées par la loi HIPAA (Health Insurance Portability and Accountability Act) en matière d’informations médicales personnelles.
Microsoft Genomicsest un composant clé de la solution. Ce service offre une implémentation d’analyse secondaire optimisée capable de traiter un génome 30x en quelques heures. Les technologies classiques, quant à elles, peuvent prendre plusieurs jours.
Cas d’usage potentiels
Cette solution est idéale pour le secteur de la santé. Elle s’applique à de nombreux domaines :
- Scoring de risque des patients à développer un cancer
- Identification des patients présentant des marqueurs génétiques les prédisposant à la maladie
- Génération de cohortes de patients à des fins d’études
Considérations
Les considérations suivantes sont alignées sur Microsoft Azure Well-Architected Framework et s’appliquent à cette solution :
Disponibilité
Les contrats de niveau de service (SLA) de la plupart des composants Azure garantissent la disponibilité :
- Au moins 99,9 % des pipelines Data Factory sont assurés de s’exécuter correctement.
- Le contrat de niveau de service Azure Databricks garantit une disponibilité de 99,95 %.
- Microsoft Genomics offre un contrat de niveau de service de 99,99 % pour les requêtes de workflow.
- Stockage Blob et Data Lake Storage font partie du Stockage Azure, qui offre une disponibilité grâce à la redondance.
Extensibilité
Par conception, la plupart des services Azure sont évolutifs :
- Data Factory transforme les données à grande échelle.
- Les clusters Azure Databricks sont redimensionnés, si besoin.
- Pour plus d’informations sur l’optimisation de la scalabilité dans Stockage Blob, consultez Liste de contrôle des performances et de la scalabilité pour Stockage blob.
- Data Lake Storage peut gérer des exaoctets de données.
- Microsoft Genomics exécute des charges de travail à l’échelle de l’exaoctet.
Sécurité
La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.
Les technologies de cette solution répondent aux exigences de la plupart des entreprises en matière de sécurité.
Consignes
En raison de la nature sensible des données médicales, établissez la gouvernance et la sécurité en suivant les instructions fournies dans les documents suivants :
- Sécurité dans le Cloud Adoption Framework Microsoft pour Azure
- Guide pratique pour concevoir des solutions médicales sécurisées à l’aide de Microsoft Azure
- Zones d’atterrissage à l’échelle de l’entreprise
Conformité aux normes
Consultez ces documents pour plus d’informations sur la conformité à la aux lois HIPAA et HITECH (Health Information Technology for Economic and Clinical Health) :
Les composants de cette solution sont concernés par la loi HIPAA conformément en fonction des offres de conformité Microsoft Azure. Si vous remplacez d’autres composants, commencez par les valider par rapport à la liste figurant dans l’annexe de ce document.
Fonctionnalités générales de sécurité
Plusieurs composants sécurisent également les données par d’autres moyens :
Azure Databricks fournit de nombreux outils pour sécuriser l’infrastructure réseau et les données. Il peut notamment s’agir de listes de contrôle d’accès, secrets et adresses IP non publiques (NPIP).
Stockage Blob prend en charge SSE (Storage Service Encryption), qui chiffre automatiquement les données avant de les stocker. Il propose également de nombreuses autres façons de protéger les données et les réseaux.
Le référentiel Data Lake Storage assure le contrôle des accès. Son modèle prend en charge les types de contrôles suivants :
- Contrôle d’accès en fonction du rôle Azure (RBAC)
- Listes de contrôle d’accès (ACL) de POSIX (Portable Operating System Interface)
Optimisation des coûts
L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.
Les services Azure vous permettent, pour la plupart, de réduire les coûts en payant uniquement ce que vous utilisez :
- Avec Data Factory, le volume d’exécution de votre activité détermine le coût.
- Azure Databricks propose un grand nombre de niveaux, charges de travail et plans de tarification pour vous aider à réduire les coûts.
- Les coûts du Stockage Blob dépendent des options de redondance et du volume des données.
- Avec Data Lake Storage, la tarification repose sur de nombreux facteurs parmi lesquels le type d’espace de noms, la capacité de stockage et le choix du niveau.
- Les frais liés à Microsoft Genomics dépendent du nombre de gigabases que chaque Workflow traite.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteurs principaux :
- Wylie Graham | Responsable de programme senior
- Matt Hansen | Senior Cloud Solution Architect
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Microsoft Genomics : Questions courantes
- Starter kit de démarrage rapide Genomics
- Burrows-Wheeler Aligner
- Toolkit d’analyse génomique
Ressources associées
Architectures entièrement déployables :
Solutions Data Factory
- Décisionnel d’entreprise automatisé
- [ETL hybride avec Azure Data Factory][ETL hybride avec Azure Data Factory]
- Répliquer et synchroniser des données de mainframe dans Azure
Solutions d’analytique
- Entreposage et analytique des données
- Traitement et analytique des données géospatiales
- Traitement des flux avec Azure Databricks