Modifier

Share via


Pipeline de médecine de précision avec la génomique

Stockage Blob Azure
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

Cet article présente une solution destinée à l’analyse génomique et à la création de rapports. Les processus et les résultats sont adaptés aux scénarios de médecine de précision ou aux domaines médicaux utilisant le profilage génétique.

Architecture

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Ce diagramme se compose de deux zones. La première, sur la gauche, contient l’étiquette Azure Data Factory pour l’orchestration. La seconde contient les vues d’étiquette des médecins. La première zone contient plusieurs zones plus petites représentant des données ou divers composants Azure. Les flèches relient les zones et les étiquettes numérotées qui s’y trouvent flèches correspondent aux étapes numérotées dans le texte du document. Deux flèches évoluent entre les zones, se terminant par la zone des vues des médecins. Une flèche pointe vers une icône de médecin. L’autre pointe vers une icône Power BI.

Téléchargez un fichier Visio de cette architecture.

Workflow

Azure Data Factory orchestre le workflow :

  1. Data Factory transfère l’exemple de fichier initial vers Stockage Blob Azure. Le fichier se présente au format FASTQ.

  2. Microsoft Genomics exécute une analyse secondaire sur le fichier.

  3. Microsoft Genomics stocke la sortie dans Stockage Blob dans l’un des formats suivants :

    • VCF (Variant Call Format)
    • GVCF (Genomic VCF)
  4. Jupyter Notebook annote le fichier de sortie. Le notebook s’exécute sur Azure Databricks.

  5. Azure Data Lake Storage stocke le fichier annoté.

  6. Jupyter Notebook fusionne le fichier avec d’autres jeux de données et analyse ces dernières. Le notebook s’exécute sur Azure Databricks.

  7. Data Lake Storage stocke les données traitées.

  8. Azure Healthcare APIs regroupe les données dans un pack FHIR (Fast Healthcare Interoperability Resources). Les données cliniques sont transférées dans le dossier médical électronique du patient (EHR).

  9. Les médecins affichent les résultats dans les tableaux de bord Power BI.

Components

Cette solution utilise les composants suivants :

Microsoft Genomics

Microsoft Genomics offre un pipeline génomique efficace et précis qui met en œuvre les meilleures pratiques du secteur. Son moteur à hautes performances est optimisé pour les tâches suivantes :

  • Lecture de fichiers volumineux de données génomiques
  • Traitement efficace des données sur de nombreux cœurs
  • Tri et filtrage des résultats
  • Écriture des résultats dans des fichiers de sortie

Pour optimiser le débit, ce moteur utilise une variante d’appelant HaplotypeCaller BWA (Burrows-Wheeler Aligner) et GATK (Genome Analysis Toolkit). Le moteur utilise également plusieurs autres composants qui composent les pipelines génomiques standard. Les exemples incluent le marquage en double, le réétalonnage du score de qualité de base et l’indexation. En quelques heures, le moteur peut traiter un seul échantillon génomique sur un serveur multicœur unique. Le traitement commence par des lectures brutes. Il produit des lectures alignées et des appels de variants.

En interne, le contrôleur Microsoft Genomics gère ces aspects du processus :

  • Distribution de lots de génomes sur des pools de machines dans le cloud
  • Maintenance d’une file d’attente de requêtes entrantes
  • Distribution des requêtes aux serveurs qui exécutent le moteur génomique
  • Surveillance des performances et de la progression des serveurs
  • Évaluation des résultats
  • Exécution du traitement de manière fiable et sécurisée à grande échelle, derrière une API de service web sécurisée

Vous pouvez facilement utiliser les résultats de Microsoft Genomics dans des services d’analyse tertiaire et de Machine Learning. Microsoft Genomics étant un service cloud, vous n’avez pas besoin de gérer ou de mettre à jour du matériel ou des logiciels.

Autres composants

  • Data Factory est un service d’intégration qui fonctionne avec des données provenant de magasins de données disparates. Vous pouvez utiliser cette plateforme complètement managée et serverless pour orchestrer et automatiser des workflows. Plus précisément, les pipelines Data Factory transfèrent les données vers Azure dans cette solution. Une séquence de pipelines déclenche ensuite chaque étape du workflow.

  • Stockage Blob offre un stockage d’objets cloud optimisé destiné à d’importants volumes de données non structurées. Dans ce scénario, Stockage blob fournit la zone de destination initiale pour le fichier FASTQ. Ce service fonctionne également en tant que cible de sortie pour les fichiers VCF et GVCF générés par Microsoft Genomics. La fonctionnalité de hiérarchisation de Stockage Blob permet d’archiver des fichiers FASTQ dans un stockage à long terme économique après traitement.

  • Azure Databricks est une plateforme d’analytique des données. Ses clusters Spark complètement managés traitent d’importants flux de données provenant de différentes sources. Dans cette solution, Azure Databricks fournit les ressources de calcul dont Jupyter Notebook a besoin pour annoter, fusionner et analyser les données.

  • Le référentiel Data Lake Storage est un lac de données évolutif et sécurisé pour vos charges de travail d’analytique hautes performances. Il peut traiter plusieurs pétaoctets d’informations tout en maintenant un débit de plusieurs centaines de gigabits. Les données peuvent être structurées, semi-structurées ou non structurées. Elles proviennent généralement de plusieurs sources hétérogènes. Dans cette architecture, Data Lake Storage fournit la zone de destination finale pour les fichiers annotés et les jeux de données fusionnés. Il permet également aux systèmes en aval d’accéder à la sortie finale.

  • Power BI est une collection de services logiciels et d’applications qui affichent des informations analytiques. Vous pouvez utiliser Power BI pour connecter et visualiser des sources de données non liées. Dans cette solution, vous pouvez consigner les résultats dans des tableaux de bord Power BI. Les médecins peuvent ensuite créer des visuels à partir du jeu de données final.

  • Azure Healthcare APIs est une interface managée, normalisée et conforme permettant d’accéder aux données médicales cliniques. Dans ce scénario, Azure Healthcare APIs transmet une offre groupée FHIR au EHR avec les données cliniques.

Détails du scénario

Cet article présente une solution destinée à l’analyse génomique et à la création de rapports. Les processus et les résultats sont adaptés aux scénarios de médecine de précision ou aux domaines médicaux utilisant le profilage génétique. Plus précisément, la solution fournit un workflow génomique clinique qui automatise les tâches suivantes :

  • Extraction de données à partir d’un séquenceur
  • Déplacement des données via une analyse secondaire
  • Mise à disposition de résultats destinés aux médecins

La mise à l’échelle croissante, la complexité et les exigences de sécurité de la génomique en font un candidat idéal à la migration vers le cloud. Dès lors, la solution utilise les services Azure en plus des outils open source. Cette approche tire parti des fonctionnalités de sécurité, de performances et de scalabilité du cloud Azure :

  • Les scientifiques envisagent de séquencer des centaines de milliers de génomes au cours des années à venir. La tâche de stockage et d’analyse de ces données requiert une puissance de calcul et une capacité de stockage conséquentes. Grâce à ses centres de données situés dans le monde entier et capables de fournir ces ressources, Azure peut répondre à ces exigences.
  • Azure est certifié pour les principales normes de sécurité et de confidentialité internationales, telles que la norme ISO 27001.
  • Azure est conforme aux normes de sécurité et de provenance stipulées par la loi HIPAA (Health Insurance Portability and Accountability Act) en matière d’informations médicales personnelles.

Microsoft Genomicsest un composant clé de la solution. Ce service offre une implémentation d’analyse secondaire optimisée capable de traiter un génome 30x en quelques heures. Les technologies classiques, quant à elles, peuvent prendre plusieurs jours.

Cas d’usage potentiels

Cette solution est idéale pour le secteur de la santé. Elle s’applique à de nombreux domaines :

  • Scoring de risque des patients à développer un cancer
  • Identification des patients présentant des marqueurs génétiques les prédisposant à la maladie
  • Génération de cohortes de patients à des fins d’études

Considérations

Les considérations suivantes sont alignées sur Microsoft Azure Well-Architected Framework et s’appliquent à cette solution :

Disponibilité

Les contrats de niveau de service (SLA) de la plupart des composants Azure garantissent la disponibilité :

Extensibilité

Par conception, la plupart des services Azure sont évolutifs :

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Les technologies de cette solution répondent aux exigences de la plupart des entreprises en matière de sécurité.

Consignes

En raison de la nature sensible des données médicales, établissez la gouvernance et la sécurité en suivant les instructions fournies dans les documents suivants :

Conformité aux normes

Fonctionnalités générales de sécurité

Plusieurs composants sécurisent également les données par d’autres moyens :

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Les services Azure vous permettent, pour la plupart, de réduire les coûts en payant uniquement ce que vous utilisez :

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Architectures entièrement déployables :

Solutions Data Factory

Solutions d’analytique

Solutions de santé