Pipeline di medicina di precisione con genomica

Archiviazione BLOB di Azure
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Genomica di Microsoft Azure

Questo articolo presenta una soluzione per l'analisi genomica e la creazione di report. I processi e i risultati sono appropriati per scenari di medicina di precisione o aree di assistenza medica che usano la profilatura genetica.

Architettura

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Il diagramma contiene due riquadri. Il primo, a sinistra, ha l'etichetta Azure Data Factory for orchestration (Azure Data Factory per l'orchestrazione). Il secondo riquadro ha l'etichetta Visualizzazioni cliniche (Visualizzazioni del medico). Il primo riquadro contiene diversi riquadri più piccoli che rappresentano i dati o vari componenti di Azure. Le frecce collegano i riquadri e le etichette numerate sulle frecce corrispondono ai passaggi numerati nel testo del documento. Tra i riquadri vengono visualizzate due frecce, che puntano al riquadro Clinician views (Visualizzazioni del medico). Una freccia punta all'icona di un medico. L'altra punta a un'icona di Power BI.

Scaricare un file di Visio di questa architettura.

Workflow

Azure Data Factory orchestra il flusso di lavoro:

  1. Data Factory trasferisce il file di esempio iniziale in Archiviazione BLOB di Azure. Il file è in formato FASTQ.

  2. Genomica di Microsoft esegue l'analisi secondaria sul file.

  3. Genomica di Microsoft archivia l'output in Archiviazione BLOB in uno dei formati seguenti:

    • Formato di chiamata varianti (VCF)
    • VCF genomico (GVCF)
  4. Jupyter Notebook annota il file di output. Il notebook viene eseguito in Azure Databricks.

  5. Azure Data Lake Storage archivia il file annotato.

  6. Jupyter Notebook unisce il file con altri set di dati e analizza i dati. Il notebook viene eseguito in Azure Databricks.

  7. Data Lake Storage archivia i dati elaborati.

  8. Le API di Azure per il settore sanitario comprimono i dati in un bundle Fast Healthcare Interoperability Resources (FHIR). I dati clinici vengono quindi inseriti nella cartella clinica elettronica (EHR, Electronic Health Record) del paziente.

  9. I medici visualizzano i risultati nei dashboard di Power BI.

Componenti

La soluzione usa i componenti seguenti:

Genomica di Microsoft

Genomica di Microsoft offre una pipeline di genomica efficiente e accurata che implementa le procedure consigliate del settore. Il motore ad alte prestazioni è ottimizzato per queste attività:

  • Lettura di file di grandi dimensioni di dati genomici
  • Elaborazione efficiente dei dati in molti core
  • Ordinamento e filtro dei risultati
  • Scrittura dei risultati nei file di output

Per ottimizzare la velocità effettiva, questo motore utilizza un chiamante di varianti HaplotypeCaller Burrows-Wheeler Aligner (BWA) e Genome Analysis Toolkit (GATK). Il motore usa anche diversi altri componenti che costituiscono le pipeline di genomica standard. Alcuni esempi includono la marcatura dei duplicati, la ricalibrazione del punteggio di qualità di base e l'indicizzazione. In poche ore, il motore può elaborare un singolo campione genomico in un unico server multi-core. L'elaborazione inizia con letture non elaborate. Produce letture allineate e chiamate di varianti.

Internamente, il controller di Genomica di Microsoft gestisce questi aspetti del processo:

  • Distribuzione di batch di genomi tra pool di computer nel cloud
  • Gestione di una coda di richieste in ingresso
  • Distribuzione delle richieste ai server che eseguono il motore di genomica
  • Monitoraggio delle prestazioni e dello stato di avanzamento dei server
  • Valutazione dei risultati
  • Garantire che l'elaborazione venga eseguita in modo affidabile e sicuro su larga scala, dietro un'API del servizio Web sicura

È possibile usare facilmente i risultati di Genomica di Microsoft in servizi di analisi terziaria e Machine Learning. Inoltre, poiché Genomica di Microsoft è un servizio cloud, non è necessario gestire o aggiornare hardware o software.

Altri componenti

  • Data Factory è un servizio di integrazione che usa dati di archivi dati diversi. È possibile usare questa piattaforma serverless completamente gestita per orchestrare e automatizzare i flussi di lavoro. In particolare, le pipeline di Data Factory trasferiscono i dati ad Azure in questa soluzione. Una sequenza di pipeline attiva quindi ogni passaggio del flusso di lavoro.

  • Archiviazione BLOB offre l'archiviazione ottimizzata di oggetti cloud per grandi quantità di dati non strutturati. In questo scenario, Archiviazione BLOB fornisce la zona di destinazione iniziale per il file FASTQ. Questo servizio funziona anche come destinazione di output per i file VCF e GVCF generati da Genomica di Microsoft. La funzionalità di suddivisione in livelli in Archiviazione BLOB fornisce un modo per archiviare i file FASTQ in una risorsa di archiviazione a lungo termine economica dopo l'elaborazione.

  • Azure Databricks è una piattaforma di analisi dei dati. I cluster Spark completamente gestiti elaborano flussi ingenti di dati provenienti da varie origini. In questa soluzione, Azure Databricks fornisce le risorse di calcolo necessarie a Jupyter Notebook per annotare, unire e analizzare i dati.

  • Data Lake Storage è un data lake scalabile e sicuro per carichi di lavoro di analisi a elevate prestazioni. Questo servizio è in grado di gestire diversi petabyte di informazioni supportando al tempo stesso centinaia di gigabit di velocità effettiva. I dati possono essere strutturati, semistrutturati o non strutturati. In genere provengono da più origini eterogenee. In questa architettura, Data Lake Storage fornisce l'area di destinazione finale per i file annotati e i set di dati uniti. Consente inoltre ai sistemi downstream di accedere all'output finale.

  • Power BI è una raccolta di app e servizi software che visualizzano informazioni di analisi. È possibile usare Power BI per connettersi e visualizzare origini dati non correlate. In questa soluzione è possibile popolare i dashboard di Power BI con i risultati. I medici possono quindi creare oggetti visivi dal set di dati finale.

  • Le API di Azure per il settore sanitario sono un'interfaccia gestita, basata su standard e conforme per l'accesso ai dati sanitari clinici. In questo scenario, le API di Azure per il settore sanitario passano un bundle FHIR all'EHR con i dati clinici.

Dettagli dello scenario

Questo articolo presenta una soluzione per l'analisi genomica e la creazione di report. I processi e i risultati sono appropriati per scenari di medicina di precisione o aree di assistenza medica che usano la profilatura genetica. In particolare, la soluzione fornisce un flusso di lavoro di genomica clinica che automatizza queste attività:

  • Prelevare i dati da un sequenziatore
  • Spostare i dati tramite l'analisi secondaria
  • Fornire risultati che possono essere utilizzati dai medici

I crescenti requisiti di scalabilità, complessità e sicurezza della genomica la rendono un candidato ideale per il passaggio al cloud. Di conseguenza, la soluzione usa i servizi di Azure oltre agli strumenti open source. Questo approccio sfrutta le funzionalità di sicurezza, prestazioni e scalabilità del cloud di Azure:

  • Gli scienziati prevedono di sequenziare di centinaia di migliaia di genomi nei prossimi anni. L'attività di archiviazione e analisi di questi dati richiede una potenza di calcolo e una capacità di archiviazione significative. Con data center in tutto il mondo che forniscono queste risorse, Azure può soddisfare tali esigenze.
  • Azure è certificato per i principali standard globali di sicurezza e privacy come ISO 27001.
  • Azure è conforme agli standard di sicurezza e provenienza che l'Health Insurance Portability and Accountability Act (HIPAA) stabilisce per le informazioni sanitarie personali.

Un componente chiave della soluzione è Genomica di Microsoft. Questo servizio offre un'implementazione di analisi secondaria ottimizzata in grado di elaborare un genoma 30x in poche ore. Le tecnologie standard possono richiedere giorni.

Potenziali casi d'uso

Questa soluzione è ideale per il settore sanitario. Si applica a molte aree:

  • Assegnazione di punteggi di rischio ai pazienti per il cancro
  • Identificazione dei pazienti con marcatori genetici che li predispongono alla malattia
  • Generazione di coorti di pazienti per gli studi

Considerazioni

Alla soluzione si applicano le considerazioni seguenti, basate su Microsoft Azure Well-Architected Framework:

Disponibilità

I contratti di servizio della maggior parte dei componenti di Azure garantiscono la disponibilità:

Scalabilità

La maggior parte dei servizi di Azure è scalabile per impostazione predefinita:

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

Le tecnologie di questa soluzione soddisfano i requisiti di sicurezza della maggior parte delle aziende.

Linee guida

A causa della natura sensibile dei dati medici, stabilire governance e sicurezza seguendo le linee guida riportate in questi documenti:

Conformità alle normative

Funzionalità di sicurezza di generali

Diversi componenti proteggono i dati anche in altri modi:

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

Con la maggior parte dei servizi di Azure, è possibile ridurre i costi pagando solo per le risorse usate:

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

Architetture completamente distribuibili:

Soluzioni di Data Factory

Soluzioni di analisi

Soluzioni per il settore sanitario