Canalización de medicina de precisión con genómica

Azure Blob Storage
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

En este artículo se presenta una solución para los informes y análisis genómicos. Los procesos y los resultados son adecuados para escenarios de medicina de precisión o áreas de atención médica que usan la generación de perfiles genéticos.

Architecture

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

El diagrama contiene dos cuadros. El primero, a la izquierda, tiene la etiqueta Azure Data Factory para la orquestación. El segundo cuadro tiene la etiqueta Vistas clínicas. El primer cuadro contiene varios cuadros más pequeños que representan datos o diferentes componentes de Azure. Las flechas conectan los cuadros, y las etiquetas numeradas de las flechas se corresponden con los pasos numerados en el texto del documento. Dos flechas fluyen entre los cuadros, que terminan en el cuadro Vistas clínicas. Una flecha apunta a un icono clínico. La otra apunta a un icono de Power BI.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

Azure Data Factory orquesta el flujo de trabajo:

  1. Data Factory transfiere el archivo de ejemplo inicial a Azure Blob Storage. El archivo está en formato FASTQ.

  2. Microsoft Genomics ejecuta el análisis secundario en el archivo.

  3. Microsoft Genomics almacena la salida en Blob Storage en uno de estos formatos:

    • Variant Call Format (VCF)
    • VCF genómico (GVCF)
  4. Jupyter Notebook anota el archivo de salida. El cuaderno se ejecuta en Azure Databricks.

  5. Azure Data Lake Storage almacena el fichero anotado.

  6. Jupyter Notebook combina el archivo con otros conjuntos de datos y analiza los datos. El cuaderno se ejecuta en Azure Databricks.

  7. Data Lake Storage almacena los datos procesados.

  8. Azure Healthcare APIs empaqueta los datos en una agrupación de Recursos Rápidos de Interoperabilidad en Salud (FHIR). A continuación, los datos clínicos entran en el registro de salud electrónico (EHR) de los pacientes.

  9. Los médicos clínicos ven los resultados en paneles de Power BI.

Componentes

La solución usa los siguientes componentes:

Microsoft Genomics

Microsoft Genomics ofrece una canalización genómica eficaz y precisa que implementa los procedimientos recomendados del sector. Su motor de alto rendimiento está optimizado para estas tareas:

  • Lectura de archivos grandes de datos genómicos
  • Procesamiento de dichos archivos de forma eficaz en muchos núcleos
  • Ordenación y filtrado de los resultados
  • Escritura de los resultados en archivos de salida

Para maximizar el rendimiento, este motor funciona con Burrows-Wheeler Aligner (BWA) y un autor de llamada variant HaplotypeCaller de Genome Analysis Toolkit (GATK). El motor también usa otros componentes que constituyen canalizaciones genómicas estándar. Algunos ejemplos son el marcado duplicado, la recalibración de la puntuación de calidad base y la indexación. En pocas horas, el motor puede procesar una sola muestra genómica en un único servidor de varios núcleos. El procesamiento comienza con lecturas sin procesar. Produce lecturas alineadas y variant calls.

Internamente, el controlador de Microsoft Genomics administra estos aspectos del proceso:

  • Distribución de lotes de genomas entre grupos de máquinas en la nube
  • Mantenimiento de una cola de solicitudes entrantes
  • Distribución de las solicitudes a servidores que ejecutan el motor genómico
  • Supervisión del rendimiento y el progreso de los servidores
  • Evaluación de los resultados
  • Garantía de que el procesamiento se ejecuta de forma confiable y segura a escala, detrás de una API de servicio web segura

Puede usar fácilmente los resultados de Microsoft Genomics en análisis terciarios y servicios de aprendizaje automático. Además, dado que Microsoft Genomics es un servicio en la nube, no es necesario administrar ni actualizar hardware ni software.

Otros componentes

  • Data Factory es un servicio de integración que funciona con datos de almacenes de datos dispares. Puede usar esta plataforma sin servidor totalmente administrada para orquestar y automatizar los flujos de trabajo. En concreto, las canalizaciones de Data Factory transfieren datos a Azure en esta solución. A continuación, una secuencia de canalizaciones desencadena cada paso del flujo de trabajo.

  • Blob Storage ofrece almacenamiento optimizado de objetos en la nube para grandes cantidades de datos no estructurados. En este escenario, Blob Storage proporciona la zona de aterrizaje inicial para el archivo FASTQ. Este servicio también funciona como destino de salida para los archivos VCF y GVCF que Microsoft Genomics genera. La funcionalidad de niveles en Blob Storage proporciona una manera de archivar archivos FASTQ en un almacenamiento económico a largo plazo después del procesamiento.

  • Azure Databricks es una plataforma de análisis de datos. Sus clústeres de Spark totalmente administrados procesan grandes flujos de datos de diferentes orígenes. En esta solución, Azure Databricks proporciona los recursos de cálculo que Jupyter Notebook necesita para anotar, combinar y analizar los datos.

  • Data Lake Storage es un lago de datos seguro y escalable para cargas de trabajo de análisis de alto rendimiento. Este servicio puede administrar varios petabytes de información, al mismo tiempo que mantiene un rendimiento de cientos de gigabits. Los datos pueden ser estructurados, semiestructurados o no estructurados. Normalmente procede de varios orígenes heterogéneos. En esta arquitectura, Data Lake Storage proporciona la zona de aterrizaje final para los archivos anotados y los conjuntos de datos combinados. También proporciona a los sistemas de bajada acceso a la salida final.

  • Power BI es una colección de servicios de software y aplicaciones que muestran información de análisis. Puede usar Power BI para conectarse y mostrar orígenes de datos no relacionados. En esta solución, puede rellenar paneles de Power BI con los resultados. De esta forma, los médicos clínicos pueden crear objetos visuales a partir del conjunto de datos final.

  • Azure Healthcare APIs es una interfaz administrada, basada en estándares y compatible para acceder a los datos sanitarios clínicos. En este escenario, Azure Healthcare APIs pasa una agrupación de FHIR a EHR con los datos clínicos.

Detalles del escenario

En este artículo se presenta una solución para los informes y análisis genómicos. Los procesos y los resultados son adecuados para escenarios de medicina de precisión o áreas de atención médica que usan la generación de perfiles genéticos. En concreto, la solución proporciona un flujo de trabajo genómico clínico que automatiza estas tareas:

  • Tomar datos de un secuenciador
  • Mover los datos a través del análisis secundario
  • Proporcionar resultados que los médicos clínicos pueden consumir

Los crecientes requisitos de escala, complejidad y seguridad de genómica la convierten en un candidato ideal para pasar a la nube. Por lo tanto, la solución usa servicios de Azure, además de herramientas de código abierto. Este enfoque aprovecha las características de seguridad, rendimiento y escalabilidad de la nube de Azure:

  • Los científicos planean secuenciar cientos de miles de genomas en los próximos años. La tarea de almacenar y analizar estos datos requiere una capacidad de almacenamiento y potencia computacional considerables. Con centros de datos de todo el mundo que proporcionan estos recursos, Azure puede satisfacer estas demandas.
  • Azure está certificado para los principales estándares globales de seguridad y privacidad, como ISO 27001.
  • Azure cumple con los estándares de seguridad y procedencia que la Ley de transferencia y responsabilidad de seguros de salud (HIPAA) establece para la información de salud personal.

Un componente clave de la solución es Microsoft Genomics. Este servicio ofrece una implementación de análisis secundario optimizada que puede procesar un genoma 30x en pocas horas. Las tecnologías estándar pueden tardar días.

Posibles casos de uso

Esta solución es idónea para el sector sanitario. Se aplica a muchas áreas:

  • Clasificación de riesgo de cáncer para los pacientes
  • Identificación de pacientes con marcadores genéticos que los predisponen a la enfermedad
  • Generación de cohortes de pacientes para estudios

Consideraciones

Las consideraciones siguientes se alinean con el Marco de buena arquitectura de Microsoft Azure y se aplican a esta solución:

Disponibilidad

Los Acuerdos de Nivel de Servicio (SLA) de la mayoría de los componentes de Azure garantizan la disponibilidad:

Escalabilidad

La mayoría de los servicios de Azure son escalables por diseño:

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Las tecnologías de esta solución cumplen los requisitos de seguridad de la mayoría de las empresas.

Directrices

Debido a la naturaleza confidencial de los datos médicos, establezca la gobernanza y la seguridad siguiendo las directrices de estos documentos:

Cumplimiento de normativas

Características de seguridad generales

Varios componentes también protegen los datos de otras maneras:

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Con la mayoría de los servicios de Azure, puede pagar solo por lo que usa para reducir los costos:

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Arquitecturas totalmente implementables:

Soluciones de Data Factory

Soluciones de análisis

Soluciones para el sector sanitario