Canalización de medicina de precisión con genómica

Azure Blob Storage

Azure Data Factory

Azure Data Lake Storage

Azure Databricks

Azure Microsoft Genomics

En este artículo se presenta una solución para los informes y análisis genómicos. Los procesos y los resultados son adecuados para escenarios de medicina de precisión o áreas de atención médica que usan la generación de perfiles genéticos.

Architecture

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

Azure Data Factory orquesta el flujo de trabajo:

Data Factory transfiere el archivo de ejemplo inicial a Azure Blob Storage. El archivo está en formato FASTQ.
Microsoft Genomics ejecuta el análisis secundario en el archivo.
Microsoft Genomics almacena la salida en Blob Storage en uno de estos formatos:
- Variant Call Format (VCF)
- VCF genómico (GVCF)
Jupyter Notebook anota el archivo de salida. El cuaderno se ejecuta en Azure Databricks.
Azure Data Lake Storage almacena el fichero anotado.
Jupyter Notebook combina el archivo con otros conjuntos de datos y analiza los datos. El cuaderno se ejecuta en Azure Databricks.
Data Lake Storage almacena los datos procesados.
Azure Healthcare APIs empaqueta los datos en una agrupación de Recursos Rápidos de Interoperabilidad en Salud (FHIR). A continuación, los datos clínicos entran en el registro de salud electrónico (EHR) de los pacientes.
Los médicos clínicos ven los resultados en paneles de Power BI.

Componentes

La solución usa los siguientes componentes:

Microsoft Genomics

Microsoft Genomics ofrece una canalización genómica eficaz y precisa que implementa los procedimientos recomendados del sector. Su motor de alto rendimiento está optimizado para estas tareas:

Lectura de archivos grandes de datos genómicos
Procesamiento de dichos archivos de forma eficaz en muchos núcleos
Ordenación y filtrado de los resultados
Escritura de los resultados en archivos de salida

Para maximizar el rendimiento, este motor funciona con Burrows-Wheeler Aligner (BWA) y un autor de llamada variant HaplotypeCaller de Genome Analysis Toolkit (GATK). El motor también usa otros componentes que constituyen canalizaciones genómicas estándar. Algunos ejemplos son el marcado duplicado, la recalibración de la puntuación de calidad base y la indexación. En pocas horas, el motor puede procesar una sola muestra genómica en un único servidor de varios núcleos. El procesamiento comienza con lecturas sin procesar. Produce lecturas alineadas y variant calls.

Internamente, el controlador de Microsoft Genomics administra estos aspectos del proceso:

Distribución de lotes de genomas entre grupos de máquinas en la nube
Mantenimiento de una cola de solicitudes entrantes
Distribución de las solicitudes a servidores que ejecutan el motor genómico
Supervisión del rendimiento y el progreso de los servidores
Evaluación de los resultados
Garantía de que el procesamiento se ejecuta de forma confiable y segura a escala, detrás de una API de servicio web segura

Puede usar fácilmente los resultados de Microsoft Genomics en análisis terciarios y servicios de aprendizaje automático. Además, dado que Microsoft Genomics es un servicio en la nube, no es necesario administrar ni actualizar hardware ni software.

Otros componentes

Data Factory es un servicio de integración que funciona con datos de almacenes de datos dispares. Puede usar esta plataforma sin servidor totalmente administrada para orquestar y automatizar los flujos de trabajo. En concreto, las canalizaciones de Data Factory transfieren datos a Azure en esta solución. A continuación, una secuencia de canalizaciones desencadena cada paso del flujo de trabajo.
Blob Storage ofrece almacenamiento optimizado de objetos en la nube para grandes cantidades de datos no estructurados. En este escenario, Blob Storage proporciona la zona de aterrizaje inicial para el archivo FASTQ. Este servicio también funciona como destino de salida para los archivos VCF y GVCF que Microsoft Genomics genera. La funcionalidad de niveles en Blob Storage proporciona una manera de archivar archivos FASTQ en un almacenamiento económico a largo plazo después del procesamiento.
Azure Databricks es una plataforma de análisis de datos. Sus clústeres de Spark totalmente administrados procesan grandes flujos de datos de diferentes orígenes. En esta solución, Azure Databricks proporciona los recursos de cálculo que Jupyter Notebook necesita para anotar, combinar y analizar los datos.
Data Lake Storage es un lago de datos seguro y escalable para cargas de trabajo de análisis de alto rendimiento. Este servicio puede administrar varios petabytes de información, al mismo tiempo que mantiene un rendimiento de cientos de gigabits. Los datos pueden ser estructurados, semiestructurados o no estructurados. Normalmente procede de varios orígenes heterogéneos. En esta arquitectura, Data Lake Storage proporciona la zona de aterrizaje final para los archivos anotados y los conjuntos de datos combinados. También proporciona a los sistemas de bajada acceso a la salida final.
Power BI es una colección de servicios de software y aplicaciones que muestran información de análisis. Puede usar Power BI para conectarse y mostrar orígenes de datos no relacionados. En esta solución, puede rellenar paneles de Power BI con los resultados. De esta forma, los médicos clínicos pueden crear objetos visuales a partir del conjunto de datos final.
Azure Healthcare APIs es una interfaz administrada, basada en estándares y compatible para acceder a los datos sanitarios clínicos. En este escenario, Azure Healthcare APIs pasa una agrupación de FHIR a EHR con los datos clínicos.

Detalles del escenario

Tomar datos de un secuenciador
Mover los datos a través del análisis secundario
Proporcionar resultados que los médicos clínicos pueden consumir

Los crecientes requisitos de escala, complejidad y seguridad de genómica la convierten en un candidato ideal para pasar a la nube. Por lo tanto, la solución usa servicios de Azure, además de herramientas de código abierto. Este enfoque aprovecha las características de seguridad, rendimiento y escalabilidad de la nube de Azure:

Los científicos planean secuenciar cientos de miles de genomas en los próximos años. La tarea de almacenar y analizar estos datos requiere una capacidad de almacenamiento y potencia computacional considerables. Con centros de datos de todo el mundo que proporcionan estos recursos, Azure puede satisfacer estas demandas.
Azure está certificado para los principales estándares globales de seguridad y privacidad, como ISO 27001.
Azure cumple con los estándares de seguridad y procedencia que la Ley de transferencia y responsabilidad de seguros de salud (HIPAA) establece para la información de salud personal.

Un componente clave de la solución es Microsoft Genomics. Este servicio ofrece una implementación de análisis secundario optimizada que puede procesar un genoma 30x en pocas horas. Las tecnologías estándar pueden tardar días.

Posibles casos de uso

Esta solución es idónea para el sector sanitario. Se aplica a muchas áreas:

Clasificación de riesgo de cáncer para los pacientes
Identificación de pacientes con marcadores genéticos que los predisponen a la enfermedad
Generación de cohortes de pacientes para estudios

Consideraciones

Las consideraciones siguientes se alinean con el Marco de buena arquitectura de Microsoft Azure y se aplican a esta solución:

Disponibilidad

Los Acuerdos de Nivel de Servicio (SLA) de la mayoría de los componentes de Azure garantizan la disponibilidad:

Se garantiza que al menos el 99,9 % de canalizaciones de Data Factory se ejecutan correctamente.
El Acuerdo de Nivel de Servicio de Azure Databricks garantiza una disponibilidad del 99,95 %.
Microsoft Genomics ofrece un Acuerdo de Nivel de Servicio de disponibilidad del 99,99 % para las solicitudes de flujo de trabajo.
Blob Storage y Data Lake Storage forman parte de Azure Storage, que ofrece disponibilidad a través de redundancia.

Escalabilidad

La mayoría de los servicios de Azure son escalables por diseño:

Data Factory transforma los datos a gran escala.
Los clústeres de Azure Databricks cambian el tamaño según sea necesario.
Para obtener información sobre cómo optimizar la escalabilidad en Blob Storage, consulte la Lista de comprobación de escalabilidad y rendimiento para Blob Storage.
Data Lake Storage puede administrar exabytes de datos.
Microsoft Genomics ejecuta cargas de trabajo de escala de exabytes.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Las tecnologías de esta solución cumplen los requisitos de seguridad de la mayoría de las empresas.

Directrices

Debido a la naturaleza confidencial de los datos médicos, establezca la gobernanza y la seguridad siguiendo las directrices de estos documentos:

Cumplimiento de normativas

Consulte estos documentos para obtener información sobre el cumplimiento de HIPAA y la Ley de tecnología de información sanitaria para la salud económica y médica (HITECH):
- HIPAA: cumplimiento de Azure
- Ley de portabilidad y responsabilidad de seguros de salud (HIPAA) y tecnología de información sanitaria para la salud económica y médica (HITECH)
Los componentes de esta solución están en el ámbito de HIPAA según las ofertas de cumplimiento de Microsoft Azure. Si sustituye cualquier otro componente, primero debe validarlo con la lista del apéndice de ese documento.

Características de seguridad generales

Varios componentes también protegen los datos de otras maneras:

Data Factory cifra los datos que transfiere. También usa Azure Key Vault o certificados para cifrar las credenciales.
Azure Databricks proporciona muchas herramientas para proteger la infraestructura de red y los datos. Algunos ejemplos incluyen listas de control de acceso, secretos y ninguna dirección IP pública (NPIP).
Blob Storage admite el cifrado del servicio de almacenamiento (SSE), que cifra automáticamente los datos antes de almacenarlos. También proporciona muchas otras formas de proteger los datos y las redes.
Data Lake Storage proporciona control de acceso. Su modelo admite los tipos de controles siguientes:
- Control de acceso basado en rol (RBAC) de Azure
- Listas de control de acceso (ACL) de Portable Operating System Interface (POSIX)

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Con la mayoría de los servicios de Azure, puede pagar solo por lo que usa para reducir los costos:

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Wylie Graham | Responsable de programas sénior
Matt Hansen | Arquitecto sénior de soluciones en la nube

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Arquitecturas totalmente implementables:

Soluciones de Data Factory

Inteligencia empresarial automatizada
[ETL híbrido con Azure Data Factory] [ETL híbrido con Azure Data Factory]
Replicación y sincronización de datos del sistema central en Azure

Canalización de medicina de precisión con genómica

Architecture

Flujo de trabajo

Componentes

Microsoft Genomics

Otros componentes

Detalles del escenario

Posibles casos de uso

Consideraciones

Disponibilidad

Escalabilidad

Seguridad

Directrices

Cumplimiento de normativas

Características de seguridad generales

Optimización de costos

Colaboradores

Pasos siguientes

Soluciones de Data Factory

Soluciones de análisis

Soluciones para el sector sanitario

Comentarios

Comentarios

Recursos adicionales

Canalización de medicina de precisión con genómica

Architecture

Flujo de trabajo

Componentes

Microsoft Genomics

Otros componentes

Detalles del escenario

Posibles casos de uso

Consideraciones

Disponibilidad

Escalabilidad

Seguridad

Directrices

Cumplimiento de normativas

Características de seguridad generales

Optimización de costos

Colaboradores

Pasos siguientes

Recursos relacionados

Soluciones de Data Factory

Soluciones de análisis

Soluciones para el sector sanitario

Comentarios

Comentarios

Recursos adicionales