Consorcio de datos sanitarios en Azure

Azure Data Factory
Azure Data Lake Storage
Azure Data Share
Azure Databricks
Azure SQL Database

Esta solución para un consorcio de datos usa componentes de Azure. Cumple con los objetivos siguientes:

  • Proporcionar una manera para que varias organizaciones compartan datos.
  • Centralizar los esfuerzos de orquestación de datos.
  • Garantizar la seguridad de los datos.
  • Garantizar la privacidad de los pacientes.
  • Admitir la interoperabilidad de los datos.
  • Ofrecer opciones de personalización para satisfacer los requisitos específicos de las organizaciones.

Architecture

Architecture diagram showing how members of a consortium share data.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Los datos sin procesar se originan en orígenes locales y externos. Los miembros del consorcio cargan estos datos en cualquiera de estos servicios de almacenamiento en Azure Data Share:

  2. El consorcio pide a los miembros que compartan datos. Como productores de datos, los miembros pueden compartir instantáneas o emplear el uso compartido local.

  3. El consorcio, como consumidor de datos, recibe los datos compartidos por los miembros. Estos datos se dirigen a Data Lake Storage en la instancia de Data Share del consorcio para su posterior transformación.

  4. Azure Data Factory y Azure Databricks limpian los datos de los miembros y los transforman en un formato común.

  5. El consorcio combina los datos de los miembros y los almacena en un servicio. La estructura y el volumen de los datos determinan el tipo de servicio de almacenamiento que resulta más adecuado. Entre las posibilidades se incluyen:

    • Azure Synapse Analytics
    • Azure SQL Database
    • Azure Data Lake Storage
    • Explorador de datos de Azure
  6. El consorcio, como productor de recursos compartidos de datos, invita a los miembros a recibir datos. Los miembros pueden aceptar datos de instantáneas o datos de uso compartido local.

  7. Los miembros, como consumidores de datos, reciben los datos compartidos. Los datos entran en los almacenes de datos de los miembros para investigación y análisis.

En todo el sistema:

Componentes

Esta solución usa los siguientes componentes:

Plataformas de atención sanitaria

  • Las historias sanitarias electrónicas (HSE) son versiones digitales de información en tiempo real sobre los pacientes.

  • Recursos Rápidos de Interoperabilidad en Salud (FHIR) es un estándar para el intercambio de datos sanitarios que publica Health Level Seven International (HL7).

  • Internet de las cosas médicas (IoMT) es la colección de dispositivos y aplicaciones médicos que se conectan a sistemas de TI a través de redes informáticas en línea.

  • Los datos de genómica brindan información sobre cómo interactúan los genes entre sí y el entorno.

  • Los datos de imagenología incluyen las imágenes que se generan en radiología, cardiología, radioterapia y otros dispositivos.

  • Los sistemas de administración de relaciones con clientes (CRM), de facturación y de terceros ofrecen datos sobre los pacientes.

Componentes de Azure

  • Azure Data Share permite que varias organizaciones compartan datos de forma segura. Con este servicio, los proveedores de datos mantienen el control de los datos que comparten. Resulta fácil administrar y supervisar quién ha compartido qué datos y en qué momento. Data Share también facilita el enriquecimiento de los escenarios de análisis e inteligencia artificial al combinar datos de distintos miembros.

  • Azure Synapse Analytics es un servicio de análisis para sistemas de almacenamiento de datos y de macrodatos. Con este producto, puede consultar datos con recursos sin servidor y a petición, o con recursos aprovisionados. Azure Synapse Analytics funciona bien con un gran volumen de datos estructurados.

  • Azure SQL Database es un motor de bases de datos de plataforma como servicio (PaaS) totalmente administrado. Gracias a las características automatizadas con tecnología de inteligencia artificial, SQL Database controla funciones de administración de bases de datos, como la actualización, la revisión, las copias de seguridad y la supervisión. Este servicio es una buena opción para los datos estructurados.

  • Data Lake Storage es un lago de datos seguro y que se pueden escalar de forma masiva para cargas de trabajo de análisis de alto rendimiento. Este servicio puede administrar varios petabytes de información, al mismo tiempo que mantiene un rendimiento de cientos de gigabits. Data Lake Storage ofrece una manera de almacenar en una ubicación datos estructurados y no estructurados de varios miembros.

  • Azure Data Explorer es un servicio de análisis de datos rápido y totalmente administrado. Puede usar este servicio para el análisis en tiempo real de grandes volúmenes de datos. Azure Data Explorer puede controlar diferentes flujos de datos de aplicaciones, sitios web, dispositivos IoT y otros orígenes. Azure Data Explorer es una buena opción para el uso compartido local de datos de telemetría y de registro de streaming.

  • Azure Data Factory es un servicio de integración de datos híbrido. Puede usar esta solución sin servidor totalmente administrada para flujos de trabajo de transformación e integración de datos. Data Factory ofrece una interfaz de usuario sin código y un panel de supervisión fácil de usar. En esta solución, las canalizaciones de Data Factory ingieren datos de recursos compartidos de datos de los distintos miembros.

  • Azure Databricks es una plataforma de análisis de datos. En función del sistema de procesamiento distribuido más reciente de Apache Spark, Azure Databricks admite la integración sin problemas con bibliotecas de código abierto. Esta solución usa cuadernos de Azure Databricks para transformar todos los datos de los miembros en un formato común.

  • Microsoft Entra ID es un servicio multiinquilino, basado en la nube de administración de identidades y de acceso.

  • Azure Key Vault almacena y controla de forma segura el acceso a secretos, como claves de API, contraseñas, certificados y claves criptográficas. Este servicio en la nube también administra los certificados de seguridad.

  • Azure Pipelines compila y prueba automáticamente los proyectos de código. Este servicio de Azure DevOps combina la integración continua (CI) y la entrega continua (CD). Con estos procedimientos, Azure Pipelines prueba y compila el código de forma constante y coherente, y lo envía a cualquier destino.

  • Defender for Cloud proporciona características unificadas de administración para la seguridad y protección contra amenazas en todas las cargas de trabajo en la nube híbrida.

Alternativas

Con Data Share, existen muchas alternativas para el almacenamiento de datos. La elección del servicio depende del método de uso compartido, y del volumen y tipo de los datos:

  • Para compartir instantáneas de datos por lotes, use cualquiera de estos servicios:

    • Azure Synapse Analytics
    • SQL Database
    • Data Lake Storage
    • Azure Blob Storage

    Para obtener información sobre la combinación de diferentes tipos de datos, consulte Arquitectura moderna del almacenamiento de datos.

  • Para el uso compartido local de datos de telemetría y de registro de streaming, use Azure Data Explorer. Para obtener más información sobre el análisis de datos de varios orígenes, consulte Análisis interactivo de Azure Data Explorer.

  • Algunos conjuntos de datos son grandes o no relacionales. Algunos no contienen datos en formatos estandarizados. Para estos tipos de conjuntos de datos, Blob Storage o Azure Data Lake Storage funcionan mejor que Azure Synapse Analytics y SQL Database para el intercambio de datos con Data Share. Para obtener más información sobre cómo almacenar datos médicos de manera eficaz, consulte Soluciones para el almacenamiento de datos médicos.

Si Data Share no es una opción, considere la posibilidad de una red privada virtual (VPN) en su lugar. Puede usar una VPN de sitio a sitio para transferir datos entre los almacenes de datos de miembros y del consorcio.

Detalles del escenario

Los ensayos clínicos tradicionales pueden ser complejos, costosos y llevar mucho tiempo. Para abordar estos problemas, un número cada vez mayor de organizaciones de atención sanitaria se están asociando para crear consorcios de datos para llevar a cabo ensayos clínicos.

Los consorcios de datos son beneficiosos para la atención sanitaria de muchas maneras:

  • Hacen que los datos de investigación estén disponibles.
  • Brindan nuevos flujos de ingresos.
  • Conducen a decisiones normativas rentables al proporcionar un acceso rápido a los datos.
  • Mantienen a los pacientes más seguros y protegidos al acelerar la innovación.

Posibles casos de uso

Muchos tipos de profesionales de atención sanitaria pueden beneficiarse de esta solución:

  • Organizaciones que usan datos de observación del mundo real, como los resultados de los pacientes, para decidir los tratamientos.
  • Médicos que se especializan en medicina personalizada o de precisión.
  • Proveedores de telemedicina que necesitan un acceso sencillo a los datos de los pacientes.
  • Investigadores que trabajan con datos genómicos.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Las tecnologías de esta solución cumplen los requisitos de seguridad, escalabilidad y disponibilidad de la mayoría de las empresas.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Debido a la confidencialidad de la información médica, varios componentes desempeñan un papel importante en la protección de los datos:

  • Las características de seguridad de Data Share protegen los datos de las maneras siguientes:

    • Cifrado de datos en reposo, donde el almacén de datos subyacente admite el cifrado en reposo.
    • Cifrado de datos en tránsito mediante Seguridad de la capa de transporte (TLS) 1.2.
    • Cifrado de metadatos sobre un recurso compartido de datos en reposo y en tránsito.
    • No almacenando el contenido de los datos compartidos de los clientes.
  • Azure Synapse Analytics ofrece un modelo de seguridad completo. Puede usar sus controles específicos para proteger los datos en cada nivel, desde celdas únicas a bases de datos enteras.

  • SQL Database un enfoque por capas para proteger los datos de los clientes. La estrategia abarca estas áreas:

    • Seguridad de las redes
    • Administración de acceso
    • Protección contra amenazas
    • Protección de la información
  • Data Lake Storage proporciona control de acceso. El modelo admite los tipos de controles siguientes:

    • Control de acceso basado en rol (RBAC) de Azure
    • Listas de control de acceso (ACL) de Portable Operating System Interface (POSIX)
  • Azure Data Explorer protege los datos de las maneras siguientes:

    • Usa identidades administradas para recursos de Azure de Microsoft Entra ID.
    • Usa RBAC para separar las tareas y limitar el acceso.
    • Bloquea el tráfico que se origina en segmentos de red fuera de Azure Data Explorer.
    • Protege los datos y le ayuda a cumplir los compromisos mediante Azure Disk Encryption. Este servicio brinda cifrado de volumen para discos de datos de máquina virtual y el sistema operativo. Azure Disk Encryption también se integra en Key Vault, que cifra los secretos con claves administradas por Microsoft o claves administradas por el cliente.

Disponibilidad

Esta solución usa una implementación de una sola región. Algunos escenarios requieren una implementación en varias regiones para alta disponibilidad, recuperación ante desastres o proximidad. En esos casos, los siguientes servicios ofrecen regiones de Azure emparejadas para alta disponibilidad:

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Los precios de esta solución dependen de varios factores:

  • Los servicios que elija.
  • La capacidad y el rendimiento del sistema.
  • Las transformaciones que se usen en los datos.
  • El nivel de continuidad empresarial.
  • El nivel de recuperación ante desastres.

Para más información, consulte la información de precios.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Para decidir cómo personalizar la solución, aclare estos puntos:

  • Los orígenes de datos que hay disponibles.
  • La ubicación de cada origen de datos.
  • Qué servicios de Azure pueden usar los miembros para recibir datos de origen.
  • Qué datos pueden los miembros compartir con el consorcio.
  • De qué manera los miembros pueden compartir datos: en lotes como instantáneas o como flujos de datos con uso compartido local.
  • Qué servicios de Azure puede usar el consorcio para recibir datos compartidos.
  • El formato de los datos de los miembros y si es necesaria su limpieza o transformación.
  • Qué datos puede el consorcio compartir con los miembros.

Documentación del producto: