Editar

Share via


Predicción de las readmisiones en hospitales mediante técnicas de aprendizaje automático tradicionales y automatizadas

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Esta arquitectura proporciona un marco de análisis predictivo del estado en la nube para acelerar la ruta de desarrollo, implementación y consumo del modelo.

Arquitectura

Este marco hace uso de los servicios de análisis nativos de Azure para la ingesta de datos, el almacenamiento, el procesamiento de datos, el análisis y la implementación de modelos.

Diagram demonstrates the architecture of a multi-tier app.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

El flujo de trabajo de esta arquitectura se describe en términos de los roles de los participantes.

  1. Ingeniero de datos: responsable de ingerir los datos de los sistemas de origen y de organizar las canalizaciones de datos para mover datos del origen al destino. También puede ser responsable de realizar transformaciones de datos en los datos sin procesar.

    • En este escenario, los datos históricos de readmisiones en hospitales se almacenan en una base de datos SQL Server local.
    • La salida esperada son los datos de readmisiones que se almacenan en una cuenta de almacenamiento basada en la nube.
  2. Científico de datos: responsable de realizar varias tareas en los datos de la capa de almacenamiento de destino para prepararlos para la predicción del modelo. Las tareas incluyen limpieza, ingeniería de características y normalización de datos.

    • Limpieza: procese previamente los datos, para lo que debe quitar valores NULL, columnas innecesarias, etc. En este escenario, se quitarán las columnas en las que faltan demasiados valores.
    • Diseño de características:
      1. Determine las entradas necesarias para predecir la salida deseada.
      2. Determine los posibles indicadores para la readmisión, quizás hablando con profesionales como médicos y enfermeras. Por ejemplo, la evidencia del mundo real puede sugerir que un paciente con diabetes con sobrepeso es un indicador para la readmisión hospitalaria.
    • Normalización de datos:
      1. Caracterizar la ubicación y la variabilidad de los datos para prepararlos para las tareas de aprendizaje automático. Las caracterizaciones deben incluir distribución de datos, asimetría y curtosis.
        • La asimetría responde a la pregunta: ¿Cuál es la forma de la distribución?
        • Curtosis responde a la pregunta: ¿Cuál es la medida de grosor o peso de la distribución?
      2. Identificar y corregir anomalías en el conjunto de datos: el modelo de predicción debe realizarse en un conjunto de datos con una distribución normal.
      3. La salida esperada son estos conjuntos de datos de entrenamiento:
        • Uno que se va a usar para crear un modelo de predicción satisfactorio que esté listo para la implementación.
        • Otro que se puede dar a un científico de datos civil para la predicción automatizada de modelos (AutoML).
  3. Científico de datos civil: responsable de crear un modelo de predicción basado en los datos de entrenamiento del científico de datos. Lo más probable es que un científico de datos civil use una funcionalidad de AutoML que no requiere aptitudes de codificación profundas para crear modelos de predicción.

    La salida de esperada es un modelo de predicción satisfactorio que esté listo para la implementación.

  4. Analista de inteligencia empresarial: responsable de realizar análisis operativos en datos sin procesar que el ingeniero de datos genera. El analista de inteligencia empresarial puede estar implicado en la creación de datos relacionales a partir de datos no estructurados, la escritura de scripts de SQL y la creación de paneles.

    La salida esperada son consultas relacionales, informes de inteligencia empresarial y paneles.

  5. Ingeniero de MLOps: responsable de colocar los modelos en producción que proporciona el científico de datos o el científico de datos civil.

    La salida esperada son modelos que están listos para producción y reproducibles.

Aunque esta lista proporciona una vista completa de todos los roles potenciales que pueden interactuar con los datos de atención sanitaria en cualquier momento del flujo de trabajo, los roles se pueden consolidar o expandir según sea necesario.

Componentes

  • Azure Data Factory es un servicio de orquestación que puede mover datos de sistemas locales a Azure para trabajar con otros servicios de datos de Azure. Las canalizaciones se usan para el movimiento de datos y los flujos de datos de asignación se usan para realizar diversas tareas de transformación, como extraer, transformar, cargar (ETL) y extraer, cargar, transformar (ELT). En esta arquitectura, el ingeniero de datos usa Data Factory para ejecutar una canalización que copia los datos históricos de readmisión en hospitales desde un centro de SQL Server al almacenamiento en la nube.
  • Azure Databricks es un servicio de aprendizaje automático y análisis basado en Spark que se usa para la ingeniería de datos y cargas de trabajo de aprendizaje automático. En esta arquitectura, el ingeniero de datos usa Databricks para llamar a una canalización de Data Factory para ejecutar un cuaderno de Databricks. El cuaderno lo desarrolla el científico de datos para controlar las tareas iniciales de limpieza de datos e ingeniería de características. El científico de datos puede escribir código en cuadernos adicionales para estandarizar los datos y para compilar e implementar modelos de predicción.
  • Azure Data Lake Storage es un servicio de almacenamiento seguro y que se puede escalar de forma masiva para cargas de trabajo de análisis de alto rendimiento. En esta arquitectura, el ingeniero de datos usa Data Lake Storage para definir la zona de aterrizaje inicial para los datos locales que se cargan en Azure y la zona de aterrizaje final para los datos de entrenamiento. Los datos, en formato final o sin procesar, están listos para su consumo en varios sistemas de bajada.
  • Azure Machine Learning es un entorno colaborativo que se usa para entrenar, implementar, automatizar, administrar y realizar un seguimiento de los modelos de aprendizaje automático. El aprendizaje automático automatizado (AutoML) es una funcionalidad que automatiza las tareas lentas e iterativas que intervienen en el desarrollo de modelos de aprendizaje automático. El científico de datos usa Machine Learning para realizar un seguimiento de las ejecuciones de aprendizaje automático desde Databricks y para crear modelos de AutoML que sirvan como punto de referencia de rendimiento para los modelos de aprendizaje automático del científico de datos. Un científico de datos civil usa este servicio para ejecutar rápidamente datos de entrenamiento a través de AutoML para generar modelos, sin necesidad de conocimientos detallados de algoritmos de aprendizaje automático.
  • Azure Synapse Analytics es un servicio de análisis que unifica integración de datos, almacenamiento de datos empresariales y análisis de macrodatos. Los usuarios tienen la libertad de consultar los datos sin servidor o con recursos dedicados, a gran escala. En esta arquitectura:
    • El ingeniero de datos usa Synapse Analytics para crear fácilmente tablas relacionales a partir de datos del lago de datos para que sean la base del análisis operativo.
    • El científico de datos lo usa para consultar rápidamente datos en el lago de datos y desarrollar modelos de predicción mediante cuadernos de Spark.
    • El analista de inteligencia empresarial lo usa para ejecutar consultas con una sintaxis SQL conocida.
  • Microsoft Power BI es una colección de servicios de software, aplicaciones y conectores que funcionan conjuntamente para convertir los orígenes de datos no relacionados en información coherente, interactiva y visualmente atractiva. El analista de inteligencia empresarial usa Power BI para desarrollar visualizaciones a partir de los datos, como un mapa de la ubicación principal de cada paciente y el hospital más cercano.
  • Microsoft Entra ID es un servicio de administración de identidades y accesos basado en la nube. En esta arquitectura, controla el acceso a los servicios de Azure.
  • Azure Key Vault es un servicio en la nube que proporciona un lugar seguro para almacenar los secretos,como claves, contraseñas y certificados. Key Vault contiene los secretos que usa Databricks para obtener acceso de escritura al lago de datos.
  • Microsoft Defender for Cloud es un sistema unificado de administración de la seguridad de la infraestructura que fortalece la posición de seguridad de los centros de datos y proporciona protección avanzada frente amenazas en las cargas de trabajo híbridas en la nube y a nivel local. Puede usarlo para supervisar las amenazas de seguridad en el entorno de Azure.
  • Azure Kubernetes Service (AKS) es un servicio de Kubernetes administrado para la implementación y la administración de aplicaciones contenedorizadas. AKS simplifica la implementación de un clúster de AKS administrado en Azure, al descargar la sobrecarga operativa en Azure.

Alternativas

  • Movimiento de datos: puede usar Databricks para copiar datos desde un sistema local al lago de datos. Normalmente, Databricks es adecuado para los datos que tienen un requisito de streaming o en tiempo real, como la telemetría de un dispositivo médico.

  • Machine Learning: H2O.ai, DataRobot, Dataiku y otros proveedores ofrecen funcionalidades de aprendizaje automático automatizado que son similares a Machine Learning AutoML. Puede usar estas plataformas para complementar las actividades de ingeniería de datos y aprendizaje automático de Azure.

Detalles del escenario

Esta arquitectura representa un flujo de trabajo de un extremo a otro de ejemplo para predecir las readmisiones en hospitales para pacientes con diabetes mediante datos disponibles públicamente de 130 hospitales de Estados Unidos de más de 10 años de 1999 a 2008. En primer lugar, evalúa un algoritmo de clasificación binaria para la potencia predictiva y, a continuación, lo compara con los modelos predictivos generados mediante el aprendizaje automático automatizado. En situaciones en las que el aprendizaje automático automatizado no puede corregir los datos desequilibrados, se deben aplicar técnicas alternativas. Se selecciona un modelo final para la implementación y el consumo.

A medida que las organizaciones de salud y ciencia de la vida se esfuerzan por proporcionar una experiencia más personalizada para pacientes y cuidadores, se les pide que usen datos de sistemas heredados para proporcionar conclusiones predictivas pertinentes, precisas y oportunas. La recopilación de datos ha ido más allá de los sistemas operativos tradicionales y los registros de salud electrónicos (EHR) y cada vez más en formularios no estructurados desde aplicaciones de salud del consumidor, dispositivos ponibles de fitness y dispositivos médicos inteligentes. Las organizaciones necesitan la capacidad de centralizar rápidamente estos datos y aprovechar la potencia de la ciencia de datos y el aprendizaje automático para mantenerse relevantes para sus clientes.

Para lograr estos objetivos, las organizaciones de salud y ciencia de la vida deben tener como objetivo:

  • Crear un origen de datos desde el que el análisis predictivo pueda proporcionar valor en tiempo real a proveedores de atención sanitaria, administradores de hospitales, fabricantes de medicamentos y otros.
  • Dar cabida a sus expertos en la materia del sector (SME) que no tienen aptitudes de ciencia de datos y aprendizaje automático.
  • Proporcionar a las pequeñas y medianas empresas de ciencia de datos y aprendizaje automático (AA) las herramientas flexibles que necesitan para crear e implementar modelos predictivos de forma eficaz, precisa y a gran escala.

Posibles casos de uso

  • Predicción de readmisiones en hospitales
  • Aceleración del diagnóstico de pacientes mediante imágenes con tecnología de aprendizaje automático
  • Realización de análisis de texto en notas médicas
  • Predicción de eventos adversos mediante el análisis de datos de supervisión remota de pacientes desde Internet de las cosas médicas (IoMT)

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Disponibilidad

Proporcionar información y datos clínicos en tiempo real es fundamental para muchas organizaciones sanitarias. Estas son algunas maneras de minimizar el tiempo de inactividad y mantener los datos seguros:

Rendimiento

El entorno de ejecución de integración autohospedado de Data Factory se puede escalar verticalmente para obtener alta disponibilidad y escalabilidad.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

A menudo, los datos sanitarios incluyen información sanitaria protegida confidencial (PHI) e información personal. Los siguientes recursos están disponibles para proteger estos datos:

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Los precios de esta solución se basan en:

  • Los servicios de Azure que se usan.
  • El volumen de datos.
  • Los requisitos de capacidad y rendimiento.
  • Las transformaciones ETL/ELT necesarias.
  • Los recursos de proceso necesarios para realizar tareas de aprendizaje automático.

Para estimar los costos, use la calculadora de precios de Azure.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

  • Matt Hansen | Arquitecto sénior de soluciones en la nube
  • Sandy Su | Arquitecta de soluciones en la nube

Pasos siguientes

Servicios de Azure

Soluciones para el sector sanitario