Modifier

Partager via


Prédiction des réadmissions à l’hôpital avec des techniques de Machine Learning traditionnel et automatisé

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Cette architecture fournit un framework d’analyse médicale prédictive dans le cloud pour accélérer le développement, le déploiement et la consommation de modèles.

Architecture

Ce framework utilise les services analytiques Azure natifs pour l’ingestion de données, le stockage, le traitement des données, l’analyse et le déploiement de modèle.

Diagramme montrant l’architecture d’une application à plusieurs niveaux.

Téléchargez un fichier Visio de cette architecture.

Workflow

Le workflow de cette architecture est décrit en termes de rôles des participants.

  1. Ingénieur Données : responsable de la réception des données à partir des systèmes sources et de l’orchestration des pipelines de données pour déplacer les données de la source vers la cible. Peut également être chargé d’effectuer des transformations de données sur les données brutes.

    • Dans ce scénario, les données historiques des réadmissions à l’hôpital sont stockées dans une base de données SQL Server locale.
    • La sortie attendue inclut les données sur les réadmissions stockées dans un compte de stockage cloud.
  2. Scientifique des données : responsable de l’exécution de différentes tâches sur les données de la couche de stockage cible, afin de les préparer pour la prédiction de modèle. Ces tâches incluent le nettoyage, l’ingénierie des caractéristiques et la standardisation des données.

    • Nettoyage : prétraiter les données, supprimer les valeurs null, supprimer les colonnes inutiles, etc. Dans ce scénario, supprimer les colonnes comportant trop de valeurs manquantes.
    • Ingénierie des caractéristiques :
      1. déterminez les entrées nécessaires pour prédire la sortie souhaitée.
      2. Déterminez les indicateurs possibles de réadmissions, par exemple en parlant à des professionnels tels que des médecins et des infirmières. Par exemple, les preuves réelles peuvent suggérer qu’un patient diabétique en surpoids est un indicateur possible de réadmission à l’hôpital.
    • Standardisation des données :
      1. caractériser l’emplacement et la variabilité des données afin de les préparer pour des tâches de Machine Learning. Les caractérisations doivent inclure la distribution des données, l’asymétrie et le kurtosis.
        • L’asymétrie répond à la question : quelle est la forme de la distribution ?
        • Le kurtosis répond à la question : quelle est la mesure de l’épaisseur ou de la lourdeur de la distribution ?
      2. Identifiez et corrigez les anomalies dans le jeu de données : le modèle de prédiction doit être exécuté sur un jeu de données avec une distribution normale.
      3. La sortie attendue correspond aux jeux de données d’apprentissage suivants :
        • Un jeu de données à utiliser pour créer un modèle de prédiction satisfaisant qui est prêt pour le déploiement.
        • Un jeu de données qui peut être donné à un scientifique des données citoyen pour la prédiction de modèle automatisée (AutoML).
  3. Scientifique des données citoyen : responsable de la création d’un modèle de prédiction basé sur les données d’apprentissage du scientifique des données. Un scientifique des données citoyen utilise très probablement une fonctionnalité AutoML qui ne nécessite pas de lourdes compétences en matière de codage pour créer des modèles de prédiction.

    La sortie attendue est un modèle de prédiction satisfaisant qui est prêt pour le déploiement.

  4. Analyste BI (Business Intelligence) : responsable de l’exécution de l’analytique opérationnelle sur les données brutes produites par l’ingénieur Données. L’analyste BI peut participer à la création de données relationnelles à partir de données non structurées, à l’écriture de scripts SQL et à la création de tableaux de bord.

    La sortie attendue est constituée de requêtes relationnelles, de rapports BI et de tableaux de bord.

  5. Ingénieur MLOps : responsable de la mise en production des modèles fournis par le scientifique des données ou le scientifique des données citoyen.

    La sortie attendue est constituée de modèles prêts pour la production et reproductibles.

Bien que cette liste offre une vue complète de tous les rôles potentiels qui peuvent interagir avec les données médicales à n’importe quel stade du workflow, les rôles peuvent être consolidés ou développés en fonction des besoins.

Components

  • Azure Data Factory est un service d’orchestration qui peut déplacer des données à partir de systèmes locaux vers Azure, afin de les utiliser avec d’autres services de données Azure. Les pipelines sont utilisés pour le déplacement des données, et les flux de données de mappage sont utilisés pour effectuer diverses tâches de transformation, telles que l’extraction, la transformation, le chargement (ETL) et l’extraction, la charge, la transformation (ELT). Dans cette architecture, l’ingénieur Données utilise Data Factory pour exécuter un pipeline qui copie les données historiques de réadmission à l’hôpital d’un serveur SQL Server local vers le stockage cloud.
  • Azure Databricks est un service d’analytique et de Machine Learning basé sur Spark qui est utilisé pour les charges de travail ML et Engineering données. Dans cette architecture, l’ingénieur Données utilise Databricks pour appeler un pipeline Data Factory pour exécuter un notebook Databricks. Le notebook est développé par le scientifique des données pour gérer les tâches initiales de nettoyage des données et d’ingénierie de caractéristiques. Le scientifique des données peut écrire du code dans des notebooks supplémentaires pour standardiser les données et créer et déployer des modèles de prédiction.
  • Azure Data Lake Storage est un service de stockage éminemment scalable et sécurisé pour vos charges de travail d’analytique hautes performances. Dans cette architecture, l’ingénieur Données utilise Data Lake Storage pour définir la zone d’atterrissage initiale pour les données locales qui sont chargées dans Azure et la zone d’atterrissage finale pour les données d’apprentissage. Les données au format brut ou final sont prêtes à être consommées par différents systèmes en aval.
  • Azure Machine Learning est un environnement collaboratif qui vous permet d’effectuer l’apprentissage, le déploiement, l’automatisation, la gestion et le suivi des modèles Machine Learning. Le Machine Learning automatisé (AutoML) est une fonctionnalité qui automatise les tâches fastidieuses et répétitives impliquées dans le développement de modèles ML. Le scientifique des données utilise le Machine Learning pour suivre les exécutions ML à partir de Databricks et pour créer des modèles AutoML qui serviront de référence pour les performances pour les modèles ML du scientifique des données. Un scientifique des données citoyen utilise ce service pour exécuter rapidement des données d’apprentissage via AutoML pour générer des modèles, sans avoir besoin de connaître en détail les algorithmes Machine Learning.
  • Azure Synapse Analytics est un service d’analytique qui unifie l’intégration de données, l’entreposage des données d’entreprise et l’analytique Big Data. Les utilisateurs ont la possibilité d’interroger les données en utilisant des ressources serverless ou dédiées, le tout à grande échelle. Dans cette architecture :
    • L’ingénieur Données utilise Azure Synapse Analytics pour créer facilement des tables relationnelles à partir de données dans Data Lake pour constituer la base de l’analytique opérationnelle.
    • Le scientifique des données l’utilise pour interroger rapidement les données dans le lac de données et développer des modèles de prédiction à l’aide de notebooks Spark.
    • L’analyste BI l’utilise pour exécuter des requêtes à l’aide d’une syntaxe SQL familière.
  • Microsoft Power BI est un ensemble de services logiciels, d’applications et de connecteurs qui œuvrent de concert pour transformer vos sources de données en insights cohérents, visuellement immersifs et interactifs. L’analyste BI utilise Power BI pour développer des visualisations à partir des données, telles qu’une carte du lieu d’habitation de chaque patient et l’hôpital le plus proche.
  • Microsoft Entra ID est un service de gestion des identités et des accès basé sur le cloud. Dans cette architecture, il contrôle l’accès aux services Azure.
  • Azure Key Vault est un service cloud qui fournit un magasin sécurisé pour des secrets tels que des clés, des mots de passe et des certificats. Key Vault contient les secrets que Databricks utilise pour obtenir un accès en écriture à Data Lake.
  • Microsoft Defender pour le Cloud est un système de gestion de la sécurité de l’infrastructure unifié qui renforce la posture de sécurité des centres de données et fournit une protection avancée contre les menaces pour les charges de travail hybrides locales et dans le cloud. Vous pouvez l’utiliser pour surveiller les menaces de sécurité contre l’environnement Azure.
  • Azure Kubernetes Service (AKS) est un service complètement managé qui sert au déploiement et à la gestion d’applications conteneurisées. AKS simplifie le déploiement d’un cluster Kubernetes managé dans Azure en déportant la surcharge de travail opérationnel sur Azure.

Autres solutions

  • Déplacement des données : vous pouvez utiliser Databricks pour copier des données d’un système local vers Data Lake. En règle générale, Databricks est approprié pour les données qui ont une exigence de disponibilité en flux continu ou en temps réel, comme les données de télémétrie d’un appareil médical.

  • Machine Learning : H2O.ai, DataRobot, Dataiku et d’autres fournisseurs offrent des fonctionnalités de Machine Learning automatisé qui sont similaires à Machine Learning AutoML. Vous pouvez utiliser ces plateformes pour compléter les activités de Machine Learning et d’Engineering données Azure.

Détails du scénario

Cette architecture représente un exemple de workflow de bout en bout pour la prédiction des réadmissions à l’hôpital des patients diabétiques, en utilisant les données accessibles au public de 130 hôpitaux aux États-Unis entre 1999 et 2008. Tout d’abord, elle évalue un algorithme de classification binaire pour connaître sa puissance prédictive, puis le teste sur des modèles prédictifs générés à l’aide d’un Machine Learning automatisé. Lorsque le Machine Learning automatisé ne peut pas corriger les données déséquilibrées, d’autres techniques doivent être appliquées. Un modèle final est sélectionné pour le déploiement et la consommation.

Étant donné que les organismes de santé et de sciences de la vie cherchent à fournir une expérience plus personnalisée aux patients et aux soignants, elles sont contraintes d’utiliser des données provenant de systèmes hérités pour fournir des insights prédictifs pertinents, précis et opportuns. La collecte de données a migré des systèmes opérationnels traditionnels et des enregistrements médicaux électroniques à des formes non structurées d’applications médicales, de montres connectées et d’appareils médicaux intelligents. Les organisations ont besoin de pouvoir centraliser rapidement ces données et de tirer parti de la puissance de la science des données et du Machine Learning pour rester pertinentes pour leurs clients.

Pour atteindre ces objectifs, les organismes de santé et de sciences de la vie doivent avoir les objectifs suivants :

  • Créer une source de données à partir de laquelle les analyses prédictives peuvent fournir une valeur en temps réel aux prestataires de soins de santé, aux administrateurs hospitaliers, aux fabricants de médicaments et bien d’autres.
  • S’adapter à leurs experts techniques qui n’ont pas de compétences en science des données ni en Machine Learning.
  • Fournir aux experts techniques en science des données et en Machine Learning les outils flexibles dont ils ont besoin pour créer et déployer des modèles prédictifs de manière efficace, précise et à grande échelle.

Cas d’usage potentiels

  • Prédire les réadmissions à l’hôpital
  • Accélérer le diagnostic des patients via des appareils d’imagerie basés sur le Machine Learning
  • Effectuer des analyses de texte sur les notes des médecins
  • Prédire les événements indésirables en analysant les données de surveillance des patients à distance à partir de l’Internet des objets médicaux (IoMT)

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Disponibilité

La fourniture de données et d’analyses cliniques en temps réel est essentielle pour de nombreuses organisations de santé. Voici comment réduire les temps d’arrêt et sécuriser les données :

Performances

Le runtime d’intégration auto-hébergé Data Factory peut être mis à l’échelle pour une disponibilité et une scalabilité élevées.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Les données de santé incluent souvent des informations confidentielles protégées et des informations personnelles. Les ressources suivantes sont disponibles pour sécuriser ces données :

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

La tarification de cette solution est basée sur les éléments suivants :

  • Les services Azure utilisés.
  • Le volume de données.
  • Les exigences en termes de capacité et de débit.
  • Les transformations ETL/ELT nécessaires.
  • Les ressources de calcul nécessaires pour effectuer des tâches de Machine Learning.

Vous pouvez estimer les coûts à l’aide de la calculatrice de tarification Azure.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Étapes suivantes

Services Azure

Solutions de santé