Bearbeiten

Vorhersagen von Wiedereinweisungen ins Krankenhaus mit herkömmlichen und automatisierten Techniken für maschinelles Lernen

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Diese Architektur stellt ein Health-Analyseframework zur Vorhersage in der Cloud zur Verfügung, mit dem sich der Pfad der Modellentwicklung, -bereitstellung und -nutzung verkürzen lässt.

Aufbau

Dieses Framework nutzt native Azure-Analysedienste für die Datenerfassung, Speicherung, Datenverarbeitung, Analyse und Modellimplementierung.

Diagram demonstrates the architecture of a multi-tier app.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow

Der Workflow dieser Architektur wird im Hinblick auf die Rollen der Teilnehmer beschrieben.

  1. Technische Fachkraft für Daten: Verantwortlich für die Erfassung der Daten aus den Quellsystemen und die Orchestrierung der Datenpipelines, um Daten aus der Quelle zum Ziel zu bewegen. Kann außerdem für die Durchführung von Datentransformationen für die Rohdaten zuständig sein.

    • In diesem Szenario werden Daten zur Wiedereinweisung ins Krankenhaus aus der Vergangenheit in einer lokalen SQL Server-Datenbank gespeichert.
    • Die erwartete Ausgabe sind Daten zur Wiedereinweisung, die in einem cloudbasierten Speicherkonto gespeichert sind.
  2. Wissenschaftliche Fachkraft für Daten: Verantwortlich für die Ausführung verschiedener Aufgaben für die Daten auf der Zielspeicherebene, um sie für die Modellvorhersage vorzubereiten. Die Aufgaben umfassen Bereinigung, Featureentwicklung und Datenstandardisierung.

    • Bereinigung: Vorverarbeitung der Daten, Entfernen von NULL-Werten, Löschen nicht benötigter Spalten usw. In diesem Szenario werden Spalten entfernt, in denen zu viele Werte fehlen.
    • Featureentwicklung:
      1. Bestimmen der Eingaben, die zum Vorhersagen der gewünschten Ausgabe erforderlich sind.
      2. Ermitteln möglicher Vorhersagefaktoren für die Wiedereinweisung, etwa in Gesprächen mit Experten wie Ärzten und Pflegepersonal. Beispielsweise können Erfahrungen aus der Praxis darauf hindeuten, dass Übergewicht bei diabetischen Patienten ein Vorhersagefaktor für die Wiedereinweisung ins Krankenhaus ist.
    • Datenstandardisierung:
      1. Charakterisieren von Speicherort und Variabilität der Daten, um sie für Machine Learning-Aufgaben aufzubereiten. Zu den Charakterisierungen sollten Datenverteilung, Schiefe und Kurtosis gehören.
        • Schiefe ist die Antwort auf die Frage: Welche Form hat die Verteilung?
        • Kurtosis ist die Antwort auf die Frage: Welches Ausmaß hat die Dichte oder Schwere der Verteilung?
      2. Identifizieren und Korrigieren von Anomalien im Dataset: Das Vorhersagemodell sollte für ein Dataset mit Normalverteilung ausgeführt werden.
      3. Die erwartete Ausgabe sind die folgenden Trainingsdatasets:
        • Eins, das zum Erstellen eines zufriedenstellenden Vorhersagemodells dient, das für die Bereitstellung bereit ist.
        • Eins, das einem Citizen Data Scientist für die automatisierte Modellvorhersage (AutoML) übergeben werden kann.
  3. Citizen Data Scientist: Zuständig für den Aufbau eines Vorhersagemodells, das auf Trainingsdaten von der wissenschaftlichen Fachkraft für Daten basiert. Ein Citizen Data Scientist verwendet höchstwahrscheinlich eine AutoML-Funktion, die keine umfassenden Programmierkenntnisse erfordert, um Vorhersagemodelle zu erstellen.

    Das erwartete Ergebnis ist ein zufriedenstellendes Vorhersagemodell, das zur Bereitstellung bereit ist.

  4. Business Intelligence-Analyst (BI): Zuständig für die Durchführung operativer Analysen von Rohdaten, die von der technischen Fachkraft für Daten erstellt werden. Der BI-Analyst kann an der Erstellung relationaler Daten aus unstrukturierten Daten, am Schreiben von SQL-Skripts und am Erstellen von Dashboards beteiligt sein.

    Das erwartete Ergebnis sind relationale Abfragen, BI-Berichte und Dashboards.

  5. MLOps Engineer: Zuständig für die Überführung von Modellen, die von der wissenschaftlichen Fachkraft für Daten oder vom Citizen Data Scientist bereitgestellt werden, in die Produktion.

    Das erwartete Ergebnis sind Modelle, die für die Produktion bereit und reproduzierbar sind.

Diese Liste gibt zwar einen umfassenden Überblick zu allen potenziellen Rollen, die jeweils zu einem bestimmten Zeitpunkt im Workflow mit Gesundheitsdaten interagieren können, die Rollen können aber nach Bedarf konsolidiert oder erweitert werden.

Komponenten

  • Azure Data Factory ist ein Orchestrierungsdienst, der Daten aus lokalen Systemen in Azure verschieben kann, damit sie für andere Azure-Datendienste zur Verfügung stehen. Pipelines werden für die Datenverschiebung verwendet, und Zuordnungsdatenflüsse werden verwendet, um verschiedene Transformationsaufgaben wie Extrahieren, Transformieren, Laden (ETL) und Extrahieren, Laden, Transformieren (ELT) auszuführen. In dieser Architektur verwendet die technische Fachkraft für Daten Data Factory, um eine Pipeline auszuführen, die historische Daten für die Wiedereinweisung ins Krankenhaus von einem lokalen SQL Server in Cloudspeicher kopiert.
  • Azure Databricks ist ein Spark-basierter Analyse- und Machine Learning-Dienst, der für Datentechnik und ML-Workloads verwendet wird. In dieser Architektur verwendet die technische Fachkraft für Daten Databricks, um eine Data Factory-Pipeline zum Ausführen eines Databricks-Notebooks aufzurufen. Das Notebook wird von der wissenschaftlichen Fachkraft für Daten entwickelt, um die anfänglichen Aufgaben der Datenbereinigung und Featureentwicklung durchzuführen. Die wissenschaftliche Fachkraft für Daten kann Code in zusätzliche Notebooks schreiben, um die Daten zu standardisieren und Vorhersagemodelle zu erstellen und bereitzustellen.
  • Azure Data Lake Storage ist ein hochgradig skalierbarer und sicherer Speicherdienst für Hochleistungs-Analyseworkloads. In dieser Architektur verwendet die technische Fachkraft für Daten Data Lakes Storage, um die anfängliche Zielzone für die in Azure geladenen lokalen Daten und die endgültige Zielzone für die Trainingsdaten zu definieren. Die Daten im rohen oder endgültigen Format sind für die Nutzung durch verschiedene Downstreamsysteme bereit.
  • Azure Machine Learning ist eine Umgebung zur Zusammenarbeit, die zum Trainieren, Bereitstellen, Automatisieren, Verwalten und Nachverfolgen von Machine Learning-Modellen verwendet wird. Automatisiertes maschinelles Lernen (AutoML) ist eine Funktion, die die zeitaufwendigen und iterativen Aufgaben automatisiert, die Bestandteil der ML Modellentwicklung sind. Die wissenschaftliche Fachkraft für Daten verwendet Machine Learning, um ML-Ausführungen von Databricks nachzuverfolgen und AutoML-Modelle zu erstellen, die als Leistungsvergleichsmaßstab für die von der wissenschaftlichen Fachkraft für Daten selbst entwickelten ML-Modelle dienen. Ein Citizen Data Scientist verwendet diesen Dienst, um AutoML schnell für Trainingsdaten auszuführen, um Modelle zu generieren, ohne detaillierte Kenntnisse der Machine Learning-Algorithmen besitzen zu müssen.
  • Azure Synapse Analytics ist ein Analysedienst, der Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen vereint. Die Benutzer können Daten mithilfe von serverlosen oder dedizierten Ressourcen flexibel und in großem Maßstab abfragen. In diesem Architekturmodell:
    • Die technische Fachkraft für Daten verwendet Synapse Analytics, um auf einfache Weise relationale Tabellen aus Daten im Data Lake zu erstellen, die als Grundlage für operative Analysen dienen sollen.
    • Die wissenschaftliche Fachkraft für Daten verwendet sie, um im Data Lake Daten schnell abzufragen und Vorhersagemodelle mithilfe von Spark-Notebooks zu entwickeln.
    • Der BI-Analyst verwendet sie, um Abfragen mit vertrauter SQL-Syntax auszuführen.
  • Microsoft Power BI ist eine Sammlung von Softwarediensten, Apps und Connectors, die zusammenarbeiten, um aus unabhängigen Quellen von Daten kohärente, visuell ansprechende und interaktive Erkenntnisse zu gewinnen. Der BI-Analyst verwendet Power BI, um Visualisierungen aus den Daten zu entwickeln, z. B. eine Karte des Patientenwohnorts und des nächstgelegenen Krankenhauses für jeden Patienten.
  • Microsoft Entra ID ist ein cloudbasierter Identitäts- und Zugriffsverwaltungsdienst. In dieser Architektur steuert es den Zugriff auf die Azure-Dienste.
  • Azure Key Vault ist ein Clouddienst, der einen sicheren Speicher für Geheimnisse wie Schlüssel, Kennwörter und Zertifikate bereitstellt. Key Vault enthält die Geheimnisse, die Databricks verwendet, um Schreibzugriff auf den Data Lake zu erhalten.
  • Microsoft Defender für Cloud ist ein einheitliches Sicherheitsverwaltungssystem für die Infrastruktur, das den Sicherheitsstatus von Rechenzentren stärken und erweiterten Bedrohungsschutz für Hybridworkloads in der Cloud und vor Ort bietet. Sie können es verwenden, um Sicherheitsbedrohungen für die Azure-Umgebung zu überwachen.
  • Azure Kubernetes Service (AKS) ist ein vollständig verwalteter Kubernetes-Dienst für die Bereitstellung und Verwaltung von containerisierten Anwendungen. AKS vereinfacht die Bereitstellung eines verwalteten AKS-Clusters in Azure, indem der betriebliche Aufwand in Azure ausgelagert wird.

Alternativen

  • Datenverschiebung: Sie können Databricks verwenden, um Daten aus einem lokalen System in den Data Lake zu kopieren. In der Regel eignet sich Databricks für Daten mit einer Streaming- oder Echtzeitanforderung, z. B. Telemetriedaten von einem medizinischen Gerät.

  • Machine Learning: H2O.ai, DataRobot, Dataiku und andere Anbieter bieten Funktionen für automatisiertes Machine Learning, die Machine Learning AutoML ähneln. Sie können solche Plattformen verwenden, um die Datentechnik- und Machine Learning-Aktivitäten von Azure zu ergänzen.

Szenariodetails

Diese Architektur stellt einen End-to-End-Beispielworkflow für die Vorhersage von Wiedereinweisungen ins Krankenhaus für Diabetes-Patienten dar und verwendet öffentlich zugängliche Daten aus 130 US-amerikanischen Krankenhäusern in den 10 Jahren von 1999 bis 2008. Zuerst wertet es einen binären Klassifizierungsalgorithmus für Vorhersageleistung aus und vergleicht ihn dann mit Vorhersagemodellen, die mit automatisiertem maschinellem Lernen generiert werden. In Situationen, in denen automatisiertes maschinelles Lernen keine Korrektur für unausgewogene Daten leisten kann, sollten alternative Techniken angewendet werden. Ein endgültiges Modell wird für die Bereitstellung und Nutzung ausgewählt.

Da Organisationen im Gesundheitswesen und im Life Science-Bereich bestrebt sind, Patienten und Pflegepersonal eine besser personalisierte Erfahrung zu bieten, sind sie gefordert, Daten aus Legacy-Systemen zu verwenden, um in Vorhersagen Erkenntnisse zu liefern, die relevant, genau und zeitnah verfügbar sind. Die Datensammlung hat sich über herkömmliche Betriebssysteme und elektronische Gesundheitsdatensätze (Electronic Health Records, EHRs) hinaus weiter entwickelt und bezieht zunehmend unstrukturierte Daten von Gesundheits-Apps für Verbraucher, Wearable-Geräten aus dem Fitnesssektor und intelligenten medizinischen Geräten ein. Organisationen benötigen die Möglichkeit, diese Daten schnell zu zentralisieren und die Leistungsfähigkeit von Data Science und Machine Learning zu nutzen, um für ihre Kunden relevant zu bleiben.

Zum Erreichen dieser Zielsetzungen sollten sich Unternehmen aus den Bereichen Gesundheitswesen und Life Science den folgenden Aufgaben widmen:

  • Erstellen einer Datenquelle, aus der Predictive Analytics in Echtzeit Mehrwert für Gesundheitsdienstleister, Krankenhausadministratoren, Arzneimittelhersteller und andere liefern kann.
  • Berücksichtigen der Branchenexperten (SMEs), die nicht über Fertigkeiten auf den Gebieten Data Science und Machine Learning verfügen.
  • Bereitstellen der flexiblen Tools für Data Science- und Machine Learning-SMEs (ML), die sie zum effizienten und genauen Erstellen und Bereitstellen von Vorhersagemodelle im großen Maßstab benötigen.

Mögliche Anwendungsfälle

  • Vorhersage von Wiedereinweisungen ins Krankenhaus
  • Beschleunigen der Patientendiagnose durch ML-gestützte Bildgebung
  • Durchführen von Textanalysen für Arztnotizen
  • Vorhersagen von unerwünschten Ereignissen durch Analyse von Daten der Remote-Patientenüberwachung aus dem Internet der medizinischen Dinge (Internet of Medical Things, IoMT)

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Verfügbarkeit

Die Bereitstellung von klinischen Daten und Erkenntnissen in Echtzeit ist für viele Organisationen im Gesundheitswesen von entscheidender Bedeutung. Im Folgenden finden Sie Möglichkeiten, Ausfallzeiten zu minimieren und Daten sicher zu halten:

Leistung

Die selbstgehostete Data Factory-Integrationsruntime kann für Hochverfügbarkeit und Skalierbarkeit hochskaliert werden.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.

Gesundheitsdaten beinhalten oftmals geschützte, vertrauliche Gesundheitsinformationen (PHI) und personenbezogene Informationen. Die folgenden Ressourcen sind verfügbar, um diese Daten zu schützen:

Kostenoptimierung

Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.

Die Preise für diese Lösung basieren auf:

  • Den verwendeten Azure-Diensten
  • Dem Datenvolumen
  • Kapazitäts- und Durchsatzanforderungen
  • ETL/ELT-Transformationen, die erforderlich sind
  • Computeressourcen, die zum Ausführen von Machine Learning-Aufgaben erforderlich sind

Sie können die Kosten mit dem Azure-Preisrechner abschätzen.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Nächste Schritte

Azure-Dienste

Lösungen für das Gesundheitswesen