Förutsäga återtaganden på sjukhus med traditionella och automatiserade maskininlärningstekniker

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Den här arkitekturen tillhandahåller ett ramverk för förutsägande hälsoanalys i molnet för att påskynda modellutvecklingen, distributionen och förbrukningen.

Arkitektur

Det här ramverket använder inbyggda Azure-analystjänster för datainmatning, lagring, databearbetning, analys och modelldistribution.

Diagram demonstrates the architecture of a multi-tier app.

Ladda ned en Visio-fil med den här arkitekturen.

Workflow

Arbetsflödet för den här arkitekturen beskrivs i termer av deltagarnas roller.

  1. Dataingenjör: Ansvarar för att mata in data från källsystemen och samordna datapipelines för att flytta data från källan till målet. Kan också ansvara för att utföra datatransformeringar på rådata.

    • I det här scenariot lagras historiska data om återtaganden på sjukhus i en lokal SQL Server-databas.
    • Förväntade utdata är återtagandedata som lagras i ett molnbaserat lagringskonto.
  2. Dataforskare: Ansvarar för att utföra olika uppgifter på data i mållagringslagret för att förbereda dem för modellförutsägelse. Uppgifterna omfattar rensning, funktionsutveckling och datastandardisering.

    • Rensning: Förbearbeta data, ta bort null-värden, släppa onödiga kolumner och så vidare. I det här scenariot släpper du kolumner med för många saknade värden.
    • Funktionsutveckling:
      1. Fastställ de indata som behövs för att förutsäga önskade utdata.
      2. Fastställ möjliga prediktorer för readmittance, kanske genom att prata med proffs som läkare och sjuksköterskor. Till exempel kan verkliga bevis tyda på att en diabetespatient som är överviktig är en prediktor för sjukhusremission.
    • Datastandardisering:
      1. Karakterisera platsen och variabiliteten för data för att förbereda dem för maskininlärningsuppgifter. Kareteriseringarna bör innehålla datadistribution, skevhet och kurtos.
        • Skevhet svarar på frågan: Vad är formen på fördelningen?
        • Kurtosis svarar på frågan: Vad är måttet på tjocklek eller tyngd i fördelningen?
      2. Identifiera och korrigera avvikelser i datauppsättningen – förutsägelsemodellen bör utföras på en datauppsättning med en normal distribution.
      3. Förväntade utdata är dessa träningsdatauppsättningar:
        • En som ska användas för att skapa en tillfredsställande förutsägelsemodell som är redo för distribution.
        • En som kan ges till en Citizen Dataforskare för automatisk modellförutsägelse (AutoML).
  3. Citizen Dataforskare: Ansvarig för att skapa en förutsägelsemodell som baseras på träningsdata från Dataforskare. En Citizen-Dataforskare använder troligen en AutoML-funktion som inte kräver tunga kodningsfärdigheter för att skapa förutsägelsemodeller.

    Förväntade utdata är en tillfredsställande förutsägelsemodell som är redo för distribution.

  4. Bi-analytiker (Business Intelligence): Ansvarig för att utföra driftanalyser på rådata som Dataingenjör producerar. BI-analytikern kan vara involverad i att skapa relationsdata från ostrukturerade data, skriva SQL-skript och skapa instrumentpaneler.

    Förväntade utdata är relationsfrågor, BI-rapporter och instrumentpaneler.

  5. MLOps-tekniker: Ansvarig för att placera modeller i produktion som Dataforskare eller Citizen Dataforskare tillhandahåller.

    De förväntade utdata är modeller som är redo för produktion och reproducerbara.

Även om den här listan innehåller en omfattande vy över alla potentiella roller som kan interagera med hälso- och sjukvårdsdata när som helst i arbetsflödet, kan rollerna konsolideras eller utökas efter behov.

Komponenter

  • Azure Data Factory är en orkestreringstjänst som kan flytta data från lokala system till Azure för att arbeta med andra Azure-datatjänster. Pipelines används för dataflytt och mappning av dataflöden används för att utföra olika omvandlingsuppgifter, till exempel extrahera, transformera, läsa in (ETL) och extrahera, läsa in, transformera (ELT). I den här arkitekturen använder Dataingenjör Data Factory för att köra en pipeline som kopierar historiska data om återtagande från en lokal SQL Server till molnlagring.
  • Azure Databricks är en Spark-baserad analys- och maskininlärningstjänst som används för datateknik och ML-arbetsbelastningar. I den här arkitekturen använder Dataingenjör Databricks för att anropa en Data Factory-pipeline för att köra en Databricks-notebook-fil. Notebook-filen har utvecklats av Dataforskare för att hantera de inledande uppgifterna för datarensning och funktionsutveckling. Dataforskare kan skriva kod i ytterligare notebook-filer för att standardisera data och skapa och distribuera förutsägelsemodeller.
  • Azure Data Lake Storage är en mycket skalbar och säker lagringstjänst för analysarbetsbelastningar med höga prestanda. I den här arkitekturen använder Dataingenjör Data Lakes Storage för att definiera den första landningszonen för lokala data som läses in i Azure och den slutliga landningszonen för träningsdata. Data, i rådata eller slutligt format, är redo för förbrukning av olika nedströmssystem.
  • Azure Machine Learning är en samarbetsmiljö som används för att träna, distribuera, automatisera, hantera och spåra maskininlärningsmodeller. Automatisk maskininlärning (AutoML) är en funktion som automatiserar de tidskrävande och iterativa uppgifter som ingår i ML-modellutveckling. Dataforskare använder Machine Learning för att spåra ML-körningar från Databricks och för att skapa AutoML-modeller för att fungera som prestandamått för Dataforskare ML-modeller. En Citizen-Dataforskare använder den här tjänsten för att snabbt köra träningsdata via AutoML för att generera modeller, utan att behöva detaljerad kunskap om maskininlärningsalgoritmer.
  • Azure Synapse Analytics är en analystjänst som förenar dataintegrering, lagring av företagsdata och stordataanalys. Användare har friheten att köra frågor mot data med hjälp av serverlösa eller dedikerade resurser i stor skala. I den här arkitekturen:
    • Dataingenjör använder Synapse Analytics för att enkelt skapa relationstabeller från data i datasjön som grund för driftanalys.
    • Dataforskare använder den för att snabbt fråga efter data i datasjön och utveckla förutsägelsemodeller med hjälp av Spark-notebook-filer.
    • BI-analytikern använder den för att köra frågor med hjälp av välbekant SQL-syntax.
  • Microsoft Power BI är en samling programvarutjänster, appar och anslutningsappar som fungerar tillsammans för att omvandla orelaterade datakällor till sammanhängande, visuellt uppslukande och interaktiva insikter. BI-analytikern använder Power BI för att utveckla visualiseringar från data, till exempel en karta över varje patients hemplats och närmaste sjukhus.
  • Microsoft Entra ID är en molnbaserad identitets- och åtkomsthanteringstjänst. I den här arkitekturen styr den åtkomsten till Azure-tjänsterna.
  • Azure Key Vault är en molntjänst som tillhandahåller ett säkert arkiv för hemligheter som nycklar, lösenord och certifikat. Key Vault innehåller hemligheterna som Databricks använder för att få skrivåtkomst till datasjön.
  • Microsoft Defender för molnet är ett enhetligt säkerhetshanteringssystem för infrastruktur som stärker säkerhetsstatusen för datacenter och ger avancerat skydd mot hot i hybridarbetsbelastningar i molnet och lokalt. Du kan använda den för att övervaka säkerhetshot mot Azure-miljön.
  • Azure Kubernetes Service (AKS) är en fullständigt hanterad Kubernetes-tjänst för att distribuera och hantera containerbaserade program. AKS förenklar distributionen av ett hanterat AKS-kluster i Azure genom att avlasta driftkostnaderna till Azure.

Alternativ

  • Dataflytt: Du kan använda Databricks för att kopiera data från ett lokalt system till datasjön. Vanligtvis är Databricks lämpligt för data som har ett direktuppspelnings- eller realtidskrav, till exempel telemetri från en medicinsk enhet.

  • Machine Learning: H2O.ai, DataRobot, Dataiku och andra leverantörer erbjuder automatiserade maskininlärningsfunktioner som liknar Machine Learning AutoML. Du kan använda sådana plattformar för att komplettera Azures datateknik- och maskininlärningsaktiviteter.

Information om scenario

Den här arkitekturen representerar ett exempel på arbetsflöde från slutpunkt till slutpunkt för att förutsäga återtaganden av sjukhus för diabetespatienter, med offentligt tillgängliga data från 130 amerikanska sjukhus under de 10 åren från 1999 till 2008. Först utvärderar den en binär klassificeringsalgoritm för förutsägelsekraft och jämför den sedan med förutsägelsemodeller som genereras med hjälp av automatiserad maskininlärning. I situationer där automatiserad maskininlärning inte kan korrigeras för obalanserade data bör alternativa tekniker användas. En slutlig modell har valts för distribution och förbrukning.

När sjukvårds- och life science-organisationer strävar efter att ge en mer personlig upplevelse för patienter och vårdgivare, utmanas de att använda data från äldre system för att ge prediktiva insikter som är relevanta, korrekta och snabba. Datainsamlingen har gått bortom traditionella driftsystem och elektroniska hälsojournaler och i allt högre grad till ostrukturerade former från konsumenthälsoappar, träningskläder och smarta medicintekniska produkter. Organisationer behöver möjligheten att snabbt centralisera dessa data och utnyttja kraften i datavetenskap och maskininlärning för att förbli relevanta för sina kunder.

För att uppnå dessa mål bör hälso- och sjukvårds- och life science-organisationer sträva efter att:

  • Skapa en datakälla från vilken förutsägelseanalys kan ge realtidsvärde till vårdgivare, sjukhusadministratörer, läkemedelstillverkare och andra.
  • Ta emot experter på branschämnen som inte har datavetenskaps- och maskininlärningskunskaper.
  • Ge små och medelstora företag för datavetenskap och maskininlärning (ML) de flexibla verktyg som de behöver för att skapa och distribuera förutsägelsemodeller effektivt, korrekt och i stor skala.

Potentiella användningsfall

  • Förutsäga återtaganden på sjukhus
  • Påskynda patientdiagnostiken med ML-baserad avbildning
  • Utföra textanalys på läkaranteckningar
  • Förutsäga negativa händelser genom att analysera övervakningsdata för fjärrpatienter från IoMT (Internet of Medical Things)

Överväganden

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.

Tillgänglighet

Att tillhandahålla kliniska data och insikter i realtid är avgörande för många sjukvårdsorganisationer. Här är sätt att minimera stilleståndstiden och skydda data:

Prestanda

Den lokala integreringskörningen i Data Factory kan skalas upp för hög tillgänglighet och skalbarhet.

Säkerhet

Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Översikt över säkerhetspelare.

Hälso- och sjukvårdsdata innehåller ofta känslig skyddad hälsoinformation (PHI) och personlig information. Följande resurser är tillgängliga för att skydda dessa data:

Kostnadsoptimering

Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.

Prissättningen för den här lösningen baseras på:

  • De Azure-tjänster som används.
  • Datavolym.
  • Kapacitets- och dataflödeskrav.
  • ETL/ELT-transformeringar som behövs.
  • Beräkningsresurser som behövs för att utföra maskininlärningsuppgifter.

Du kan beräkna kostnaderna med hjälp av priskalkylatorn för Azure.

Deltagare

Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.

Huvudsakliga författare:

Nästa steg

Azure-tjänster

Lösningar för hälso- och sjukvård