Den här arkitekturen tillhandahåller ett ramverk för förutsägande hälsoanalys i molnet för att påskynda modellutvecklingen, distributionen och förbrukningen.
Arkitektur
Det här ramverket använder inbyggda Azure-analystjänster för datainmatning, lagring, databearbetning, analys och modelldistribution.
Ladda ned en Visio-fil med den här arkitekturen.
Workflow
Arbetsflödet för den här arkitekturen beskrivs i termer av deltagarnas roller.
Dataingenjör: Ansvarar för att mata in data från källsystemen och samordna datapipelines för att flytta data från källan till målet. Kan också ansvara för att utföra datatransformeringar på rådata.
- I det här scenariot lagras historiska data om återtaganden på sjukhus i en lokal SQL Server-databas.
- Förväntade utdata är återtagandedata som lagras i ett molnbaserat lagringskonto.
Dataforskare: Ansvarar för att utföra olika uppgifter på data i mållagringslagret för att förbereda dem för modellförutsägelse. Uppgifterna omfattar rensning, funktionsutveckling och datastandardisering.
- Rensning: Förbearbeta data, ta bort null-värden, släppa onödiga kolumner och så vidare. I det här scenariot släpper du kolumner med för många saknade värden.
- Funktionsutveckling:
- Fastställ de indata som behövs för att förutsäga önskade utdata.
- Fastställ möjliga prediktorer för readmittance, kanske genom att prata med proffs som läkare och sjuksköterskor. Till exempel kan verkliga bevis tyda på att en diabetespatient som är överviktig är en prediktor för sjukhusremission.
- Datastandardisering:
- Karakterisera platsen och variabiliteten för data för att förbereda dem för maskininlärningsuppgifter. Kareteriseringarna bör innehålla datadistribution, skevhet och kurtos.
- Skevhet svarar på frågan: Vad är formen på fördelningen?
- Kurtosis svarar på frågan: Vad är måttet på tjocklek eller tyngd i fördelningen?
- Identifiera och korrigera avvikelser i datauppsättningen – förutsägelsemodellen bör utföras på en datauppsättning med en normal distribution.
- Förväntade utdata är dessa träningsdatauppsättningar:
- En som ska användas för att skapa en tillfredsställande förutsägelsemodell som är redo för distribution.
- En som kan ges till en Citizen Dataforskare för automatisk modellförutsägelse (AutoML).
- Karakterisera platsen och variabiliteten för data för att förbereda dem för maskininlärningsuppgifter. Kareteriseringarna bör innehålla datadistribution, skevhet och kurtos.
Citizen Dataforskare: Ansvarig för att skapa en förutsägelsemodell som baseras på träningsdata från Dataforskare. En Citizen-Dataforskare använder troligen en AutoML-funktion som inte kräver tunga kodningsfärdigheter för att skapa förutsägelsemodeller.
Förväntade utdata är en tillfredsställande förutsägelsemodell som är redo för distribution.
Bi-analytiker (Business Intelligence): Ansvarig för att utföra driftanalyser på rådata som Dataingenjör producerar. BI-analytikern kan vara involverad i att skapa relationsdata från ostrukturerade data, skriva SQL-skript och skapa instrumentpaneler.
Förväntade utdata är relationsfrågor, BI-rapporter och instrumentpaneler.
MLOps-tekniker: Ansvarig för att placera modeller i produktion som Dataforskare eller Citizen Dataforskare tillhandahåller.
De förväntade utdata är modeller som är redo för produktion och reproducerbara.
Även om den här listan innehåller en omfattande vy över alla potentiella roller som kan interagera med hälso- och sjukvårdsdata när som helst i arbetsflödet, kan rollerna konsolideras eller utökas efter behov.
Komponenter
- Azure Data Factory är en orkestreringstjänst som kan flytta data från lokala system till Azure för att arbeta med andra Azure-datatjänster. Pipelines används för dataflytt och mappning av dataflöden används för att utföra olika omvandlingsuppgifter, till exempel extrahera, transformera, läsa in (ETL) och extrahera, läsa in, transformera (ELT). I den här arkitekturen använder Dataingenjör Data Factory för att köra en pipeline som kopierar historiska data om återtagande från en lokal SQL Server till molnlagring.
- Azure Databricks är en Spark-baserad analys- och maskininlärningstjänst som används för datateknik och ML-arbetsbelastningar. I den här arkitekturen använder Dataingenjör Databricks för att anropa en Data Factory-pipeline för att köra en Databricks-notebook-fil. Notebook-filen har utvecklats av Dataforskare för att hantera de inledande uppgifterna för datarensning och funktionsutveckling. Dataforskare kan skriva kod i ytterligare notebook-filer för att standardisera data och skapa och distribuera förutsägelsemodeller.
- Azure Data Lake Storage är en mycket skalbar och säker lagringstjänst för analysarbetsbelastningar med höga prestanda. I den här arkitekturen använder Dataingenjör Data Lakes Storage för att definiera den första landningszonen för lokala data som läses in i Azure och den slutliga landningszonen för träningsdata. Data, i rådata eller slutligt format, är redo för förbrukning av olika nedströmssystem.
- Azure Machine Learning är en samarbetsmiljö som används för att träna, distribuera, automatisera, hantera och spåra maskininlärningsmodeller. Automatisk maskininlärning (AutoML) är en funktion som automatiserar de tidskrävande och iterativa uppgifter som ingår i ML-modellutveckling. Dataforskare använder Machine Learning för att spåra ML-körningar från Databricks och för att skapa AutoML-modeller för att fungera som prestandamått för Dataforskare ML-modeller. En Citizen-Dataforskare använder den här tjänsten för att snabbt köra träningsdata via AutoML för att generera modeller, utan att behöva detaljerad kunskap om maskininlärningsalgoritmer.
- Azure Synapse Analytics är en analystjänst som förenar dataintegrering, lagring av företagsdata och stordataanalys. Användare har friheten att köra frågor mot data med hjälp av serverlösa eller dedikerade resurser i stor skala. I den här arkitekturen:
- Dataingenjör använder Synapse Analytics för att enkelt skapa relationstabeller från data i datasjön som grund för driftanalys.
- Dataforskare använder den för att snabbt fråga efter data i datasjön och utveckla förutsägelsemodeller med hjälp av Spark-notebook-filer.
- BI-analytikern använder den för att köra frågor med hjälp av välbekant SQL-syntax.
- Microsoft Power BI är en samling programvarutjänster, appar och anslutningsappar som fungerar tillsammans för att omvandla orelaterade datakällor till sammanhängande, visuellt uppslukande och interaktiva insikter. BI-analytikern använder Power BI för att utveckla visualiseringar från data, till exempel en karta över varje patients hemplats och närmaste sjukhus.
- Microsoft Entra ID är en molnbaserad identitets- och åtkomsthanteringstjänst. I den här arkitekturen styr den åtkomsten till Azure-tjänsterna.
- Azure Key Vault är en molntjänst som tillhandahåller ett säkert arkiv för hemligheter som nycklar, lösenord och certifikat. Key Vault innehåller hemligheterna som Databricks använder för att få skrivåtkomst till datasjön.
- Microsoft Defender för molnet är ett enhetligt säkerhetshanteringssystem för infrastruktur som stärker säkerhetsstatusen för datacenter och ger avancerat skydd mot hot i hybridarbetsbelastningar i molnet och lokalt. Du kan använda den för att övervaka säkerhetshot mot Azure-miljön.
- Azure Kubernetes Service (AKS) är en fullständigt hanterad Kubernetes-tjänst för att distribuera och hantera containerbaserade program. AKS förenklar distributionen av ett hanterat AKS-kluster i Azure genom att avlasta driftkostnaderna till Azure.
Alternativ
Dataflytt: Du kan använda Databricks för att kopiera data från ett lokalt system till datasjön. Vanligtvis är Databricks lämpligt för data som har ett direktuppspelnings- eller realtidskrav, till exempel telemetri från en medicinsk enhet.
Machine Learning: H2O.ai, DataRobot, Dataiku och andra leverantörer erbjuder automatiserade maskininlärningsfunktioner som liknar Machine Learning AutoML. Du kan använda sådana plattformar för att komplettera Azures datateknik- och maskininlärningsaktiviteter.
Information om scenario
Den här arkitekturen representerar ett exempel på arbetsflöde från slutpunkt till slutpunkt för att förutsäga återtaganden av sjukhus för diabetespatienter, med offentligt tillgängliga data från 130 amerikanska sjukhus under de 10 åren från 1999 till 2008. Först utvärderar den en binär klassificeringsalgoritm för förutsägelsekraft och jämför den sedan med förutsägelsemodeller som genereras med hjälp av automatiserad maskininlärning. I situationer där automatiserad maskininlärning inte kan korrigeras för obalanserade data bör alternativa tekniker användas. En slutlig modell har valts för distribution och förbrukning.
När sjukvårds- och life science-organisationer strävar efter att ge en mer personlig upplevelse för patienter och vårdgivare, utmanas de att använda data från äldre system för att ge prediktiva insikter som är relevanta, korrekta och snabba. Datainsamlingen har gått bortom traditionella driftsystem och elektroniska hälsojournaler och i allt högre grad till ostrukturerade former från konsumenthälsoappar, träningskläder och smarta medicintekniska produkter. Organisationer behöver möjligheten att snabbt centralisera dessa data och utnyttja kraften i datavetenskap och maskininlärning för att förbli relevanta för sina kunder.
För att uppnå dessa mål bör hälso- och sjukvårds- och life science-organisationer sträva efter att:
- Skapa en datakälla från vilken förutsägelseanalys kan ge realtidsvärde till vårdgivare, sjukhusadministratörer, läkemedelstillverkare och andra.
- Ta emot experter på branschämnen som inte har datavetenskaps- och maskininlärningskunskaper.
- Ge små och medelstora företag för datavetenskap och maskininlärning (ML) de flexibla verktyg som de behöver för att skapa och distribuera förutsägelsemodeller effektivt, korrekt och i stor skala.
Potentiella användningsfall
- Förutsäga återtaganden på sjukhus
- Påskynda patientdiagnostiken med ML-baserad avbildning
- Utföra textanalys på läkaranteckningar
- Förutsäga negativa händelser genom att analysera övervakningsdata för fjärrpatienter från IoMT (Internet of Medical Things)
Överväganden
Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.
Tillgänglighet
Att tillhandahålla kliniska data och insikter i realtid är avgörande för många sjukvårdsorganisationer. Här är sätt att minimera stilleståndstiden och skydda data:
- Data Lake Storage replikeras alltid tre gånger i den primära regionen, med alternativet att välja lokalt redundant lagring (LRS) eller zonredundant lagring (ZRS).
- Synapse Analytics tillhandahåller återställningspunkter för databaser och haveriberedskap.
- Data Factory-data lagras och replikeras i en länkad Azure-region för att säkerställa affärskontinuitet och haveriberedskap.
- Databricks ger vägledning om haveriberedskap för sin dataanalysplattform.
- Machine Learning-distributionen kan vara flera regioner.
Prestanda
Den lokala integreringskörningen i Data Factory kan skalas upp för hög tillgänglighet och skalbarhet.
Säkerhet
Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Översikt över säkerhetspelare.
Hälso- och sjukvårdsdata innehåller ofta känslig skyddad hälsoinformation (PHI) och personlig information. Följande resurser är tillgängliga för att skydda dessa data:
- Data Lake Storage använder rollbaserad åtkomstkontroll i Azure (RBAC) och åtkomstkontrollistor (ACL) för att skapa en åtkomstkontrollmodell.
- Synapse Analytics tillhandahåller ett antal åtkomst- och säkerhetskontroller på databas-, kolumn- och radnivå. Data kan också skyddas på cellnivå och via datakryptering.
- Data Factory tillhandahåller en grundläggande säkerhetsinfrastruktur för dataflytt i både hybrid- och molnscenarier.
Kostnadsoptimering
Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.
Prissättningen för den här lösningen baseras på:
- De Azure-tjänster som används.
- Datavolym.
- Kapacitets- och dataflödeskrav.
- ETL/ELT-transformeringar som behövs.
- Beräkningsresurser som behövs för att utföra maskininlärningsuppgifter.
Du kan beräkna kostnaderna med hjälp av priskalkylatorn för Azure.
Deltagare
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudsakliga författare:
- Matt Hansen | Senior Cloud Solution Architect
- Sandy Su | Molnlösningsarkitekt
Nästa steg
Azure-tjänster
- Vad är Azure Data Factory?
- Vad är Azure Databricks?
- Spåra ML-modeller med MLflow och Azure Machine Learning
- Introduktion till Azure Data Lake Storage Gen2
- Vad är Azure Machine Learning?
- Vad är automatisk maskininlärning (AutoML)?
- Vad är Azure Synapse Analytics?
- Frigöra kraften i förutsägelseanalys i Azure Synapse med maskininlärning och AI
- Avancerad analysarkitektur
- Vad är Power BI?
- Vad är Microsoft Entra-ID?
- Om Azure Key Vault
- Vad är Microsoft Defender för molnet?
Lösningar för hälso- och sjukvård
- Microsoft Cloud for Healthcare
- Azure för hälso- och sjukvård
- Azure API för FHIR
- IoMT FHIR-Anslut eller för Azure
- Fjärrövervakning av patienter med Internet of Medical Things (IoMT)
Relaterade resurser
- Batchbedömning av Python-modeller i Azure
- Medborgar-AI med Power Platform
- Distribuera AI- och ML-databehandling lokalt och till gränsen
- MLOps för Python-modeller med Azure Machine Learning
- Datavetenskap och maskininlärning med Azure Databricks
- Förutsäga vistelsens längd och patientflöde
- Hantering av befolkningshälsa för hälso- och sjukvård