Kórházi visszafogadások előrejelzése hagyományos és automatizált gépi tanulási technikákkal

Azure Machine Learning

Azure Synapse Analytics

Azure Data Factory

Ez az architektúra prediktív állapotelemzési keretrendszert biztosít a felhőben a modellfejlesztés, az üzembe helyezés és a felhasználás felgyorsításához.

Architektúra

Ez a keretrendszer natív Azure Analytics-szolgáltatásokat használ az adatbetöltéshez, a tároláshoz, az adatfeldolgozáshoz, az elemzéshez és a modell üzembe helyezéséhez.

Töltse le az architektúra Visio-fájlját.

Workflow

Az architektúra munkafolyamatát a résztvevők szerepkörei írják le.

adatmérnök: Az adatok forrásrendszerekből való betöltéséért és az adatfolyamok vezényléséért felelős, hogy adatokat helyezzenek át a forrásból a célba. A nyers adatokon végzett adatátalakításokért is felelős lehet.
- Ebben a forgatókönyvben a korábbi kórházi visszafogadási adatok egy helyszíni SQL Server-adatbázisban lesznek tárolva.
- A várt kimenet egy felhőalapú tárfiókban tárolt visszafogadási adatok.
adattudós: A céltároló rétegben lévő adatok különböző feladatainak végrehajtásáért felelős, hogy felkészítse azokat a modell előrejelzésére. A feladatok közé tartozik a tisztítás, a szolgáltatásfejlesztés és az adatszabványozás.
- Tisztítás: Az adatok előzetes feldolgozása, null értékek eltávolítása, felesleges oszlopok elvetése stb. Ebben a forgatókönyvben a túl sok hiányzó értékkel rendelkező oszlopokat elveti.
- Funkciófejlesztés:
  1. Határozza meg a kívánt kimenet előrejelzéséhez szükséges bemeneteket.
  2. A visszafogadás lehetséges előrejelzéseinek meghatározása, például olyan szakemberek, mint az orvosok és az ápolók beszélgetésével. Például a valós bizonyítékok arra utalhatnak, hogy a túlsúlyos diabéteszes beteg a kórházi visszafogadás előrejelzése.
- Adatszabványosítás:
  1. Az adatok helyének és variabilitásának jellemzése a gépi tanulási feladatok előkészítéséhez. A jellemzéseknek tartalmazniuk kell az adateloszlást, a ferdeséget és a kurtózist.
    - A ferdeség a következő kérdésre válaszol: Mi az eloszlás alakja?
    - A Kurtosis a következő kérdésre válaszol: Mi az eloszlás vastagságának vagy nehézségének mértéke?
  2. Az adathalmaz anomáliáinak azonosítása és javítása – az előrejelzési modellt normál eloszlású adathalmazon kell végrehajtani.
  3. A várt kimenet a következő betanítási adatkészletek:
    - Az üzembe helyezésre kész, kielégítő előrejelzési modell létrehozásához használható.
    - A Citizen adattudós automatikus modell-előrejelzéshez (AutoML) adható.
Citizen adattudós: Felelős egy előrejelzési modell létrehozásáért, amely a adattudós betanítási adatain alapul. A Citizen adattudós valószínűleg olyan AutoML-képességet használ, amely nem igényel nagy kódolási képességeket az előrejelzési modellek létrehozásához.

A várt kimenet egy kielégítő előrejelzési modell, amely készen áll az üzembe helyezésre.
Üzletiintelligencia-elemző: Felelős az adatmérnök által előállított nyers adatok működési elemzéséért. A BI-elemző részt vehet relációs adatok strukturálatlan adatokból való létrehozásában, SQL-szkriptek írásában és irányítópultok létrehozásában.

A várt kimenet relációs lekérdezések, BI-jelentések és irányítópultok.
MLOps-mérnök: Felelős a modellek éles üzembe helyezéséért, amelyet a adattudós vagy a Citizen adattudós biztosít.

A várt kimenet olyan modellek, amelyek készen állnak az éles és reprodukálható modellekre.

Bár ez a lista átfogó képet nyújt az összes lehetséges szerepkörről, amely a munkafolyamat bármely pontján használhatja az egészségügyi adatokat, a szerepkörök szükség szerint konszolidálhatók vagy bővíthetők.

Összetevők

Az Azure Data Factory egy vezénylési szolgáltatás, amely képes adatokat áthelyezni a helyszíni rendszerekről az Azure-ba, hogy más Azure-beli adatszolgáltatásokkal működjön együtt. A folyamatokat az adatáthelyezéshez, a leképezési adatfolyamokat pedig különféle átalakítási feladatok végrehajtására használják, például kinyeréshez, átalakításhoz, betöltéshez (ETL) és kinyeréshez, betöltéshez, átalakításhoz (ELT). Ebben az architektúrában a adatmérnök a Data Factory használatával futtat egy folyamatot, amely egy helyszíni SQL Serverről a felhőbeli tárolóba másolja a korábbi kórházi visszafogadási adatokat.
Az Azure Databricks egy Spark-alapú elemzési és gépi tanulási szolgáltatás, amelyet adatelemzési és gépi tanulási feladatokhoz használnak. Ebben az architektúrában a adatmérnök a Databricks használatával meghív egy Data Factory-folyamatot egy Databricks-jegyzetfüzet futtatásához. A jegyzetfüzetet a adattudós fejlesztette ki a kezdeti adattisztítási és szolgáltatástervezési feladatok kezelésére. A adattudós további jegyzetfüzetekben írhat kódot az adatok szabványosításához, valamint előrejelzési modellek létrehozásához és üzembe helyezéséhez.
Az Azure Data Lake Storage egy nagymértékben skálázható és biztonságos tárolási szolgáltatás a nagy teljesítményű elemzési számítási feladatokhoz. Ebben az architektúrában a adatmérnök a Data Lakes Storage használatával határozza meg az Azure-ba betöltött helyszíni adatok kezdeti kezdőzónáját és a betanítási adatok végső célzónát. A nyers vagy végleges formátumú adatok különböző alárendelt rendszerek általi használatra készek.
Az Azure Machine Tanulás egy együttműködési környezet, amely a gépi tanulási modellek betanítása, üzembe helyezése, automatizálása, kezelése és nyomon követése során használható. Az automatizált gépi tanulás (AutoML) olyan képesség, amely automatizálja az ML-modell fejlesztésében részt vevő időigényes és iteratív feladatokat. A adattudós a Machine Tanulás használatával követi nyomon az ml-futtatásokat a Databricksből, és AutoML-modelleket hoz létre, hogy teljesítménytesztként szolgáljon a adattudós ml-modelljeihez. A Citizen adattudós ezzel a szolgáltatással gyorsan futtathatja a betanítási adatokat az AutoML-ben modellek létrehozásához anélkül, hogy a gépi tanulási algoritmusok részletes ismerete szükséges.
Az Azure Synapse Analytics egy olyan elemzési szolgáltatás, amely egyesíti az adatintegrációt, a nagyvállalati adattárházakat és a big data elemzéseket. A felhasználók szabadon kérdezhetik le az adatokat kiszolgáló nélküli vagy dedikált erőforrások használatával, nagy méretekben. Ebben az architektúrában:
- A adatmérnök a Synapse Analytics használatával egyszerűen hozhat létre relációs táblákat a data lake-beli adatokból az operatív elemzés alapjaként.
- A adattudós segítségével gyorsan lekérdezheti a data lake-beli adatokat, és Spark-jegyzetfüzetek használatával előrejelzési modelleket fejleszthet.
- A BI-elemző a lekérdezések futtatására használja a már ismert SQL-szintaxis használatával.
A Microsoft Power BI olyan szoftverszolgáltatások, alkalmazások és összekötők gyűjteménye, amelyek együttműködve koherens, vizuálisan magával ragadó és interaktív megállapításokká alakítják a nem kapcsolódó adatforrásokat. A BI-elemző a Power BI használatával vizualizációkat fejleszt az adatokból, például az egyes betegek otthoni helyének és a legközelebbi kórháznak a térképét.
A Microsoft Entra ID egy felhőalapú identitás- és hozzáférés-kezelési szolgáltatás. Ebben az architektúrában az Azure-szolgáltatásokhoz való hozzáférést szabályozza.
Az Azure Key Vault egy felhőalapú szolgáltatás, amely biztonságos tárat biztosít a titkos kulcsokhoz, jelszavakhoz és tanúsítványokhoz. A Key Vault tartalmazza azokat a titkos kulcsokat, amelyeket a Databricks használ a data lake írási hozzáférésének megszerzéséhez.
Felhőhöz készült Microsoft Defender egy egységes infrastruktúrabiztonsági felügyeleti rendszer, amely erősíti az adatközpontok biztonsági pozícióját, és fejlett fenyegetésvédelmet biztosít a felhőben és a helyszínen található hibrid számítási feladatokhoz. Ezzel monitorozhat biztonsági fenyegetéseket az Azure-környezettel szemben.
Az Azure Kubernetes Service (AKS) egy teljes körűen felügyelt Kubernetes-szolgáltatás tárolóalapú alkalmazások üzembe helyezéséhez és kezeléséhez. Az AKS leegyszerűsíti a felügyelt AKS-fürtök üzembe helyezését az Azure-ban azáltal, hogy kiterjesse az üzemeltetési többletterhelést az Azure-ba.

Alternatívák

Adatáthelyezés: A Databricks használatával adatokat másolhat egy helyszíni rendszerből a data lake-be. A Databricks általában streamelési vagy valós idejű követelményekkel rendelkező adatokhoz, például orvosi eszközről származó telemetriai adatokhoz megfelelő.
Gépi Tanulás: H2O.ai, DataRobot, Dataiku és más szállítók automatizált gépi tanulási képességeket kínálnak, amelyek hasonlóak a Machine Tanulás AutoML-hez. Ilyen platformokkal kiegészítheti az Azure-beli adatmérnöki és gépi tanulási tevékenységeket.

Forgatókönyv részletei

Ez az architektúra a diabéteszes betegek kórházi visszafogadásának előrejelzésére szolgáló teljes körű minta-munkafolyamat, amely 1999 és 2008 között 130 amerikai kórház nyilvánosan elérhető adatait használja. Először kiértékel egy bináris besorolási algoritmust a prediktív teljesítményhez, majd összehasonlítja az automatizált gépi tanulással létrehozott prediktív modellekkel. Olyan helyzetekben, amikor az automatizált gépi tanulás nem tudja kijavítani a kiegyensúlyozatlan adatokat, alternatív technikákat kell alkalmazni. A rendszer kiválaszt egy végső modellt az üzembe helyezéshez és a felhasználáshoz.

Mivel az egészségügyi és élettudományi szervezetek arra törekszenek, hogy személyre szabottabb élményt nyújtsanak a betegek és a gondozók számára, kihívást jelent számukra, hogy az örökölt rendszerekből származó adatokat használva releváns, pontos és időszerű prediktív megállapításokat nyújtsanak. Az adatgyűjtés a hagyományos működési rendszerek és az elektronikus egészségügyi nyilvántartások (EHR-k) fölé került, és egyre inkább strukturálatlan formákká vált a fogyasztói egészségügyi alkalmazásokból, fitnesz hordható eszközökből és intelligens orvostechnikai eszközökből. A szervezeteknek szükségük van arra, hogy gyorsan központosíthassák ezeket az adatokat, és kihasználhassák az adatelemzés és a gépi tanulás erejét, hogy relevánsak maradjanak ügyfeleik számára.

E célok elérése érdekében az egészségügyi és élettudományi szervezeteknek a következőkre kell törekedniük:

Hozzon létre egy adatforrást, amelyből a prediktív elemzés valós idejű értéket biztosíthat az egészségügyi szolgáltatók, a kórházi rendszergazdák, a gyógyszergyártók és mások számára.
Olyan iparági szakértőik (kkv-k) számára, amelyek nem rendelkeznek adatelemzési és gépi tanulási készségekkel.
Biztosítsa az adatelemzési és gépi tanulási (ML) kkv-k számára azokat a rugalmas eszközöket, amelyekre szükségük van a prediktív modellek hatékony, pontos és nagy léptékű létrehozásához és üzembe helyezéséhez.

Lehetséges használati esetek

Kórházi visszafogadások előrejelzése
A betegdiagnózis felgyorsítása ML-alapú képalkotó eljárással
Szövegelemzés elvégzése orvosjegyzeteken
Kedvezőtlen események előrejelzése távoli betegfigyelési adatok elemzésével az Orvosi dolgok internetéről (IoMT)

Considerations

Ezek a szempontok implementálják az Azure Well-Architected Framework alappilléreit, amely a számítási feladatok minőségének javítására használható vezérelvek halmaza. További információ: Microsoft Azure Well-Architected Framework.

Availability

Számos egészségügyi szervezet számára kritikus fontosságú a valós idejű klinikai adatok és elemzések biztosítása. Az alábbi módszerekkel minimalizálhatja az állásidőt és biztonságban tarthatja az adatokat:

A Data Lake Storage mindig háromszor replikálódik az elsődleges régióban, és választhat helyileg redundáns tárolást (LRS) vagy zónaredundáns tárolást (ZRS).
A Synapse Analytics adatbázis-visszaállítási pontokat és vészhelyreállítást biztosít.
A Data Factory-adatok tárolása és replikálása egy Azure-párosított régióban történik az üzletmenet folytonosságának és vészhelyreállításának biztosítása érdekében.
A Databricks vészhelyreállítási útmutatást nyújt az adatelemzési platformhoz.
A gép Tanulás üzembe helyezése többrégiós lehet.

Teljesítmény

A Data Factory saját üzemeltetésű integrációs modulja felskálázható a magas rendelkezésre állás és a méretezhetőség érdekében.

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

Az egészségügyi adatok gyakran tartalmaznak bizalmas védett egészségügyi információkat (PHI) és személyes adatokat. Az adatok védelméhez a következő erőforrások érhetők el:

A Data Lake Storage azure-beli szerepköralapú hozzáférés-vezérlést (RBAC) és hozzáférés-vezérlési listákat (ACL-eket) használ a hozzáférés-vezérlési modell létrehozásához.
A Synapse Analytics számos hozzáférés- és biztonsági vezérlőt biztosít az adatbázis, az oszlop és a sor szintjén. Az adatok cellaszinten és adattitkosítással is védhetők.
A Data Factory alapszintű biztonsági infrastruktúrát biztosít az adatáthelyezéshez hibrid és felhőalapú forgatókönyvekben is.

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.

A megoldás díjszabása a következőn alapul:

A használt Azure-szolgáltatások.
Adatmennyiség.
Kapacitásra és átviteli sebességre vonatkozó követelmények.
Szükséges ETL-/ELT-átalakítások.
A gépi tanulási feladatok elvégzéséhez szükséges számítási erőforrások.

A költségeket az Azure díjkalkulátorával becsülheti meg.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Kórházi visszafogadások előrejelzése hagyományos és automatizált gépi tanulási technikákkal

Architektúra

Workflow

Összetevők

Alternatívák

Forgatókönyv részletei

Lehetséges használati esetek

Considerations

Availability

Teljesítmény

Biztonság

Költségoptimalizálás

Közreműködők

Következő lépések

Azure-szolgáltatások

Egészségügyi megoldások

Visszajelzés

Visszajelzés

További források

Kórházi visszafogadások előrejelzése hagyományos és automatizált gépi tanulási technikákkal

Architektúra

Workflow

Összetevők

Alternatívák

Forgatókönyv részletei

Lehetséges használati esetek

Considerations

Availability

Teljesítmény

Biztonság

Költségoptimalizálás

Közreműködők

Következő lépések

Azure-szolgáltatások

Egészségügyi megoldások

Kapcsolódó erőforrások

Visszajelzés

Visszajelzés

További források