Kórházi visszafogadások előrejelzése hagyományos és automatizált gépi tanulási technikákkal

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Ez az architektúra prediktív állapotelemzési keretrendszert biztosít a felhőben a modellfejlesztés, az üzembe helyezés és a felhasználás felgyorsításához.

Architektúra

Ez a keretrendszer natív Azure Analytics-szolgáltatásokat használ az adatbetöltéshez, a tároláshoz, az adatfeldolgozáshoz, az elemzéshez és a modell üzembe helyezéséhez.

Diagram demonstrates the architecture of a multi-tier app.

Töltse le az architektúra Visio-fájlját.

Workflow

Az architektúra munkafolyamatát a résztvevők szerepkörei írják le.

  1. adatmérnök: Az adatok forrásrendszerekből való betöltéséért és az adatfolyamok vezényléséért felelős, hogy adatokat helyezzenek át a forrásból a célba. A nyers adatokon végzett adatátalakításokért is felelős lehet.

    • Ebben a forgatókönyvben a korábbi kórházi visszafogadási adatok egy helyszíni SQL Server-adatbázisban lesznek tárolva.
    • A várt kimenet egy felhőalapú tárfiókban tárolt visszafogadási adatok.
  2. adattudós: A céltároló rétegben lévő adatok különböző feladatainak végrehajtásáért felelős, hogy felkészítse azokat a modell előrejelzésére. A feladatok közé tartozik a tisztítás, a szolgáltatásfejlesztés és az adatszabványozás.

    • Tisztítás: Az adatok előzetes feldolgozása, null értékek eltávolítása, felesleges oszlopok elvetése stb. Ebben a forgatókönyvben a túl sok hiányzó értékkel rendelkező oszlopokat elveti.
    • Funkciófejlesztés:
      1. Határozza meg a kívánt kimenet előrejelzéséhez szükséges bemeneteket.
      2. A visszafogadás lehetséges előrejelzéseinek meghatározása, például olyan szakemberek, mint az orvosok és az ápolók beszélgetésével. Például a valós bizonyítékok arra utalhatnak, hogy a túlsúlyos diabéteszes beteg a kórházi visszafogadás előrejelzése.
    • Adatszabványosítás:
      1. Az adatok helyének és variabilitásának jellemzése a gépi tanulási feladatok előkészítéséhez. A jellemzéseknek tartalmazniuk kell az adateloszlást, a ferdeséget és a kurtózist.
        • A ferdeség a következő kérdésre válaszol: Mi az eloszlás alakja?
        • A Kurtosis a következő kérdésre válaszol: Mi az eloszlás vastagságának vagy nehézségének mértéke?
      2. Az adathalmaz anomáliáinak azonosítása és javítása – az előrejelzési modellt normál eloszlású adathalmazon kell végrehajtani.
      3. A várt kimenet a következő betanítási adatkészletek:
        • Az üzembe helyezésre kész, kielégítő előrejelzési modell létrehozásához használható.
        • A Citizen adattudós automatikus modell-előrejelzéshez (AutoML) adható.
  3. Citizen adattudós: Felelős egy előrejelzési modell létrehozásáért, amely a adattudós betanítási adatain alapul. A Citizen adattudós valószínűleg olyan AutoML-képességet használ, amely nem igényel nagy kódolási képességeket az előrejelzési modellek létrehozásához.

    A várt kimenet egy kielégítő előrejelzési modell, amely készen áll az üzembe helyezésre.

  4. Üzletiintelligencia-elemző: Felelős az adatmérnök által előállított nyers adatok működési elemzéséért. A BI-elemző részt vehet relációs adatok strukturálatlan adatokból való létrehozásában, SQL-szkriptek írásában és irányítópultok létrehozásában.

    A várt kimenet relációs lekérdezések, BI-jelentések és irányítópultok.

  5. MLOps-mérnök: Felelős a modellek éles üzembe helyezéséért, amelyet a adattudós vagy a Citizen adattudós biztosít.

    A várt kimenet olyan modellek, amelyek készen állnak az éles és reprodukálható modellekre.

Bár ez a lista átfogó képet nyújt az összes lehetséges szerepkörről, amely a munkafolyamat bármely pontján használhatja az egészségügyi adatokat, a szerepkörök szükség szerint konszolidálhatók vagy bővíthetők.

Összetevők

  • Az Azure Data Factory egy vezénylési szolgáltatás, amely képes adatokat áthelyezni a helyszíni rendszerekről az Azure-ba, hogy más Azure-beli adatszolgáltatásokkal működjön együtt. A folyamatokat az adatáthelyezéshez, a leképezési adatfolyamokat pedig különféle átalakítási feladatok végrehajtására használják, például kinyeréshez, átalakításhoz, betöltéshez (ETL) és kinyeréshez, betöltéshez, átalakításhoz (ELT). Ebben az architektúrában a adatmérnök a Data Factory használatával futtat egy folyamatot, amely egy helyszíni SQL Serverről a felhőbeli tárolóba másolja a korábbi kórházi visszafogadási adatokat.
  • Az Azure Databricks egy Spark-alapú elemzési és gépi tanulási szolgáltatás, amelyet adatelemzési és gépi tanulási feladatokhoz használnak. Ebben az architektúrában a adatmérnök a Databricks használatával meghív egy Data Factory-folyamatot egy Databricks-jegyzetfüzet futtatásához. A jegyzetfüzetet a adattudós fejlesztette ki a kezdeti adattisztítási és szolgáltatástervezési feladatok kezelésére. A adattudós további jegyzetfüzetekben írhat kódot az adatok szabványosításához, valamint előrejelzési modellek létrehozásához és üzembe helyezéséhez.
  • Az Azure Data Lake Storage egy nagymértékben skálázható és biztonságos tárolási szolgáltatás a nagy teljesítményű elemzési számítási feladatokhoz. Ebben az architektúrában a adatmérnök a Data Lakes Storage használatával határozza meg az Azure-ba betöltött helyszíni adatok kezdeti kezdőzónáját és a betanítási adatok végső célzónát. A nyers vagy végleges formátumú adatok különböző alárendelt rendszerek általi használatra készek.
  • Az Azure Machine Tanulás egy együttműködési környezet, amely a gépi tanulási modellek betanítása, üzembe helyezése, automatizálása, kezelése és nyomon követése során használható. Az automatizált gépi tanulás (AutoML) olyan képesség, amely automatizálja az ML-modell fejlesztésében részt vevő időigényes és iteratív feladatokat. A adattudós a Machine Tanulás használatával követi nyomon az ml-futtatásokat a Databricksből, és AutoML-modelleket hoz létre, hogy teljesítménytesztként szolgáljon a adattudós ml-modelljeihez. A Citizen adattudós ezzel a szolgáltatással gyorsan futtathatja a betanítási adatokat az AutoML-ben modellek létrehozásához anélkül, hogy a gépi tanulási algoritmusok részletes ismerete szükséges.
  • Az Azure Synapse Analytics egy olyan elemzési szolgáltatás, amely egyesíti az adatintegrációt, a nagyvállalati adattárházakat és a big data elemzéseket. A felhasználók szabadon kérdezhetik le az adatokat kiszolgáló nélküli vagy dedikált erőforrások használatával, nagy méretekben. Ebben az architektúrában:
    • A adatmérnök a Synapse Analytics használatával egyszerűen hozhat létre relációs táblákat a data lake-beli adatokból az operatív elemzés alapjaként.
    • A adattudós segítségével gyorsan lekérdezheti a data lake-beli adatokat, és Spark-jegyzetfüzetek használatával előrejelzési modelleket fejleszthet.
    • A BI-elemző a lekérdezések futtatására használja a már ismert SQL-szintaxis használatával.
  • A Microsoft Power BI olyan szoftverszolgáltatások, alkalmazások és összekötők gyűjteménye, amelyek együttműködve koherens, vizuálisan magával ragadó és interaktív megállapításokká alakítják a nem kapcsolódó adatforrásokat. A BI-elemző a Power BI használatával vizualizációkat fejleszt az adatokból, például az egyes betegek otthoni helyének és a legközelebbi kórháznak a térképét.
  • A Microsoft Entra ID egy felhőalapú identitás- és hozzáférés-kezelési szolgáltatás. Ebben az architektúrában az Azure-szolgáltatásokhoz való hozzáférést szabályozza.
  • Az Azure Key Vault egy felhőalapú szolgáltatás, amely biztonságos tárat biztosít a titkos kulcsokhoz, jelszavakhoz és tanúsítványokhoz. A Key Vault tartalmazza azokat a titkos kulcsokat, amelyeket a Databricks használ a data lake írási hozzáférésének megszerzéséhez.
  • Felhőhöz készült Microsoft Defender egy egységes infrastruktúrabiztonsági felügyeleti rendszer, amely erősíti az adatközpontok biztonsági pozícióját, és fejlett fenyegetésvédelmet biztosít a felhőben és a helyszínen található hibrid számítási feladatokhoz. Ezzel monitorozhat biztonsági fenyegetéseket az Azure-környezettel szemben.
  • Az Azure Kubernetes Service (AKS) egy teljes körűen felügyelt Kubernetes-szolgáltatás tárolóalapú alkalmazások üzembe helyezéséhez és kezeléséhez. Az AKS leegyszerűsíti a felügyelt AKS-fürtök üzembe helyezését az Azure-ban azáltal, hogy kiterjesse az üzemeltetési többletterhelést az Azure-ba.

Alternatívák

  • Adatáthelyezés: A Databricks használatával adatokat másolhat egy helyszíni rendszerből a data lake-be. A Databricks általában streamelési vagy valós idejű követelményekkel rendelkező adatokhoz, például orvosi eszközről származó telemetriai adatokhoz megfelelő.

  • Gépi Tanulás: H2O.ai, DataRobot, Dataiku és más szállítók automatizált gépi tanulási képességeket kínálnak, amelyek hasonlóak a Machine Tanulás AutoML-hez. Ilyen platformokkal kiegészítheti az Azure-beli adatmérnöki és gépi tanulási tevékenységeket.

Forgatókönyv részletei

Ez az architektúra a diabéteszes betegek kórházi visszafogadásának előrejelzésére szolgáló teljes körű minta-munkafolyamat, amely 1999 és 2008 között 130 amerikai kórház nyilvánosan elérhető adatait használja. Először kiértékel egy bináris besorolási algoritmust a prediktív teljesítményhez, majd összehasonlítja az automatizált gépi tanulással létrehozott prediktív modellekkel. Olyan helyzetekben, amikor az automatizált gépi tanulás nem tudja kijavítani a kiegyensúlyozatlan adatokat, alternatív technikákat kell alkalmazni. A rendszer kiválaszt egy végső modellt az üzembe helyezéshez és a felhasználáshoz.

Mivel az egészségügyi és élettudományi szervezetek arra törekszenek, hogy személyre szabottabb élményt nyújtsanak a betegek és a gondozók számára, kihívást jelent számukra, hogy az örökölt rendszerekből származó adatokat használva releváns, pontos és időszerű prediktív megállapításokat nyújtsanak. Az adatgyűjtés a hagyományos működési rendszerek és az elektronikus egészségügyi nyilvántartások (EHR-k) fölé került, és egyre inkább strukturálatlan formákká vált a fogyasztói egészségügyi alkalmazásokból, fitnesz hordható eszközökből és intelligens orvostechnikai eszközökből. A szervezeteknek szükségük van arra, hogy gyorsan központosíthassák ezeket az adatokat, és kihasználhassák az adatelemzés és a gépi tanulás erejét, hogy relevánsak maradjanak ügyfeleik számára.

E célok elérése érdekében az egészségügyi és élettudományi szervezeteknek a következőkre kell törekedniük:

  • Hozzon létre egy adatforrást, amelyből a prediktív elemzés valós idejű értéket biztosíthat az egészségügyi szolgáltatók, a kórházi rendszergazdák, a gyógyszergyártók és mások számára.
  • Olyan iparági szakértőik (kkv-k) számára, amelyek nem rendelkeznek adatelemzési és gépi tanulási készségekkel.
  • Biztosítsa az adatelemzési és gépi tanulási (ML) kkv-k számára azokat a rugalmas eszközöket, amelyekre szükségük van a prediktív modellek hatékony, pontos és nagy léptékű létrehozásához és üzembe helyezéséhez.

Lehetséges használati esetek

  • Kórházi visszafogadások előrejelzése
  • A betegdiagnózis felgyorsítása ML-alapú képalkotó eljárással
  • Szövegelemzés elvégzése orvosjegyzeteken
  • Kedvezőtlen események előrejelzése távoli betegfigyelési adatok elemzésével az Orvosi dolgok internetéről (IoMT)

Considerations

Ezek a szempontok implementálják az Azure Well-Architected Framework alappilléreit, amely a számítási feladatok minőségének javítására használható vezérelvek halmaza. További információ: Microsoft Azure Well-Architected Framework.

Availability

Számos egészségügyi szervezet számára kritikus fontosságú a valós idejű klinikai adatok és elemzések biztosítása. Az alábbi módszerekkel minimalizálhatja az állásidőt és biztonságban tarthatja az adatokat:

  • A Data Lake Storage mindig háromszor replikálódik az elsődleges régióban, és választhat helyileg redundáns tárolást (LRS) vagy zónaredundáns tárolást (ZRS).
  • A Synapse Analytics adatbázis-visszaállítási pontokat és vészhelyreállítást biztosít.
  • A Data Factory-adatok tárolása és replikálása egy Azure-párosított régióban történik az üzletmenet folytonosságának és vészhelyreállításának biztosítása érdekében.
  • A Databricks vészhelyreállítási útmutatást nyújt az adatelemzési platformhoz.
  • A gép Tanulás üzembe helyezése többrégiós lehet.

Teljesítmény

A Data Factory saját üzemeltetésű integrációs modulja felskálázható a magas rendelkezésre állás és a méretezhetőség érdekében.

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

Az egészségügyi adatok gyakran tartalmaznak bizalmas védett egészségügyi információkat (PHI) és személyes adatokat. Az adatok védelméhez a következő erőforrások érhetők el:

  • A Data Lake Storage azure-beli szerepköralapú hozzáférés-vezérlést (RBAC) és hozzáférés-vezérlési listákat (ACL-eket) használ a hozzáférés-vezérlési modell létrehozásához.
  • A Synapse Analytics számos hozzáférés- és biztonsági vezérlőt biztosít az adatbázis, az oszlop és a sor szintjén. Az adatok cellaszinten és adattitkosítással is védhetők.
  • A Data Factory alapszintű biztonsági infrastruktúrát biztosít az adatáthelyezéshez hibrid és felhőalapú forgatókönyvekben is.

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.

A megoldás díjszabása a következőn alapul:

  • A használt Azure-szolgáltatások.
  • Adatmennyiség.
  • Kapacitásra és átviteli sebességre vonatkozó követelmények.
  • Szükséges ETL-/ELT-átalakítások.
  • A gépi tanulási feladatok elvégzéséhez szükséges számítási erőforrások.

A költségeket az Azure díjkalkulátorával becsülheti meg.

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerzők:

Következő lépések

Azure-szolgáltatások

Egészségügyi megoldások