Ez a cikk egy genomikai elemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek.
Felépítés
A diagram két mezőt tartalmaz. Az első a bal oldalon az Azure Data Factory címkével rendelkezik a vezényléshez. A második mezőben a "Clinician views" felirat látható. Az első mező több kisebb mezőt tartalmaz, amelyek adatokat vagy különböző Azure-összetevőket jelölnek. A nyilak összekötik a mezőket, és a nyilak számozott címkéi megfelelnek a dokumentum szövegében szereplő számozott lépéseknek. Két nyíl áramlik a dobozok között, és a Klinika nézetmezője végződik. Egy nyíl egy klinikus ikonra mutat. A másik egy Power BI-ikonra mutat.
Töltse le az architektúra Visio-fájlját.
Munkafolyamat
Az Azure Data Factory vezényli a munkafolyamatot:
A Data Factory a kezdeti mintafájlt az Azure Blob Storage-ba továbbítja. A fájl FASTQ formátumban van.
A Microsoft Genomics másodlagos elemzést futtat a fájlon.
A Microsoft Genomics a blobtárolóban tárolja a kimenetet az alábbi formátumok egyikében:
- Variant call format (VCF)
- Genomikus VCF (GVCF)
A Jupyter Notebook széljegyzetet ad a kimeneti fájlnak. A jegyzetfüzet az Azure Databricksen fut.
Az Azure Data Lake Storage tárolja a jegyzettel ellátott fájlt.
A Jupyter Notebook egyesíti a fájlt más adatkészletekkel, és elemzi az adatokat. A jegyzetfüzet az Azure Databricksen fut.
A Data Lake Storage tárolja a feldolgozott adatokat.
Az Azure Healthcare API-k az adatokat egy Fast Healthcare Interoperability Resources (FHIR) csomagba csomagolják. A klinikai adatok ezután bekerülnek a beteg elektronikus egészségügyi nyilvántartásába (EHR).
A klinikusok power BI-irányítópultokon tekintik meg az eredményeket.
Összetevők
A megoldás a következő összetevőket használja:
Microsoft Genomics
A Microsoft Genomics hatékony és pontos genomikai folyamatot kínál, amely megvalósítja az iparág ajánlott eljárásait. A nagy teljesítményű motorja az alábbi feladatokra van optimalizálva:
- Nagyméretű genomikai adatokból álló fájlok olvasása
- A feldolgozásuk hatékonyan számos magon keresztül
- Az eredmények rendezése és szűrése
- Az eredmények írása kimeneti fájlokba
Az átviteli sebesség maximalizálása érdekében ez a motor egy Burrows-Wheeler Alignert (BWA) és egy Genome Analysis Toolkit (GATK) HaplotypeCaller variáns hívót működtet. A motor számos más összetevőt is használ, amelyek szabványos genomikai folyamatokat alkotnak. Ilyen például az ismétlődő megjelölés, az alapminőségi pontszám újraszámítása és az indexelés. Néhány óra múlva a motor egyetlen genomikai mintát képes feldolgozni egyetlen többmagos kiszolgálón. A feldolgozás nyers olvasással kezdődik. Összehangolt olvasási és változathívásokat hoz létre.
A Microsoft Genomics-vezérlő belsőleg kezeli a folyamat alábbi aspektusait:
- Genomkötegek elosztása a felhőben lévő gépek készletei között
- Bejövő kérések üzenetsorának karbantartása
- A kérések elosztása a genomikai motort futtató kiszolgálókra
- A kiszolgálók teljesítményének és állapotának monitorozása
- Az eredmények kiértékelése
- Annak biztosítása, hogy a feldolgozás megbízhatóan és biztonságosan, nagy méretekben fusson egy biztonságos webszolgáltatás API-ja mögött
A Microsoft Genomics-eredményeket egyszerűen használhatja harmadlagos elemzési és gépi tanulási szolgáltatásokban. Mivel a Microsoft Genomics egy felhőalapú szolgáltatás, nem kell hardvert vagy szoftvert kezelnie vagy frissítenie.
Egyéb összetevők
A Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik együtt. Ezzel a teljes mértékben felügyelt, kiszolgáló nélküli platformmal vezényelheti és automatizálhatja a munkafolyamatokat. Ebben a megoldásban a Data Factory-folyamatok adatokat továbbítanak az Azure-ba. Ezután folyamatsorozat aktiválja a munkafolyamat minden lépését.
A Blob Storage optimalizált felhőalapú objektumtárolást kínál nagy mennyiségű strukturálatlan adathoz. Ebben a forgatókönyvben a Blob Storage biztosítja a FASTQ-fájl kezdeti célzónát. Ez a szolgáltatás a Microsoft Genomics által létrehozott VCF- és GVCF-fájlok kimeneti céljaként is működik. A Blob Storage rétegzési funkciója lehetővé teszi a FASTQ-fájlok archiválását olcsó, hosszú távú tárolókban a feldolgozás után.
Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök különböző forrásokból származó nagy adatstreameket dolgoznak fel. Ebben a megoldásban az Azure Databricks biztosítja azokat a számítási erőforrásokat, amelyekre a Jupyter Notebooknak megjegyzéseket kell fűznie, egyesítenie és elemeznie kell az adatokat.
A Data Lake Storage egy méretezhető és biztonságos data lake a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok strukturálhatók, részben strukturáltak vagy strukturálatlanok lehetnek. Általában több heterogén forrásból származik. Ebben az architektúrában a Data Lake Storage biztosítja a jegyzetekkel ellátott fájlok és az egyesített adathalmazok végső célzónát. Emellett hozzáférést biztosít az alsóbb rétegbeli rendszereknek a végső kimenethez.
A Power BI olyan szoftverszolgáltatások és alkalmazások gyűjteménye, amelyek elemzési információkat jelenítenek meg. A Power BI használatával csatlakoztathatja és megjelenítheti a nem kapcsolódó adatforrásokat. Ebben a megoldásban feltöltheti a Power BI-irányítópultokat az eredményekkel. A klinikusok ezután vizualizációkat hozhatnak létre a végső adathalmazból.
Az Azure Healthcare API-k egy felügyelt, szabványokon alapuló, megfelelő felület a klinikai egészségügyi adatokhoz való hozzáféréshez. Ebben a forgatókönyvben az Azure Healthcare API-k átadnak egy FHIR-csomagot az EHR-nek a klinikai adatokkal együtt.
Forgatókönyv részletei
Ez a cikk egy genomikai elemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek. A megoldás egy klinikai genomikai munkafolyamatot biztosít, amely automatizálja ezeket a feladatokat:
- Adatok felvétele egy szekvencióból
- Az adatok áthelyezése másodlagos elemzéssel
- Olyan eredmények biztosítása, amelyeket a klinikusok felhasználhatnak
A genomika növekvő mérete, összetettsége és biztonsági követelményei ideális választássá teszik a felhőbe való áttéréshez. A megoldás ezért nyílt forráskódú eszközök mellett Azure-szolgáltatásokat is használ. Ez a megközelítés kihasználja az Azure-felhő biztonsági, teljesítmény- és méretezhetőségi funkcióit:
- A tudósok több százezer genom szekvenálását tervezik az elkövetkező években. Az adatok tárolásának és elemzésének feladata jelentős számítási teljesítményt és tárolási kapacitást igényel. Az erőforrásokat biztosító adatközpontok világszerte megfelelnek ezeknek az igényeknek.
- Az Azure jelentős globális biztonsági és adatvédelmi szabványokhoz, például az ISO 27001-hez rendelkezik tanúsítvánnyal.
- Az Azure megfelel az egészségügyi biztosítás hordozhatóságáról és elszámoltathatóságáról szóló törvény (HIPAA) által a személyes egészségügyi adatokra vonatkozó biztonsági és származási előírásoknak.
A megoldás egyik fő összetevője a Microsoft Genomics. Ez a szolgáltatás egy optimalizált másodlagos elemzési implementációt kínál, amely néhány óra alatt képes feldolgozni egy 30-szoros genomot . A standard technológiák napokig is eltarthatnak.
Lehetséges használati esetek
Ez a megoldás ideális az egészségügyi ágazat számára. Számos területre vonatkozik:
- Rákbetegek kockázati pontszáma
- A betegségre hajlamos genetikai markerekkel rendelkező betegek azonosítása
- Betegek kohorszainak létrehozása tanulmányokhoz
Considerations
Az alábbi szempontok összhangban vannak a Microsoft Azure Well-Architected Framework keretrendszerrel, és vonatkoznak erre a megoldásra:
Elérhetőség
A legtöbb Azure-összetevő szolgáltatásiszint-szerződései (SLA-k) garantálják a rendelkezésre állást:
- A Data Factory-folyamatok legalább 99,9 százaléka garantáltan sikeresen fut.
- Az Azure Databricks SLA 99,95 százalékos rendelkezésre állást garantál.
- A Microsoft Genomics 99,99 százalékos rendelkezésre állási SLA-t kínál munkafolyamat-kérelmekhez.
- A Blob Storage és a Data Lake Storage az Azure Storage része, amely redundanciával biztosítja a rendelkezésre állást.
Méretezhetőség
A legtöbb Azure-szolgáltatás tervezés szerint skálázható:
- A Data Factory nagy léptékben alakítja át az adatokat.
- Az Azure Databricks-fürtök szükség szerint átméretezhetők.
- A Blob Storage skálázhatóságának optimalizálásáról további információt a Blob Storage teljesítmény- és méretezhetőségi ellenőrzőlistájában talál.
- A Data Lake Storage képes több bájtnyi adat kezelésére.
- A Microsoft Genomics exabájtszintű számítási feladatokat futtat.
Biztonság
A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.
A megoldás technológiái megfelelnek a legtöbb vállalat biztonsági követelményeinek.
Guidelines
Az orvosi adatok bizalmas jellege miatt az alábbi dokumentumokban szereplő irányelvek követésével alakítsa ki a szabályozást és a biztonságot:
- Biztonság az Azure-hoz készült Microsoft felhőadaptálási keretrendszer
- Gyakorlati útmutató biztonságos állapotmegoldások tervezéséhez a Microsoft Azure használatával
- Nagyvállalati szintű célzónák
Előírásoknak való megfelelés
A HIPAA és az egészségügyi információs technológia gazdasági és klinikai egészségügyi (HITECH) törvénynek való megfelelésről az alábbi dokumentumokban tájékozódhat:
A megoldás összetevői a Microsoft Azure megfelelőségi ajánlatainak megfelelően a HIPAA hatókörébe tartoznak. Ha bármilyen más összetevőt helyettesít, először ellenőrizze azokat a dokumentum függelékében található lista alapján.
Általános biztonsági funkciók
Több összetevő más módon is védi az adatokat:
Az Azure Databricks számos eszközt biztosít a hálózati infrastruktúra és az adatok védelméhez. Ilyenek például a hozzáférés-vezérlési listák, a titkos kódok és a nyilvános IP-címek (NPIP) nélkül.
A Blob Storage támogatja a tárolási szolgáltatás titkosítását (S Standard kiadás), amely a tárolás előtt automatikusan titkosítja az adatokat. Emellett számos más módszert is kínál az adatok és a hálózatok védelmére.
A Data Lake Storage hozzáférés-vezérlést biztosít. Modellje az alábbi típusú vezérlőket támogatja:
- Azure role-based access control (RBAC)
- Portable Operating System Interface (POSIX) hozzáférés-vezérlési listák (ACL-ek)
Költségoptimalizálás
A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.
A legtöbb Azure-szolgáltatással csökkentheti a költségeket, ha csak a használt szolgáltatásokért fizet:
- A Data Factory esetében a tevékenységfuttatási kötet határozza meg a költségeket.
- Az Azure Databricks számos szintet, számítási feladatot és tarifacsomagot kínál a költségek minimalizálása érdekében.
- A Blob Storage költségei az adatredundancia beállításaitól és a kötettől függnek.
- A Data Lake Storage esetében a díjszabás számos tényezőtől függ: a névtér típusától, a tárolási kapacitástól és a szint kiválasztásától.
- A Microsoft Genomics esetében a díj az egyes munkafolyamatok gigabázisainak számától függ.
Közreműködők
Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.
Fő szerzők:
- Wylie Graham | Vezető programmenedzser
- Matt Hansen | Vezető felhőmegoldás-tervező
A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.
További lépések
- Microsoft Genomics: Gyakori kérdések
- A Genomics rövid útmutató kezdőkészlete
- Burrows-Wheeler Aligner
- Genome Analysis Toolkit
Kapcsolódó erőforrások
Teljesen üzembe helyezhető architektúrák:
Data Factory-megoldások
- Automatizált vállalati BI
- [Hibrid ETL az Azure Data Factoryvel] [Hibrid ETL az Azure Data Factoryvel]
- Nagyszámítógép-adatok replikálás és szinkronizálása az Azure-ban
Elemzési megoldások
- Adattárház és elemzés
- Térinformatikai adatfeldolgozás és -elemzés
- Streamfeldolgozás az Azure Databricks használatával