Precíziós gyógyszerfolyamat genomikával

Azure Blob Storage
Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Microsoft Genomics

Ez a cikk egy genomikai elemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek.

Felépítés

Architecture diagram showing how information flows through a genomics analysis and reporting pipeline.

A diagram két mezőt tartalmaz. Az első a bal oldalon az Azure Data Factory címkével rendelkezik a vezényléshez. A második mezőben a "Clinician views" felirat látható. Az első mező több kisebb mezőt tartalmaz, amelyek adatokat vagy különböző Azure-összetevőket jelölnek. A nyilak összekötik a mezőket, és a nyilak számozott címkéi megfelelnek a dokumentum szövegében szereplő számozott lépéseknek. Két nyíl áramlik a dobozok között, és a Klinika nézetmezője végződik. Egy nyíl egy klinikus ikonra mutat. A másik egy Power BI-ikonra mutat.

Töltse le az architektúra Visio-fájlját.

Munkafolyamat

Az Azure Data Factory vezényli a munkafolyamatot:

  1. A Data Factory a kezdeti mintafájlt az Azure Blob Storage-ba továbbítja. A fájl FASTQ formátumban van.

  2. A Microsoft Genomics másodlagos elemzést futtat a fájlon.

  3. A Microsoft Genomics a blobtárolóban tárolja a kimenetet az alábbi formátumok egyikében:

    • Variant call format (VCF)
    • Genomikus VCF (GVCF)
  4. A Jupyter Notebook széljegyzetet ad a kimeneti fájlnak. A jegyzetfüzet az Azure Databricksen fut.

  5. Az Azure Data Lake Storage tárolja a jegyzettel ellátott fájlt.

  6. A Jupyter Notebook egyesíti a fájlt más adatkészletekkel, és elemzi az adatokat. A jegyzetfüzet az Azure Databricksen fut.

  7. A Data Lake Storage tárolja a feldolgozott adatokat.

  8. Az Azure Healthcare API-k az adatokat egy Fast Healthcare Interoperability Resources (FHIR) csomagba csomagolják. A klinikai adatok ezután bekerülnek a beteg elektronikus egészségügyi nyilvántartásába (EHR).

  9. A klinikusok power BI-irányítópultokon tekintik meg az eredményeket.

Összetevők

A megoldás a következő összetevőket használja:

Microsoft Genomics

A Microsoft Genomics hatékony és pontos genomikai folyamatot kínál, amely megvalósítja az iparág ajánlott eljárásait. A nagy teljesítményű motorja az alábbi feladatokra van optimalizálva:

  • Nagyméretű genomikai adatokból álló fájlok olvasása
  • A feldolgozásuk hatékonyan számos magon keresztül
  • Az eredmények rendezése és szűrése
  • Az eredmények írása kimeneti fájlokba

Az átviteli sebesség maximalizálása érdekében ez a motor egy Burrows-Wheeler Alignert (BWA) és egy Genome Analysis Toolkit (GATK) HaplotypeCaller variáns hívót működtet. A motor számos más összetevőt is használ, amelyek szabványos genomikai folyamatokat alkotnak. Ilyen például az ismétlődő megjelölés, az alapminőségi pontszám újraszámítása és az indexelés. Néhány óra múlva a motor egyetlen genomikai mintát képes feldolgozni egyetlen többmagos kiszolgálón. A feldolgozás nyers olvasással kezdődik. Összehangolt olvasási és változathívásokat hoz létre.

A Microsoft Genomics-vezérlő belsőleg kezeli a folyamat alábbi aspektusait:

  • Genomkötegek elosztása a felhőben lévő gépek készletei között
  • Bejövő kérések üzenetsorának karbantartása
  • A kérések elosztása a genomikai motort futtató kiszolgálókra
  • A kiszolgálók teljesítményének és állapotának monitorozása
  • Az eredmények kiértékelése
  • Annak biztosítása, hogy a feldolgozás megbízhatóan és biztonságosan, nagy méretekben fusson egy biztonságos webszolgáltatás API-ja mögött

A Microsoft Genomics-eredményeket egyszerűen használhatja harmadlagos elemzési és gépi tanulási szolgáltatásokban. Mivel a Microsoft Genomics egy felhőalapú szolgáltatás, nem kell hardvert vagy szoftvert kezelnie vagy frissítenie.

Egyéb összetevők

  • A Data Factory egy integrációs szolgáltatás, amely különböző adattárakból származó adatokkal működik együtt. Ezzel a teljes mértékben felügyelt, kiszolgáló nélküli platformmal vezényelheti és automatizálhatja a munkafolyamatokat. Ebben a megoldásban a Data Factory-folyamatok adatokat továbbítanak az Azure-ba. Ezután folyamatsorozat aktiválja a munkafolyamat minden lépését.

  • A Blob Storage optimalizált felhőalapú objektumtárolást kínál nagy mennyiségű strukturálatlan adathoz. Ebben a forgatókönyvben a Blob Storage biztosítja a FASTQ-fájl kezdeti célzónát. Ez a szolgáltatás a Microsoft Genomics által létrehozott VCF- és GVCF-fájlok kimeneti céljaként is működik. A Blob Storage rétegzési funkciója lehetővé teszi a FASTQ-fájlok archiválását olcsó, hosszú távú tárolókban a feldolgozás után.

  • Az Azure Databricks egy adatelemzési platform. A teljes mértékben felügyelt Spark-fürtök különböző forrásokból származó nagy adatstreameket dolgoznak fel. Ebben a megoldásban az Azure Databricks biztosítja azokat a számítási erőforrásokat, amelyekre a Jupyter Notebooknak megjegyzéseket kell fűznie, egyesítenie és elemeznie kell az adatokat.

  • A Data Lake Storage egy méretezhető és biztonságos data lake a nagy teljesítményű elemzési számítási feladatokhoz. Ez a szolgáltatás több petabájtnyi információt képes kezelni, miközben több száz gigabites átviteli sebességet tart fenn. Az adatok strukturálhatók, részben strukturáltak vagy strukturálatlanok lehetnek. Általában több heterogén forrásból származik. Ebben az architektúrában a Data Lake Storage biztosítja a jegyzetekkel ellátott fájlok és az egyesített adathalmazok végső célzónát. Emellett hozzáférést biztosít az alsóbb rétegbeli rendszereknek a végső kimenethez.

  • A Power BI olyan szoftverszolgáltatások és alkalmazások gyűjteménye, amelyek elemzési információkat jelenítenek meg. A Power BI használatával csatlakoztathatja és megjelenítheti a nem kapcsolódó adatforrásokat. Ebben a megoldásban feltöltheti a Power BI-irányítópultokat az eredményekkel. A klinikusok ezután vizualizációkat hozhatnak létre a végső adathalmazból.

  • Az Azure Healthcare API-k egy felügyelt, szabványokon alapuló, megfelelő felület a klinikai egészségügyi adatokhoz való hozzáféréshez. Ebben a forgatókönyvben az Azure Healthcare API-k átadnak egy FHIR-csomagot az EHR-nek a klinikai adatokkal együtt.

Forgatókönyv részletei

Ez a cikk egy genomikai elemzési és jelentéskészítési megoldást mutat be. A folyamatok és eredmények megfelelnek a precíziós gyógyászat forgatókönyveinek, vagy az orvosi ellátás genetikai profilkészítést használó területeinek. A megoldás egy klinikai genomikai munkafolyamatot biztosít, amely automatizálja ezeket a feladatokat:

  • Adatok felvétele egy szekvencióból
  • Az adatok áthelyezése másodlagos elemzéssel
  • Olyan eredmények biztosítása, amelyeket a klinikusok felhasználhatnak

A genomika növekvő mérete, összetettsége és biztonsági követelményei ideális választássá teszik a felhőbe való áttéréshez. A megoldás ezért nyílt forráskódú eszközök mellett Azure-szolgáltatásokat is használ. Ez a megközelítés kihasználja az Azure-felhő biztonsági, teljesítmény- és méretezhetőségi funkcióit:

  • A tudósok több százezer genom szekvenálását tervezik az elkövetkező években. Az adatok tárolásának és elemzésének feladata jelentős számítási teljesítményt és tárolási kapacitást igényel. Az erőforrásokat biztosító adatközpontok világszerte megfelelnek ezeknek az igényeknek.
  • Az Azure jelentős globális biztonsági és adatvédelmi szabványokhoz, például az ISO 27001-hez rendelkezik tanúsítvánnyal.
  • Az Azure megfelel az egészségügyi biztosítás hordozhatóságáról és elszámoltathatóságáról szóló törvény (HIPAA) által a személyes egészségügyi adatokra vonatkozó biztonsági és származási előírásoknak.

A megoldás egyik fő összetevője a Microsoft Genomics. Ez a szolgáltatás egy optimalizált másodlagos elemzési implementációt kínál, amely néhány óra alatt képes feldolgozni egy 30-szoros genomot . A standard technológiák napokig is eltarthatnak.

Lehetséges használati esetek

Ez a megoldás ideális az egészségügyi ágazat számára. Számos területre vonatkozik:

  • Rákbetegek kockázati pontszáma
  • A betegségre hajlamos genetikai markerekkel rendelkező betegek azonosítása
  • Betegek kohorszainak létrehozása tanulmányokhoz

Considerations

Az alábbi szempontok összhangban vannak a Microsoft Azure Well-Architected Framework keretrendszerrel, és vonatkoznak erre a megoldásra:

Elérhetőség

A legtöbb Azure-összetevő szolgáltatásiszint-szerződései (SLA-k) garantálják a rendelkezésre állást:

Méretezhetőség

A legtöbb Azure-szolgáltatás tervezés szerint skálázható:

Biztonság

A biztonság biztosítékokat nyújt a szándékos támadások és az értékes adatokkal és rendszerekkel való visszaélés ellen. További információ: A biztonsági pillér áttekintése.

A megoldás technológiái megfelelnek a legtöbb vállalat biztonsági követelményeinek.

Guidelines

Az orvosi adatok bizalmas jellege miatt az alábbi dokumentumokban szereplő irányelvek követésével alakítsa ki a szabályozást és a biztonságot:

Előírásoknak való megfelelés

Általános biztonsági funkciók

Több összetevő más módon is védi az adatokat:

Költségoptimalizálás

A költségoptimalizálás a szükségtelen kiadások csökkentésének és a működési hatékonyság javításának módjairól szól. További információ: A költségoptimalizálási pillér áttekintése.

A legtöbb Azure-szolgáltatással csökkentheti a költségeket, ha csak a használt szolgáltatásokért fizet:

Közreműködők

Ezt a cikket a Microsoft tartja karban. Eredetileg a következő közreműködők írták.

Fő szerzők:

A nem nyilvános LinkedIn-profilok megtekintéséhez jelentkezzen be a LinkedInbe.

További lépések

Teljesen üzembe helyezhető architektúrák:

Data Factory-megoldások

Elemzési megoldások

Egészségügyi megoldások