Bu makalede genomik analiz ve raporlama için bir çözüm sunulur. İşlemler ve sonuçlar hassas tıp senaryoları veya genetik profil oluşturma kullanan tıbbi bakım alanları için uygundur.
Mimari
Diyagramda iki kutu bulunur. İlki, sol tarafta düzenleme için Azure Data Factory etiketine sahiptir. İkinci kutuda Klinik görünümler etiketi vardır. İlk kutu, verileri veya çeşitli Azure bileşenlerini temsil eden birkaç küçük kutu içerir. Oklar kutuları birbirine bağlar ve oklardaki numaralandırılmış etiketler belge metnindeki numaralandırılmış adımlara karşılık gelir. Kutular arasında iki ok akıp, Klinisyen görünümler kutusuyla biter. Bir ok klinisyen simgesini gösterir. Diğer nokta bir Power BI simgesini gösterir.
Bu mimarinin bir Visio dosyasını indirin.
İş Akışı
Azure Data Factory iş akışını düzenler:
Data Factory ilk örnek dosyayı Azure Blob Depolama aktarır. Dosya FASTQ biçimindedir.
Microsoft Genomiks, dosya üzerinde ikincil analiz çalıştırır.
Microsoft Genomiks çıktıyı Blob Depolama şu biçimlerden birinde depolar:
- Değişken çağrı biçimi (VCF)
- Genomik VCF (GVCF)
Jupyter Not Defteri, çıkış dosyasına ek açıklama ekler. Not defteri Azure Databricks üzerinde çalışır.
Azure Data Lake Depolama ek açıklamalı dosyayı depolar.
Jupyter Notebook, dosyayı diğer veri kümeleriyle birleştirir ve verileri analiz eder. Not defteri Azure Databricks üzerinde çalışır.
Data Lake Depolama işlenen verileri depolar.
Azure Healthcare API'leri, verileri Bir Hızlı Sağlık Hizmeti Birlikte Çalışabilirlik Kaynakları (FHIR) paketinde paketler. Klinik veriler daha sonra hasta elektronik sağlık kaydına (EHR) girer.
Klinisyenler sonuçları Power BI panolarında görüntüler.
Bileşenler
Çözüm aşağıdaki bileşenleri kullanır:
Microsoft Genomiks
Microsoft Genomiks , sektörün en iyi uygulamalarını uygulayan verimli ve doğru bir genomiks işlem hattı sunar. Yüksek performanslı altyapısı şu görevler için iyileştirilmiştir:
- Büyük genomik veri dosyalarını okuma
- Bunları birçok çekirdekte verimli bir şekilde işleme
- Sonuçları sıralama ve filtreleme
- Sonuçları çıkış dosyalarına yazma
Aktarım hızını en üst düzeye çıkarmak için bu altyapı bir Burrows-Wheeler Aligner (BWA) ve genom analysis toolkit (GATK) HaplotypeCaller değişken çağıran çalıştırır. Altyapı ayrıca standart genomiks işlem hatlarını oluşturan diğer birkaç bileşeni de kullanır. Örnek olarak yinelenen işaretleme, temel kalite puanı yeniden hesaplama ve dizin oluşturma verilebilir. Altyapı birkaç saat içinde tek bir çok çekirdekli sunucuda tek bir genomik örneği işleyebilir. İşleme ham okumalarla başlar. Hizalanmış okumalar ve değişken çağrılar üretir.
Dahili olarak, Microsoft Genomiks denetleyicisi sürecin şu yönlerini yönetir:
- Genom yığınlarını buluttaki makine havuzlarına dağıtma
- Gelen istek kuyruğunun bakımı
- İstekleri genomiks altyapısını çalıştıran sunuculara dağıtma
- Sunucuların performansını ve ilerleme durumunu izleme
- Sonuçları değerlendirme
- güvenli bir web hizmeti API'sinde işlemenin uygun ölçekte güvenilir ve güvenli bir şekilde çalışmasını sağlama
Üçüncül analiz ve makine öğrenmesi hizmetlerinde Microsoft Genomiks sonuçlarını kolayca kullanabilirsiniz. Microsoft Genomiks bir bulut hizmeti olduğundan donanım veya yazılımı yönetmeniz veya güncelleştirmeniz gerekmez.
Diğer bileşenler
Data Factory , farklı veri depolarından alınan verilerle çalışan bir tümleştirme hizmetidir. İş akışlarını yönetmek ve otomatikleştirmek için bu tam olarak yönetilen, sunucusuz platformu kullanabilirsiniz. Data Factory işlem hatları bu çözümde verileri Azure'a aktarır. Ardından bir dizi işlem hattı iş akışının her adımını tetikler.
Blob Depolama, büyük miktarlarda yapılandırılmamış veri için iyileştirilmiş bulut nesne depolaması sunar. Bu senaryoda, Blob Depolama FASTQ dosyası için ilk giriş bölgesini sağlar. Bu hizmet, Microsoft Genomiks'in oluşturduğu VCF ve GVCF dosyaları için çıkış hedefi olarak da çalışır. Blob Depolama'daki katmanlama işlevi, işlendikten sonra FASTQ dosyalarını pahalı olmayan uzun süreli depolama alanında arşivlemenin bir yolunu sağlar.
Azure Databricks bir veri analizi platformudur. Tam olarak yönetilen Spark kümeleri çeşitli kaynaklardan büyük veri akışlarını işler. Bu çözümde Azure Databricks, Jupyter Notebook'un verilere ek açıklama eklemek, verileri birleştirmek ve analiz etmek için ihtiyaç duyduğu hesaplama kaynaklarını sağlar.
Data Lake Depolama, yüksek performanslı analiz iş yükleri için ölçeklenebilir ve güvenli bir veri gölüdür. Bu hizmet, yüzlerce gigabit aktarım hızı sağlarken birden çok petabayt bilgiyi yönetebilir. Veriler yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Genellikle birden çok heterojen kaynaktan gelir. Bu mimaride Data Lake Depolama, açıklamalı dosyalar ve birleştirilmiş veri kümeleri için son giriş bölgesini sağlar. Ayrıca aşağı akış sistemlerine son çıkışa erişim verir.
Power BI , analiz bilgilerini görüntüleyen yazılım hizmetlerinden ve uygulamalardan oluşan bir koleksiyondur. İlişkili olmayan veri kaynaklarına bağlanmak ve bunları görüntülemek için Power BI'ı kullanabilirsiniz. Bu çözümde Power BI panolarını sonuçlarla doldurabilirsiniz. Klinisyenler daha sonra son veri kümesinden görseller oluşturabilir.
Azure Healthcare API'leri , klinik sağlık verilerine erişmek için yönetilen, standartlara dayalı ve uyumlu bir arabirimdir. Bu senaryoda Azure Healthcare API'leri klinik verileri içeren bir FHIR paketini EHR'ye geçirir.
Senaryo ayrıntıları
Bu makalede genomik analiz ve raporlama için bir çözüm sunulur. İşlemler ve sonuçlar hassas tıp senaryoları veya genetik profil oluşturma kullanan tıbbi bakım alanları için uygundur. Çözüm özellikle şu görevleri otomatik hale getiren bir klinik genomiks iş akışı sağlar:
- Sıralayıcıdan veri alma
- Verileri ikincil analiz aracılığıyla taşıma
- Klinisyenlerin tüketebileceği sonuçlar sağlama
Genomiks'in artan ölçek, karmaşıklık ve güvenlik gereksinimleri, buluta geçmek için ideal bir aday olmasını sağlar. Sonuç olarak çözüm, açık kaynak araçlara ek olarak Azure hizmetlerini de kullanır. Bu yaklaşım Azure bulutunun güvenlik, performans ve ölçeklenebilirlik özelliklerinden yararlanır:
- Bilim adamları önümüzdeki yıllarda yüz binlerce genomu sıralamayı planlıyor. Bu verileri depolama ve analiz etme görevi için önemli bilgi işlem gücü ve depolama kapasitesi gerekir. Dünyanın dört bir yanındaki bu kaynakları sağlayan veri merkezleriyle Azure bu talepleri karşılayabilir.
- Azure, ISO 27001 gibi önemli küresel güvenlik ve gizlilik standartları için sertifikalıdır.
- Azure, Sağlık Sigortası Taşınabilirlik ve Sorumluluk Yasası'nın (HIPAA) kişisel sağlık bilgileri için oluşturduğu güvenlik ve kanıtlanmışlık standartlarına uygundur.
Çözümün önemli bileşenlerinden biri Microsoft Genomiks'tir. Bu hizmet, birkaç saat içinde 30x genom işleyebilen iyileştirilmiş bir ikincil analiz uygulaması sunar. Standart teknolojiler günler sürebilir.
Olası kullanım örnekleri
Bu çözüm sağlık sektörü için idealdir. Birçok alan için geçerlidir:
- Kanser için hasta puanlama riski
- Genetik işaretleyicileri olan ve onları hastalığa maruz bırakabilen hastaları belirleme
- Çalışmalar için hasta kohortları oluşturma
Dikkat edilmesi gereken noktalar
Aşağıdaki önemli noktalar Microsoft Azure İyi Tasarlanmış Çerçeve ile uyumludur ve bu çözüme uygulanır:
Kullanılabilirlik
Çoğu Azure bileşeninin hizmet düzeyi sözleşmeleri (SLA) kullanılabilirliği garanti eder:
- Data Factory işlem hatlarının en az yüzde 99,9'unun başarıyla çalıştırıldığı garanti edilir.
- Azure Databricks SLA,yüzde 99,95 kullanılabilirlik garantisi sağlar.
- Microsoft Genomiks, iş akışı istekleri için yüzde 99,99 kullanılabilirlik SLA'sı sunar.
- Blob Depolama ve Data Lake Depolama, yedeklilik aracılığıyla kullanılabilirlik sunan Azure Depolama'nin bir parçasıdır.
Ölçeklenebilirlik
Çoğu Azure hizmeti tasarım gereği ölçeklenebilir:
- Data Factory verileri büyük ölçekte dönüştürür.
- Azure Databricks'teki kümeler gerektiğinde yeniden boyutlandırın.
- Blob Depolama ölçeklenebilirliği iyileştirme hakkında bilgi için bkz. Blob Depolama için performans ve ölçeklenebilirlik denetim listesi.
- Data Lake Depolama eksabaytlarlık verileri yönetebilir.
- Microsoft Genomiks, eksabayt ölçeğinde iş yükleri çalıştırır.
Güvenlik
Güvenlik, kasıtlı saldırılara ve değerli verilerinizin ve sistemlerinizin kötüye kullanılmasına karşı güvence sağlar. Daha fazla bilgi için bkz . Güvenlik sütununa genel bakış.
Bu çözümdeki teknolojiler çoğu şirketin güvenlik gereksinimlerini karşılar.
Yönergeler
Tıbbi verilerin hassas doğası gereği, bu belgelerde yer alan yönergeleri izleyerek idare ve güvenlik oluşturun:
- Azure için Microsoft Bulut Benimseme Çerçevesi'nde güvenlik
- Microsoft Azure kullanarak güvenli sistem durumu çözümleri tasarlamaya yönelik pratik kılavuz
- Kurumsal ölçekli giriş bölgeleri
Mevzuata uyumluluk
HIPAA ve Ekonomik ve Klinik Sağlık için Sağlık Bilgi Teknolojisi (HITECH) Yasası ile uyum hakkında bilgi için bu belgelere bakın:
Bu çözümün bileşenleri, Microsoft Azure Uyumluluk Tekliflerine göre HIPAA kapsamındadır. Başka bir bileşenin yerini alırsanız, önce bu belgenin ekindeki listede doğrulayın.
Genel güvenlik özellikleri
Çeşitli bileşenler verileri başka yollarla da güvenli bir şekilde güvence altına alır:
Azure Databricks, ağ altyapısının ve verilerin güvenliğini sağlamaya yönelik birçok araç sağlar. Erişim denetim listeleri, gizli diziler ve genel IP (NPIP) yok örnekleri verilebilir.
Blob depolama, verileri depolamadan önce otomatik olarak şifreleyen depolama hizmeti şifrelemesini (SSE) destekler. Ayrıca, verileri ve ağları korumak için başka birçok yol sağlar.
Data Lake Depolama erişim denetimi sağlar. Modeli şu denetim türlerini destekler:
- Azure rol tabanlı erişim denetimi (RBAC)
- Taşınabilir İşletim Sistemi Arabirimi (POSIX) erişim denetimi listeleri (ACL'ler)
Maliyet iyileştirme
Maliyet iyileştirmesi, gereksiz giderleri azaltmanın ve operasyonel verimlilikleri iyileştirmenin yollarını aramaktır. Daha fazla bilgi için bkz . Maliyet iyileştirme sütununa genel bakış.
Çoğu Azure hizmetiyle maliyetleri yalnızca kullandığınız kadar ödeyerek azaltabilirsiniz:
- Data Factory ile maliyeti etkinlik çalıştırma hacminiz belirler.
- Azure Databricks maliyetleri en aza indirmenize yardımcı olmak için birçok katman, iş yükü ve fiyatlandırma planı sunar.
- Blob Depolama maliyetleri, veri yedekliliği seçeneklerine ve hacmine bağlıdır.
- Data Lake Depolama fiyatlandırma birçok faktöre bağlıdır: ad alanı türünüz, depolama kapasiteniz ve katman seçiminiz.
- Microsoft Genomiks için ücret, her iş akışının işlediği gigabayt sayısına bağlıdır.
Katkıda Bulunanlar
Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.
Asıl yazarlar:
- Wylie Graham | Üst Düzey Program Yöneticisi
- Matt Hansen | Üst Düzey Bulut Çözümü Mimarı
Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.
Sonraki adımlar
- Microsoft Genomiks: Sık sorulan sorular
- Genomiks hızlı başlangıç başlangıç seti
- Burrows-Wheeler Aligner
- Genom Analizi Araç Seti
İlgili kaynaklar
Tam olarak dağıtılabilir mimariler:
Data Factory çözümleri
- Otomatik kurumsal BI
- [Azure Data Factory ile Hibrit ETL] [Azure Data Factory ile Hibrit ETL]
- Azure'da ana bilgisayar verilerini çoğaltma ve eşitleme