Geleneksel ve otomatik makine öğrenmesi teknikleriyle hastane geri almalarını tahmin edin

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Bu mimari model geliştirme, dağıtım ve tüketim yolunu hızlandırmak için bulutta tahmine dayalı bir sistem durumu analizi çerçevesi sağlar.

Mimari

Bu çerçeve veri alımı, depolama, veri işleme, analiz ve model dağıtımı için yerel Azure analiz hizmetlerini kullanır.

Diagram demonstrates the architecture of a multi-tier app.

Bu mimarinin bir Visio dosyasını indirin.

Workflow

Bu mimarinin iş akışı, katılımcıların rolleri açısından açıklanmıştır.

  1. Veri Mühendisi: Verileri kaynak sistemlerden almaktan ve verileri kaynaktan hedefe taşımak için veri işlem hatlarını düzenlemeden sorumludur. Ham veriler üzerinde veri dönüştürmeleri gerçekleştirmek de sorumlu olabilir.

    • Bu senaryoda, geçmiş hastane geri alma verileri şirket içi SQL Server veritabanında depolanır.
    • Beklenen çıkış, bulut tabanlı bir depolama hesabında depolanan verileri geri almaktır.
  2. Veri Bilimci: Model tahmini için hazırlamak üzere hedef depolama katmanındaki veriler üzerinde çeşitli görevler gerçekleştirmekle sorumludur. Görevler temizleme, özellik mühendisliği ve veri standardizasyonu içerir.

    • Temizleme: Verileri önceden işleyin, null değerleri kaldırın, gereksiz sütunları bırakarak vb. Bu senaryoda, çok fazla eksik değer içeren sütunları bırakın.
    • Özellik Mühendisliği:
      1. İstenen çıkışı tahmin etmek için gereken girişleri belirleyin.
      2. Belki de doktorlar ve hemşireler gibi profesyonellerle konuşarak okuma için olası tahmincileri belirleyin. Örneğin, gerçek dünya kanıtı, aşırı kilolu diyabetik bir hastanın hastane geri kabulüne yönelik bir tahmin aracı olduğunu gösterebilir.
    • Veri Standardizasyonu:
      1. Makine öğrenmesi görevlerine hazırlamak için verilerin konumunu ve değişkenliğini belirtin. Karakterizasyonlar veri dağılımı, eğiklik ve basıklık içermelidir.
        • Dengesizlik şu soruya yanıt verir: Dağılımın şekli nedir?
        • Kurtosis şu soruya yanıt verir: Dağılımın kalınlığının veya ağırlığının ölçüsü nedir?
      2. Veri kümesindeki anomalileri belirleyin ve düzeltin; tahmin modeli normal bir dağıtıma sahip bir veri kümesinde gerçekleştirilmelidir.
      3. Beklenen çıkış şu eğitim veri kümeleridir:
        • Dağıtıma hazır, tatmin edici bir tahmin modeli oluşturmak için kullanılacak bir tahmin modeli.
        • Otomatik model tahmini (AutoML) için Bir Yurttaş Veri Bilimci verilebilen bir tahmin.
  3. Vatandaş Veri Bilimci: Veri Bilimci eğitim verilerini temel alan bir tahmin modeli oluşturmaktan sorumludur. Citizen Veri Bilimci tahmin modelleri oluşturmak için büyük olasılıkla yoğun kodlama becerileri gerektirmeyen bir AutoML özelliği kullanır.

    Beklenen çıkış, dağıtım için hazır olan tatmin edici bir tahmin modelidir.

  4. İş Zekası (BI) Analisti: Veri Mühendisi ürettiği ham veriler üzerinde operasyonel analiz gerçekleştirmekle sorumludur. BI Analisti yapılandırılmamış verilerden ilişkisel veriler oluşturma, SQL betikleri yazma ve pano oluşturma işlemlerine dahil olabilir.

    Beklenen çıkış ilişkisel sorgular, BI raporları ve panolardır.

  5. MLOps Mühendisi: modelleri Veri Bilimci veya Citizen Veri Bilimci tarafından sunulan üretime koymaktan sorumludur.

    Beklenen çıkış, üretime hazır ve yeniden üretilebilir modellerdir.

Bu liste, iş akışının herhangi bir noktasında sağlık verileriyle etkileşimde bulunabilecek tüm olası rollerin kapsamlı bir görünümünü sağlasa da, roller gerektiğinde birleştirilebilir veya genişletilebilir.

Components

  • Azure Data Factory , diğer Azure veri hizmetleriyle çalışmak için verileri şirket içi sistemlerden Azure'a taşıyabilen bir düzenleme hizmetidir. İşlem hatları veri taşıma için kullanılır ve eşleme veri akışları ayıklama, dönüştürme, yükleme (ETL) ve ayıklama, yükleme, dönüştürme (ELT) gibi çeşitli dönüştürme görevlerini gerçekleştirmek için kullanılır. Bu mimaride Veri Mühendisi, geçmiş hastane geri alma verilerini şirket içi SQL Server'dan bulut depolama alanına kopyalayan bir işlem hattı çalıştırmak için Data Factory'yi kullanır.
  • Azure Databricks , veri mühendisliği ve ML iş yükleri için kullanılan Spark tabanlı bir analiz ve makine öğrenmesi hizmetidir. Bu mimaride Veri Mühendisi Databricks not defterini çalıştırmak üzere Databricks işlem hattını çağırmak için Databricks'i kullanır. Not defteri, ilk veri temizleme ve özellik mühendisliği görevlerini işlemek için Veri Bilimci tarafından geliştirilmiştir. Veri Bilimci, verileri standartlaştırmak ve tahmin modelleri oluşturup dağıtmak için ek not defterlerine kod yazabilir.
  • Azure Data Lake Depolama, yüksek performanslı analiz iş yükleri için yüksek düzeyde ölçeklenebilir ve güvenli bir depolama hizmetidir. Bu mimaride Veri Mühendisi, Azure'a yüklenen şirket içi verilerin ilk giriş bölgesini ve eğitim verilerinin son giriş bölgesini tanımlamak üzere Data Lakes Depolama kullanır. Ham veya son biçimdeki veriler çeşitli aşağı akış sistemleri tarafından kullanıma hazırdır.
  • Azure Machine Learning makine öğrenmesi modellerini eğitmek, dağıtmak, otomatikleştirmek, yönetmek ve izlemek için kullanılan işbirliğine dayalı bir ortamdır. Otomatik makine öğrenmesi (AutoML), ML modeli geliştirme sürecinde yer alan zaman alan ve yinelemeli görevleri otomatik hale getiren bir özelliktir. Veri Bilimci, Machine Learning'i kullanarak Databricks'ten ml çalıştırmalarını izler ve Veri Bilimci ML modelleri için performans karşılaştırması işlevi görecek AutoML modelleri oluşturur. Citizen Veri Bilimci, makine öğrenmesi algoritmaları hakkında ayrıntılı bilgiye gerek kalmadan model oluşturmak üzere AutoML aracılığıyla eğitim verilerini hızla çalıştırmak için bu hizmeti kullanır.
  • Azure Synapse Analytics , veri tümleştirmesini, kurumsal veri ambarını ve büyük veri analizini bir hale getiren bir analiz hizmetidir. Kullanıcılar, büyük ölçekte sunucusuz veya ayrılmış kaynakları kullanarak verileri sorgulama özgürlüğüne sahiptir. Bu mimaride:
    • Veri Mühendisi synapse Analytics'i kullanarak veri gölündeki verilerden kolayca ilişkisel tablolar oluşturarak operasyonel analiz için temel oluşturur.
    • Veri Bilimci, spark not defterlerini kullanarak veri gölündeki verileri hızla sorgulamak ve tahmin modelleri geliştirmek için bunu kullanır.
    • BI Analisti, tanıdık SQL söz dizimini kullanarak sorgu çalıştırmak için bunu kullanır.
  • Microsoft Power BI , ilişkili olmayan veri kaynaklarını tutarlı, görsel olarak çevreleyici ve etkileşimli içgörülere dönüştürmek için birlikte çalışan yazılım hizmetleri, uygulamalar ve bağlayıcılardan oluşan bir koleksiyondur. BI Analisti, verilerden görselleştirmeler geliştirmek için her hastanın ev konumunun ve en yakın hastanenin haritası gibi Power BI'ı kullanır.
  • Microsoft Entra Id , bulut tabanlı bir kimlik ve erişim yönetimi hizmetidir. Bu mimaride Azure hizmetlerine erişimi denetler.
  • Azure Key Vault anahtarlar, parolalar ve sertifikalar gibi gizli diziler için güvenli bir depo sağlayan bir bulut hizmetidir. Key Vault, Databricks'in veri gölüne yazma erişimi elde etmek için kullandığı gizli dizileri barındırmaktadır.
  • Bulut için Microsoft Defender, veri merkezlerinin güvenlik duruşunu güçlendiren ve buluttaki ve şirket içindeki hibrit iş yükleri arasında gelişmiş tehdit koruması sağlayan birleşik bir altyapı güvenlik yönetim sistemidir. Azure ortamına yönelik güvenlik tehditlerini izlemek için bunu kullanabilirsiniz.
  • Azure Kubernetes Service (AKS), kapsayıcılı uygulamaları dağıtmak ve yönetmek için tam olarak yönetilen bir Kubernetes hizmetidir. AKS, işletimsel yükü Azure'a devrederek Azure'da yönetilen AKS kümesinin dağıtımını basitleştirir.

Alternatifler

  • Veri Taşıma: Databricks'i kullanarak şirket içi sistemdeki verileri veri gölüne kopyalayabilirsiniz. Databricks genellikle bir tıbbi cihazdan telemetri gibi bir akış veya gerçek zamanlı gereksinimi olan veriler için uygundur.

  • Machine Learning: H2O.ai, DataRobot, Dataiku ve diğer satıcılar Machine Learning AutoML'ye benzer otomatik makine öğrenmesi özellikleri sunar. Azure veri mühendisliği ve makine öğrenmesi etkinliklerini desteklemek için bu tür platformları kullanabilirsiniz.

Senaryo ayrıntıları

Bu mimari, 1999'dan 2008'e kadar 10 yıl boyunca 130 ABD hastanesinden genel kullanıma sunulan verileri kullanarak diyabet hastaları için hastane geri almalarını tahmin etmeye yönelik örnek bir uçtan uca iş akışını temsil eder. İlk olarak tahmine dayalı güç için ikili sınıflandırma algoritmasını değerlendirir, ardından otomatik makine öğrenmesi kullanılarak oluşturulan tahmine dayalı modellerle karşılaştırılır. Otomatik makine öğrenmesi'nin dengesiz veriler için düzeltilebildiği durumlarda alternatif teknikler uygulanmalıdır. Dağıtım ve tüketim için son model seçilir.

Sağlık ve yaşam bilimleri kuruluşları hastalar ve bakıcılar için daha kişiselleştirilmiş bir deneyim sağlamaya çalıştıkları için, ilgili, doğru ve zamanında tahmine dayalı içgörüler sağlamak için eski sistemlerden verileri kullanmaları zorlanıyor. Veri toplama, geleneksel işletim sistemlerinin ve elektronik sağlık kayıtlarının (EHR) ötesine geçti ve giderek artan bir şekilde tüketici sağlığı uygulamalarından, fitness giyilebilir cihazlardan ve akıllı tıbbi cihazlardan yapılandırılmamış formlara dönüştü. Kuruluşların bu verileri hızla merkezi hale getirebilmesi ve müşterileriyle ilgili olarak kalabilmek için veri bilimi ve makine öğrenmesinin gücünden yararlanması gerekir.

Bu hedeflere ulaşmak için sağlık ve yaşam bilimi kuruluşları şunları hedeflemelidir:

  • Tahmine dayalı analizin sağlık sağlayıcılarına, hastane yöneticilerine, ilaç üreticilerine ve diğer kişilere gerçek zamanlı değer sağlayabildiği bir veri kaynağı oluşturun.
  • Veri bilimi ve makine öğrenmesi becerileri olmayan sektör konusu uzmanlarına (KOBİ) uyum sağlayın.
  • Veri bilimi ve makine öğrenmesi (ML) KOBİ'lerine tahmine dayalı modelleri verimli, doğru ve uygun ölçekte oluşturmak ve dağıtmak için ihtiyaç duydukları esnek araçları sağlayın.

Olası kullanım örnekleri

  • Hastane geri almalarını tahmin edin
  • ML destekli görüntüleme ile hasta tanılarını hızlandırma
  • Doktor notlarında metin analizi gerçekleştirme
  • Tıbbi Nesnelerin İnterneti'nden (IoMT) uzak hasta izleme verilerini analiz ederek olumsuz olayları tahmin etme

Dikkat edilmesi gerekenler

Bu önemli noktalar, bir iş yükünün kalitesini artırmak için kullanılabilecek bir dizi yol gösteren ilke olan Azure İyi Tasarlanmış Çerçeve'nin yapı taşlarını uygular. Daha fazla bilgi için bkz . Microsoft Azure İyi Tasarlanmış Çerçeve.

Kullanılabilirlik

Gerçek zamanlı klinik veriler ve içgörüler sağlamak birçok sağlık kuruluşu için kritik öneme sahiptir. Kapalı kalma süresini en aza indirmenin ve verileri güvende tutmanın yolları şunlardır:

  • Data Lake Depolama, yerel olarak yedekli depolama (LRS) veya alanlar arası yedekli depolama (ZRS) seçme seçeneğiyle birincil bölgede her zaman üç kez çoğaltılır.
  • Synapse Analytics, veritabanı geri yükleme noktaları ve olağanüstü durum kurtarma sağlar.
  • Data Factory verileri, iş sürekliliğini ve olağanüstü durum kurtarmayı sağlamak için eşleştirilmiş bir Azure bölgesinde depolanır ve çoğaltılır.
  • Databricks, veri analizi platformu için olağanüstü durum kurtarma yönergeleri sağlar.
  • Machine Learning dağıtımı çok bölgeli olabilir.

Performans

Data Factory şirket içinde barındırılan tümleştirme çalışma zamanı, yüksek kullanılabilirlik ve ölçeklenebilirlik için ölçeklendirilebilir.

Güvenlik

Güvenlik, kasıtlı saldırılara ve değerli verilerinizin ve sistemlerinizin kötüye kullanılmasına karşı güvence sağlar. Daha fazla bilgi için bkz . Güvenlik sütununa genel bakış.

Sağlık verileri genellikle hassas korumalı sağlık bilgilerini (PHI) ve kişisel bilgileri içerir. Bu verilerin güvenliğini sağlamak için aşağıdaki kaynaklar kullanılabilir:

  • Data Lake Depolama, erişim denetimi modeli oluşturmak için Azure rol tabanlı erişim denetimi (RBAC) ve erişim denetimi listelerini (ACL) kullanır.
  • Synapse Analytics veritabanı, sütun ve satır düzeylerinde bir dizi erişim ve güvenlik denetimi sağlar. Veriler, hücre düzeyinde ve veri şifrelemesi aracılığıyla da korunabilir.
  • Data Factory, hem karma hem de bulut senaryolarında veri taşıma için temel bir güvenlik altyapısı sağlar.

Maliyet iyileştirme

Maliyet iyileştirmesi, gereksiz giderleri azaltmanın ve operasyonel verimlilikleri iyileştirmenin yollarını aramaktır. Daha fazla bilgi için bkz . Maliyet iyileştirme sütununa genel bakış.

Bu çözümün fiyatlandırması aşağıdakilere bağlıdır:

  • Kullanılan Azure hizmetleri.
  • Veri hacmi.
  • Kapasite ve aktarım hızı gereksinimleri.
  • Gerekli ETL/ELT dönüştürmeleri.
  • Makine öğrenmesi görevlerini gerçekleştirmek için gereken işlem kaynakları.

Azure fiyatlandırma hesaplayıcısını kullanarak maliyetleri tahmin edebilirsiniz.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazarlar:

Sonraki adımlar

Azure hizmetleri

Sağlık hizmetleri çözümleri