Memprediksi bacaan rumah sakit dengan teknik pembelajaran mesin tradisional dan otomatis

Azure Machine Learning
Azure Synapse Analytics
Azure Data Factory

Arsitektur ini menyediakan kerangka kerja analitik kesehatan prediktif di cloud untuk mempercepat jalur pengembangan, penyebaran, dan konsumsi model.

Arsitektur

Kerangka kerja ini menggunakan layanan analitik Azure native untuk penyerapan data, penyimpanan, pemrosesan data, analisis, dan penyebaran model.

Diagram demonstrates the architecture of a multi-tier app.

Unduh file Visio arsitektur ini.

Alur kerja

Alur kerja arsitektur ini dijelaskan dalam hal peran peserta.

  1. Insinyur Data: Bertanggung jawab untuk menyerap data dari sistem sumber dan mengatur alur data untuk memindahkan data dari sumber ke target. Mungkin juga bertanggung jawab untuk melakukan transformasi data pada data mentah.

    • Dalam skenario ini, data riwayat penerimaan kembali rumah sakit disimpan di database SQL Server lokal.
    • Output yang diharapkan adalah data penerimaan kembali yang disimpan di akun penyimpanan berbasis cloud.
  2. Ilmuwan Data: Bertanggung jawab untuk melakukan berbagai tugas pada data di lapisan penyimpanan target, guna mempersiapkannya untuk prediksi model. Tugasnya meliputi pembersihan, rekayasa fitur, dan standarisasi data.

    • Pembersihan: Pra-pemrosesan data, menghapus nilai null, menghapus kolom yang tidak diperlukan, dan sebagainya. Dalam skenario ini, letakkan kolom dengan terlalu banyak nilai yang hilang.
    • Rekayasa Fitur:
      1. Menentukan input yang diperlukan untuk memprediksi output yang diinginkan.
      2. Menentukan kemungkinan prediktor untuk penerimaan kembali, mungkin dengan berbicara dengan profesional seperti dokter dan perawat. Misalnya, bukti dunia nyata mungkin menunjukkan bahwa pasien diabetes yang kelebihan berat badan adalah prediktor untuk masuk kembali ke rumah sakit.
    • Standarisasi Data:
      1. Mengkarakterisasi lokasi dan variabilitas data guna mempersiapkannya untuk tugas pembelajaran mesin. Karakterisasi harus mencakup distribusi data, skewness, dan kurtosis.
        • Skewness menjawab pertanyaan: Bagaimana bentuk distribusinya?
        • Kurtosis menjawab pertanyaan: Berapa ukuran ketebalan atau berat distribusinya?
      2. Mengidentifikasi dan mengoreksi anomali dalam himpunan data—model prediksi harus dilakukan pada himpunan data dengan distribusi normal.
      3. Output yang diharapkan adalah himpunan data pelatihan ini:
        • Satu yang bisa digunakan untuk membuat model prediksi memuaskan yang siap untuk penyebaran.
        • Satu yang dapat diberikan kepada Citizen Ilmuwan Data untuk prediksi model otomatis (AutoML).
  3. Citizen Ilmuwan Data: Bertanggung jawab untuk membangun model prediksi yang didasarkan pada data pelatihan dari Ilmuwan Data. Seorang Citizen Ilmuwan Data kemungkinan besar menggunakan kemampuan AutoML yang tidak memerlukan keterampilan pengkodean yang berat untuk membuat model prediksi.

    Output yang diharapkan adalah model prediksi yang memuaskan dan siap untuk penyebaran.

  4. Analis Inteligensi Bisnis (BI): Bertanggung jawab untuk melakukan analisis operasional pada data mentah yang dihasilkan oleh Insinyur Data. Analis BI mungkin terlibat dalam pembuatan data relasional dari data tidak terstruktur, menulis skrip SQL, dan membuat dasbor.

    Hasil yang diharapkan adalah kueri relasional, laporan BI, dan dasbor.

  5. Insinyur MLOps: Bertanggung jawab untuk menempatkan model ke dalam produksi yang disediakan Ilmuwan Data atau Ilmuwan Data Warga Negara.

    Output yang diharapkan adalah model yang siap untuk produksi dan dapat direproduksi.

Meskipun daftar ini memberikan pandangan komprehensif tentang semua peran potensial yang mungkin berinteraksi dengan data pelayanan kesehatan di titik mana pun dalam alur kerja, peran tersebut dapat dikonsolidasikan atau diperluas sesuai kebutuhan.

Komponen

  • Azure Data Factory adalah layanan orkestrasi yang dapat memindahkan data dari sistem lokal ke Azure, agar berfungsi dengan layanan data Azure lainnya. Alur digunakan untuk pergerakan data, dan pemetaan aliran data digunakan untuk melakukan berbagai tugas transformasi seperti mengekstrak, mengubah, memuat (ETL) dan mengekstrak, memuat, mengubah (ELT). Dalam arsitektur ini, Insinyur Data menggunakan Data Factory untuk menjalankan alur yang menyalin data riwayat penerimaan kembali rumah sakit dari SQL Server lokal ke penyimpanan cloud.
  • Azure Databricks adalah layanan analitik dan pembelajaran mesin berbasis Spark yang digunakan untuk rekayasa data dan beban kerja ML. Dalam arsitektur ini, Insinyur Data menggunakan Databricks untuk memanggil alur Data Factory guna menjalankan notebook Databricks. Notebook ini dikembangkan oleh Ilmuwan Data untuk menangani pembersihan data awal dan tugas-tugas rekayasa fitur. Ilmuwan Data dapat menulis kode di notebook tambahan untuk menstandarisasi data dan untuk membangun serta menyebarkan model prediksi.
  • Azure Data Lake Storage adalah layanan penyimpanan yang dapat diskalakan dan aman secara besar-besaran untuk beban kerja analitik berperforma tinggi. Dalam arsitektur ini, Insinyur Data menggunakan Data Lakes Storage untuk menentukan zona arahan awal untuk data lokal yang dimuat ke Azure, dan zona arahan akhir untuk data pelatihan. Data, dalam format mentah atau final, siap untuk dikonsumsi oleh berbagai sistem hilir.
  • Azure Machine Learning adalah lingkungan kolaboratif yang digunakan untuk melatih, menyebarkan, mengotomatisasi, mengelola, dan melacak model pembelajaran mesin. Pembelajaran mesin otomatis (AutoML) adalah kemampuan yang mengotomatiskan tugas iteratif yang memakan waktu, yang terlibat dalam pengembangan model ML. Ilmuwan Data menggunakan Pembelajaran Mesin untuk melacak ML yang dijalankan dari Databricks, dan untuk membuat model AutoML yang berfungsi sebagai tolok ukur performa untuk model ML Ilmuwan Data. Seorang Citizen Ilmuwan Data menggunakan layanan ini untuk menjalankan data pelatihan dengan cepat melalui AutoML untuk menghasilkan model, tanpa memerlukan pengetahuan mendetail tentang algoritma pembelajaran mesin.
  • Azure Synapse Analytics adalah layanan analitik yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data. Pengguna memiliki kebebasan untuk mengkueri data dengan menggunakan sumber daya tanpa server atau khusus, dalam skala besar. Dalam arsitektur ini:
    • Insinyur Data menggunakan Synapse Analytics untuk dengan mudah membuat tabel relasional dari data di data lake untuk menjadi dasar analitik operasional.
    • Ilmuwan Data menggunakannya untuk mengkueri data di data lake dengan cepat dan mengembangkan model prediksi menggunakan notebook Spark.
    • Analis BI menggunakannya untuk menjalankan kueri menggunakan sintaks SQL yang sudah dikenal.
  • Microsoft Power BI adalah kumpulan layanan perangkat lunak, aplikasi, dan konektor yang bekerja bersama untuk mengubah sumber data yang tidak terkait menjadi insight yang koheren, imersif secara visual, dan interaktif. Analis BI menggunakan Power BI untuk mengembangkan visualisasi dari data, seperti peta lokasi rumah setiap pasien dan rumah sakit terdekat.
  • ID Microsoft Entra adalah layanan manajemen identitas dan akses berbasis cloud. Dalam arsitektur ini, Azure AD mengontrol akses ke layanan Azure.
  • Azure Key Vault adalah layanan cloud yang menyediakan penyimpanan aman untuk rahasia seperti kunci, kata sandi, dan sertifikat. Key Vault menyimpan rahasia yang digunakan Databricks untuk mendapatkan akses tulis ke data lake.
  • Microsoft Defender untuk Cloud adalah sistem manajemen keamanan infrastruktur terpadu yang memperkuat postur keamanan pusat data, dan memberikan perlindungan ancaman tingkat lanjut di seluruh beban kerja hybrid di cloud dan lokal. Anda dapat menggunakannya untuk memantau ancaman keamanan terhadap lingkungan Azure.
  • Azure Kubernetes Service (AKS) adalah layanan Kubernetes yang terkelola sepenuhnya untuk menyebarkan dan mengelola aplikasi dalam kontainer. AKS menyederhanakan penyebaran kluster AKS terkelola di Azure dengan memindahkan overhead operasional ke Azure.

Alternatif

  • Pergerakan Data: Anda dapat menggunakan Databricks untuk menyalin data dari sistem lokal ke data lake. Biasanya, Databricks cocok untuk data yang memiliki persyaratan streaming atau real time, seperti telemetri dari perangkat medis.

  • Pembelajaran Mesin: H2O.ai, DataRobot, Dataiku, dan vendor lainnya menawarkan kemampuan pembelajaran mesin otomatis yang mirip dengan Pembelajaran Mesin AutoML. Anda dapat menggunakan platform tersebut untuk melengkapi rekayasa data dan aktivitas pembelajaran mesin Azure.

Detail skenario

Arsitektur ini mewakili contoh alur kerja ujung ke ujung untuk memprediksi penerimaan kembali rumah sakit untuk pasien diabetes, menggunakan data yang tersedia untuk umum dari 130 rumah sakit AS selama 10 tahun dari 1999 hingga 2008. Pertama, ini mengevaluasi algoritma klasifikasi biner untuk daya prediktif, lalu membandingkannya dengan model prediktif yang dihasilkan dengan menggunakan pembelajaran mesin otomatis. Dalam situasi di mana pembelajaran mesin otomatis tidak dapat mengoreksi data tidak seimbang, teknik alternatif harus diterapkan. Model akhir dipilih untuk penyebaran dan konsumsi.

Selagi organisasi pelayanan kesehatan dan ilmu biologi berusaha untuk memberikan pengalaman yang lebih personal bagi pasien dan perawat, mereka ditantang untuk menggunakan data dari sistem lama untuk memberikan insight prediktif yang relevan, akurat, dan tepat waktu. Pengumpulan data telah melampaui sistem operasional tradisional dan rekaman kesehatan elektronik (RKE), dan semakin menjadi bentuk yang tidak terstruktur dari aplikasi kesehatan konsumen, perangkat kebugaran yang dapat dikenakan, dan perangkat medis pintar. Organisasi membutuhkan kemampuan untuk memusatkan data ini dengan cepat dan memanfaatkan kekuatan ilmu data dan pembelajaran mesin agar tetap relevan bagi pelanggan mereka.

Untuk mencapai tujuan ini, organisasi pelayanan kesehatan dan ilmu biologi harus bertujuan untuk:

  • Membuat sumber data tempat analitik prediktif dapat memberikan nilai real time kepada penyedia layanan kesehatan, administrator rumah sakit, produsen obat, dan lainnya.
  • Mengakomodasi pakar bidang (SME) dari industri mereka, yang tidak memiliki keterampilan ilmu data dan pembelajaran mesin.
  • Memberi SME ilmu data dan pembelajaran mesin (ML) alat yang fleksibel yang mereka butuhkan untuk membuat dan menyebarkan model prediktif secara efisien, akurat, dan dalam skala besar.

Kemungkinan kasus penggunaan

  • Prediksi penerimaan kembali rumah sakit
  • Mempercepat diagnosis pasien melalui pencitraan yang didukung ML
  • Melakukan analitik teks pada catatan dokter
  • Memprediksi efek samping dengan menganalisis data pemantauan pasien jarak jauh dari Internet of Medical Things (IoMT)

Pertimbangan

Pertimbangan ini mengimplementasikan pilar Azure Well-Architected Framework, yang merupakan serangkaian tenet panduan yang dapat digunakan untuk meningkatkan kualitas beban kerja. Untuk informasi selengkapnya, lihat Microsoft Azure Well-Architected Framework.

Ketersediaan

Menyediakan data dan insight klinis secara real time sangat penting bagi banyak organisasi pelayanan kesehatan. Berikut adalah cara untuk meminimalkan waktu henti dan menjaga keamanan data:

Performa

Waktu proses integrasi yang dihosting sendiri oleh Data Factory dapat ditingkatkan skalanya untuk ketersediaan dan skalabilitas tinggi.

Keamanan

Keamanan memberikan jaminan terhadap serangan yang disukai dan penyalahgunaan data dan sistem berharga Anda. Untuk informasi selengkapnya, lihat Gambaran Umum pilar keamanan.

Data pelayanan kesehatan sering kali mencakup informasi kesehatan yang dilindungi (PHI) dan informasi pribadi yang sensitif. Sumber daya berikut tersedia untuk mengamankan data ini:

Pengoptimalan biaya

Optimalisasi biaya adalah tentang mencari cara untuk mengurangi pengeluaran yang tidak perlu dan meningkatkan efisiensi operasional. Untuk informasi selengkapnya, lihat Gambaran umum pilar pengoptimalan biaya.

Harga untuk solusi ini didasarkan pada:

  • Layanan Azure yang digunakan.
  • Volume data.
  • Persyaratan kapasitas dan throughput.
  • Transformasi ETL/ELT yang dibutuhkan.
  • Sumber daya komputasi yang diperlukan untuk melakukan tugas pembelajaran mesin.

Anda dapat memperkirakan biaya menggunakan kalkulator harga Azure.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Langkah berikutnya

Layanan Azure

Solusi perawatan kesehatan