此架構提供雲端中的預測性健康情況分析架構,以加速模型開發、部署和取用的路徑。
架構
此架構會使用原生 Azure 分析服務進行資料內嵌、儲存、資料處理、分析和模型部署。
下載此架構的 Visio 檔案。
工作流程
此架構的工作流程會以參與者的角色來描述。
資料工程師:負責內嵌來源系統的資料,以及協調資料管線,以將資料從來源移至目標。 也可能負責對原始資料執行資料轉換。
- 在此案例中,再住院歷史資料會儲存在內部部署 SQL Server 資料庫中。
- 預期的輸出是儲存在雲端儲存體帳戶中的再住院資料。
資料科學家:負責在目標儲存層的資料上執行各種工作,以準備進行模型預測。 這些工作包括清理、特徵工程和資料標準化。
- 清理:預先處理資料、移除 Null 值、卸除不需要的資料行等等。 在此案例中,卸除含有太多遺漏值的資料行。
- 特徵工程:
- 判斷預測所需輸出所需的輸入。
- 藉由與醫生和護理師等專業人員交談,判斷可能的再住院預測變數。 例如實際證據可能表明,糖尿病患者超重是再住院的預測變數。
- 資料標準化:
- 描述資料的位置和變化性,以便為機器學習工作做好準備。 特徵應該包括資料分佈、偏態和峰態。
- 偏態能回答這個問題:分佈的形狀為何?
- 峰態能回答這個問題:分佈的厚度或重度測量為何?
- 識別並更正資料集中的異常狀況—預測模型應該在具有常態分佈的資料集上執行。
- 預期輸出是這些定型資料集:
- 一個用來建立已準備好進行部署的令人滿意預測模型。
- 一個可以提供給公民資料科學家進行自動化模型預測 (AutoML)。
- 描述資料的位置和變化性,以便為機器學習工作做好準備。 特徵應該包括資料分佈、偏態和峰態。
公民資料科學家:負責建立以資料科學家定型資料為基礎的預測模型。 公民資料科學家最有可能使用 AutoML 功能,不需要大量編碼技能就可建立預測模型。
預期的輸出是已準備好進行部署的令人滿意預測模型。
商業智慧 (BI) 分析師:負責對資料工程師產生的原始資料執行作業分析。 BI 分析師可能會參與從非結構化資料建立關聯式資料、撰寫 SQL 指令碼,以及建立儀表板。
預期的輸出是關聯式查詢、BI 報表和儀表板。
MLOps 工程師:負責將模型放入資料科學家或公民資料科學家提供的生產環境中。
預期的輸出是可供生產且可重現的模型。
雖然這份清單提供工作流程中任何時間點可能與醫療保健資料互動之所有潛在角色的完整檢視,但角色可能會視需要合併或擴充。
元件
- Azure Data Factory 是協調流程服務,可將資料從內部部署系統移至 Azure,以搭配其他 Azure 資料服務使用。 管線用於資料移動,而對應資料流程可用來執行各種轉換工作,例如擷取、轉換、載入 (ETL) 和擷取、載入、轉換 (ELT)。 在此架構中,資料工程師會使用 Data Factory 來執行管線,將再住院歷史資料從內部部署 SQL Server 複製到雲端儲存體。
- Azure Databricks 是以 Spark 為基礎的分析和機器學習服務,用於資料工程和 ML 工作負載。 在此架構中,資料工程師會使用 Databricks 呼叫 Data Factory 管線來執行 Databricks 筆記本。 筆記本是由資料科學家所開發,以處理初始資料清理和特徵工程工作。 資料科學家可以在其他筆記本中撰寫程式碼以標準化資料,以及建置和部署預測模型。
- Azure Data Lake Storage 是可大規模調整且安全的儲存服務,適用於高效能分析工作負載。 在此架構中,資料工程師會使用 Data Lake Storage 來定義載入至 Azure 的內部部署資料初始登陸區域,以及定型資料的最終登陸區域。 原始或最終格式的資料已可供各種下游系統取用。
- Azure Machine Learning 是一種共同作業環境,可用來定型、部署、自動化、管理及追蹤機器學習模型。 自動化機器學習 (AutoML) 功能可將 ML 模型開發所涉及的耗時和反覆工作自動化。 資料科學家會使用 Machine Learning 來追蹤從 Databricks 執行的 ML 並建立 AutoML 模型,以做為資料科學家 ML 模型的效能基準。 公民資料科學家使用此服務,透過 AutoML 快速執行定型資料來產生模型,而不需要具備機器學習演算法的詳細知識。
- Azure Synapse Analytics 是一種分析服務,可將資料整合、企業資料倉儲和巨量資料分析整合在一起。 使用者可以使用無伺服器或專用資源大規模地查詢資料。 在此架構中:
- 資料工程師會使用 Azure Synapse Analytics,輕鬆地從 Data Lake 中的資料建立關聯式資料表,成為作業分析的基礎。
- 資料科學家會用來快速查詢 Data Lake 中的資料,並使用 Spark 筆記本來開發預測模型。
- BI 分析師會用來透過熟悉的 SQL 語法執行查詢。
- Microsoft Power BI 是軟體服務、應用程式和連接器的集合,這些元件可共同運作並將不相關的資料來源轉換成一致、融入視覺及互動的深入解析。 BI 分析師會使用 Power BI 從資料開發視覺化結果,例如每位病患的住家位置和最近的醫院地圖。
- Microsoft Entra ID 是雲端身分識別和存取權管理服務。 在此架構中,此服務會控制對 Azure 服務的存取。
- Azure Key Vault 是一項雲端服務,可為金鑰、密碼和憑證等秘密提供安全的存放區。 Key Vault 會保存 Databricks 用來取得 Data Lake 寫入存取權的秘密。
- 適用於雲端的 Microsoft Defender 是整合的基礎結構安全性管理系統,可強化資料中心的安全性態勢,並在雲端與內部部署中的混合式工作負載提供進階威脅防護。 您可以用來監視 Azure 環境的安全性威脅。
- Azure Kubernetes Service (AKS) 是完全受控 Kubernetes 服務,可用來部署和管理容器化應用程式。 AKS 會透過將作業額外負荷卸載至 Azure,以簡化在 Azure 中部署受控 AKS 叢集的作業。
替代項目
資料移動:您可以使用 Databricks 將資料從內部部署系統複製到 Data Lake。 通常,Databricks 適用於具有串流或即時需求的資料,例如來自醫療器械的遙測資料。
Machine Learning:H2O.ai、DataRobot、Dataiku 和其他廠商提供類似 Machine Learning AutoML 的自動化機器學習功能。 您可以使用這類平台來補充 Azure 資料工程和機器學習活動。
案例詳細資料
此架構代表範例端對端工作流程,使用從 1999 年到 2008 年這 10 年間 130 家美國醫院的公開可用資料,來預測糖尿病患者再住院的情形。 首先,此架構評估用於預測的二進位分類演算法,然後針對使用自動化機器學習所產生的預測模型進行基準測試。 在自動化機器學習無法修正不平衡資料的情況下,應該套用替代技術。 選取最後一個模型以進行部署和取用。
隨著醫療保健和生命科學組織努力為患者和照顧者提供更個人化的體驗,他們面臨的挑戰是使用舊版系統的資料來提供相關、準確且及時的預測性深入解析。 資料收集已超越傳統的作業系統和電子健康記錄 (EHR),並越來越頻繁地從消費者健康應用程式、健身可穿戴裝置和智慧醫療設備進入非結構化形式。 組織需要能夠快速集中此資料,並利用資料科學和機器學習的強大功能來保持與客戶的相關能力。
為了達成這些目標,醫療保健和生命科學組織應致力於:
- 建立資料源,讓預測性分析可以為醫療保健提供者、醫院管理員、製藥廠和其他人員提供實時價值。
- 容納其產業主題專家 (SME) 沒有資料科學和機器學習技能。
- 提供資料科學和機器學習 (ML) 中小企業所需的彈性工具,以有效率、準確且大規模地建立和部署預測模型。
潛在使用案例
- 預測再住院
- 透過 ML 支援的映像加速患者診斷
- 對醫生筆記執行文字分析
- 藉由分析來自醫療物聯網的遠端患者監視資料來預測不良事件 (IoMT)
考量
這些考量能實作 Azure Well-Architected Framework 的支柱,其為一組指導原則,可以用來改善工作負載的品質。 如需更多資訊,請參閱 Microsoft Azure 結構完善的架構。
可用性
提供即時臨床資料和深入解析對許多醫療保健組織而言非常重要。 以下是將停機時間降到最低並保護資料安全的方法:
- Data Lake Storage 一律會在主要區域中複寫三次,您可以選擇本機備援儲存體 (LRS) 或區域備援儲存體 (ZRS)。
- Azure Synapse Analytics 提供資料庫還原點和災害復原。
- Data Factory 資料會儲存並複寫在 Azure 配對區域中,以確保商務持續性和災害復原。
- Databricks 為其資料分析平台提供災害復原指引。
- Machine Learning 可以在多重區域部署。
效能
Data Factory 自我裝載整合執行階段可以擴大以達到高可用性和延展性。
安全性
安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱安全性支柱的概觀。
醫療保健資料通常包含敏感性受保護的健康資訊 (PHI) 和個人資訊。 以下資源可用於保護此資料:
- Data Lake Storage 使用 Azure 角色型存取控制 (RBAC) 和存取控制清單 (ACL) 來建立存取控制模型。
- Azure Synapse Analytics 在資料庫、資料行和資料列層級提供一些存取和安全性控制項。 資料也可以在儲存格層級透過資料加密來保護。
- Data Factory 在混合雲端和雲端案例中提供用於移動資料的基本安全性基礎結構。
成本最佳化
成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化支柱的概觀。
此解決方案的定價是以下列為基礎:
- 所使用的 Azure 服務。
- 資料量。
- 容量和輸送量需求。
- 所需的 ETL/ELT 轉換。
- 執行機器學習工作所需的計算資源。
您可以使用 Azure 定價計算機來估計成本。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Matt Hansen | 資深雲端解決方案架構設計師
- Sandy Su | 雲端解決方案架構設計師
下一步
Azure 服務
- 什麼是 Azure Data Factory?
- 什麼是 Azure Databricks?(機器翻譯)
- 使用 MLflow 和 Azure Machine Learning 來追蹤 ML 模型
- Azure Data Lake Storage Gen2 簡介
- 什麼是 Azure Machine Learning 服務?
- 什麼是自動化機器學習 (AutoML)?
- 什麼是 Azure Synapse Analytics?
- 利用機器學習服務和 AI,發掘 Azure Synapse 中預測性分析的強大功能
- Power BI 是什麼?
- 什麼是 Microsoft Entra 識別碼?
- 關於 Azure Key Vault
- 什麼是適用於雲端的 Microsoft Defender?
醫療保健解決方案
- Microsoft Cloud for Healthcare
- 應用於醫療保健的 Azure
- 適用於 FHIR 的 Azure API
- IoMT FHIR Connector for Azure
- 使用醫學物聯網 (IoMT) 進行遠端病患監視