數據聯盟的這個解決方案會使用 Azure 元件。 其符合下列目標:
- 為多個組織提供共享數據的方式。
- 集中處理數據協調流程工作。
- 確保數據安全性。
- 保證病患隱私權。
- 支持數據互操作性。
- 提供符合特定組織需求的自定義選項。
架構
資料流程
原始數據源自內部部署和第三方來源。 聯盟的成員會將此數據載入 Azure Data Share 中的任一個記憶體服務:
聯盟會要求成員共享數據。 身為數據產生者,成員可以共用快照集或使用就地共用。
身為數據取用者,聯盟會接收共享成員數據。 此數據會在聯盟的數據共享中輸入 Data Lake Storage 以進行進一步轉換。
Azure Data Factory 和 Azure Databricks 會清除成員數據,並將其轉換成通用格式。
聯盟會合併成員數據,並將其儲存在服務中。 數據的結構和磁碟區會決定最適合的記憶體服務類型。 可能性包括:
- Azure Synapse Analytics
- Azure SQL Database
- Azure Data Lake 儲存體
- Azure 資料總管
身為數據共享產生者,聯盟會邀請成員接收數據。 成員可以接受快照集數據或就地共享數據。
身為數據取用者,成員會收到共享數據。 數據會輸入成員數據存放區以供研究和分析。
在整個系統中:
- Microsoft Entra ID、Azure 金鑰保存庫,以及 適用於雲端的 Microsoft Defender 管理存取權並提供安全性。
- Azure Pipelines 是 Azure DevOps、組建、測試和發行程式代碼的服務。
元件
此解決方案會使用下列元件:
醫療保健平臺
電子健康記錄(EHR)是患者實時資訊的數位版本。
快速醫療保健互操作性資源 (FHIR) 是健康等級七國際 (HL7) 發佈的醫療保健數據交換標準。
醫療物聯網(IoMT)是透過在線電腦網路連線到 IT 系統的醫療設備和應用程式集合。
Genomics 數據提供基因如何彼此和環境互動的資訊。
成像 數據報含放射學、心臟病成像、放射治療和其他設備所產生的影像。
客戶關係管理 (CRM)、計費和第三方系統會提供患者的數據。
Azure 元件
Azure Data Share 提供讓多個組織安全地共享數據的方式。 使用此服務時,數據提供者會持續控制其共享的數據。 管理及監視誰在哪些時間共用哪些數據很簡單。 Data Share 也可藉由結合不同成員的數據,輕鬆擴充分析和 AI 案例。
Azure Synapse Analytics 是適用於數據倉儲和巨量數據系統的分析服務。 透過本產品,您可以使用無伺服器、隨選資源或布建的資源來查詢數據。 Azure Synapse Analytics 適用於大量的結構化數據。
Azure SQL 資料庫 是完全受控的平臺即服務 (PaaS) 資料庫引擎。 使用 AI 支援的自動化功能,SQL 資料庫 處理資料庫管理功能,例如升級、修補、備份和監視。 此服務非常適合結構化數據。
Data Lake Storage 是可大幅調整且安全的 Data Lake,適用於高效能分析工作負載。 此服務可以管理數 PB 的資訊,同時維持數百 GB 的輸送量。 Data Lake Storage 提供一種方式,將多個成員的結構化和非結構化數據儲存在一個位置。
Azure 數據總 管是快速且完全受控的數據分析服務。 您可以使用這項服務對大量數據進行即時分析。 Azure 資料總管可以處理來自應用程式、網站、IoT 裝置和其他來源的各種數據流。 Azure 數據總管非常適合串流遙測和記錄數據的就地共用。
Azure Data Factory 是混合式數據整合服務。 您可以針對數據整合和轉換工作流程使用此完全受控、無伺服器的解決方案。 Data Factory 提供無程式代碼 UI 和易於使用的監視面板。 在此解決方案中,Data Factory 管線會擷取不同成員數據共享的數據。
Azure Databricks 是資料分析平台。 根據最新的 Apache Spark 分散式處理系統,Azure Databricks 支援與開放原始碼連結庫的無縫整合。 此解決方案會使用 Azure Databricks 筆記本,將所有成員數據轉換成通用格式。
Microsoft Entra 識別碼 是多租用戶、雲端式身分識別和存取管理服務。
Azure 金鑰保存庫 安全地儲存和控制對 API 金鑰、密碼、憑證和密碼編譯密鑰等秘密的存取。 此雲端服務也會管理安全性憑證。
Azure Pipelines 會自動建置及測試程式代碼專案。 此 Azure DevOps 服務結合了持續整合和持續傳遞 (CI/CD)。 使用這些作法,Azure Pipelines 會持續測試並建置程式代碼,並將其隨附至任何目標。
替代項目
使用 Data Share 時, 數據記憶體有許多替代方案。 您選擇的服務取決於您的共享方法和磁碟區與資料類型:
針對批次數據的快照集共用,請使用下列任何服務:
- Azure Synapse Analytics
- SQL Database
- Data Lake Storage
- Azure Blob 儲存體
如需合併不同數據類型的資訊,請參閱 新式數據倉儲架構。
若要就地共用串流遙測和記錄數據,請使用 Azure 數據總管。 如需從各種來源分析數據的詳細資訊,請參閱 Azure 數據總管互動式分析。
某些數據集是大型或非關係型數據集。 有些不包含標準化格式的數據。 針對這些類型的數據集,Blob 記憶體或 Azure Data Lake Storage 的運作效果優於 Azure Synapse Analytics 和 SQL 資料庫,以便與 Data Share 交換數據。 如需有效儲存醫療數據的詳細資訊,請參閱 醫療數據儲存解決方案。
如果 Data Share 不是選項,請考慮改為使用虛擬專用網 (VPN)。 您可以使用站對站 VPN,在成員和聯盟數據存放區之間傳輸數據。
案例詳細資料
傳統的臨床試驗可能很複雜、耗時且成本高昂。 為了解決這些問題,越來越多的醫療保健組織正在合作建立用於進行臨床試驗的數據聯盟。
數據聯盟在許多方面都有利於醫療保健:
- 提供研究數據。
- 提供新的收益數據流。
- 藉由提供數據的快速存取,以產生符合成本效益的法規決策。
- 藉由加速創新,讓患者更安全且更健康。
潛在使用案例
許多類型的醫療保健專業人員可以受益於此解決方案:
- 使用真實世界觀察數據的組織,例如患者結果來判斷治療。
- 專門從事個人化或精確醫學的醫生。
- 需要輕鬆存取病患數據的遠端醫療提供者。
- 使用基因數據的研究人員。
考量
這些考量能實作 Azure Well-Architected Framework 的要素,其為一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework (部分機器翻譯)。
此解決方案中的技術符合大部分公司的安全性、延展性和可用性需求。
安全性
安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱安全性要素的概觀。
由於醫療資訊的敏感度,數個元件在保護數據方面扮演了角色:
Data Share 中的安全性功能會以下列方式保護數據:
- 加密待用數據,其中基礎數據存放區支援待用加密。
- 使用傳輸層安全性 (TLS) 1.2 加密傳輸中的數據。
- 加密待用和傳輸中數據共享的相關元數據。
- 不會儲存共用客戶數據的內容。
Azure Synapse Analytics 提供完整的安全性模型。 您可以使用其細部控制項來保護每個層級的數據,從單一數據格到整個資料庫。
SQL 資料庫 使用分層方法來保護客戶數據。 此策略涵蓋下列領域:
- 網路安全性
- 存取管理
- 威脅保護
- 資訊保護
Data Lake Storage 提供訪問控制。 此模型支援下列類型的控制項:
- Azure 角色型存取控制 (RBAC)
- 可攜式作業系統介面 (POSIX) 存取控制清單 (ACL)
-
- 針對 Azure 資源使用Microsoft Entra ID-Managed Identities。
- 使用 RBAC 來隔離職責並限制存取。
- 封鎖源自 Azure 數據總管外部網路區段的流量。
- 保護數據,並協助您使用 Azure 磁碟加密 來達成承諾。 此服務提供虛擬機數據磁碟和OS的磁碟區加密。 Azure 磁碟加密 也會與 金鑰保存庫 整合,以Microsoft管理的密鑰或客戶管理的金鑰來加密秘密。
可用性
此解決方案使用單一區域部署。 某些案例需要多區域部署,以提供高可用性、災害復原或鄰近性。 在這些情況下,下列服務會提供配對的 Azure 區域以提供高可用性:
成本最佳化
成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化要素的概觀。
此解決方案的定價取決於數個因素:
- 您選擇的服務
- 系統的容量和輸送量
- 您在資料上使用的轉換
- 您的商務持續性層級
- 災害復原層級
如需詳細資訊,請參閱定價詳細資料。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Matt Hansen |資深雲端解決方案架構師
- Aruna Ranganathan |主要客戶工程經理
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。
下一步
藉由釐清下列幾點來判斷如何自定義解決方案:
- 可用的數據源
- 每個數據源的位置
- 哪些 Azure 服務成員可用來接收源數據
- 哪些數據成員可以與聯盟共用
- 成員如何共享數據:以批次方式作為快照集或與就地共享的數據流
- 聯盟可用來接收共享數據的 Azure 服務
- 成員數據的格式,以及它是否需要清除或轉換
- 聯盟可以與成員共用哪些數據
產品檔案:
- 什麼是適用於醫療保健的 Microsoft 雲端?
- 什麼是 Azure Data Share?
- 什麼是 Azure Synapse Analytics?
- 什麼是 Azure SQL Database?
- Azure Data Lake Storage 簡介
- 什麼是 Azure 資料總管?
- 什麼是 Azure Data Factory
- 什麼是 Databricks?
- 什麼是 Microsoft Entra 識別碼?
- 關於 Azure Key Vault
- 什麼是 Azure Pipelines?