你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用传统的和自动化的机器学习技术来预测医院的再次入院数

Azure 机器学习
Azure Synapse Analytics
Azure 数据工厂

此体系结构在云中提供预测的运行状况分析框架,以加速模型开发、部署和使用的路径。

体系结构

此框架利用本机 Azure 分析服务进行数据引入、存储、数据处理、分析和模型部署。

Diagram demonstrates the architecture of a multi-tier app.

下载此体系结构的 Visio 文件

工作流

此体系结构的工作流是根据参与者的角色描述的。

  1. 数据工程师:负责从源系统中引入数据,并协调数据管道,以便将数据从源移动到目标。 还可能负责对原始数据执行数据转换。

    • 在此方案中,历史再次入院数数据存储在本地 SQL Server 数据库中。
    • 预期的输出是存储在基于云的存储帐户中的再次入院数数据。
  2. 数据科学家:负责针对目标存储层中的数据执行各种任务,以便为模型预测做好准备。 这些任务包括清理、特征工程和数据标准化。

    • 清理:预先处理数据、删除 null 值、删除不需要的列等。 在此方案中,删除缺失值过多的列。
    • 特性工程:
      1. 确定预测所需输出需要的输入。
      2. 确定再次入院情况可能的预测迹象,可能通过与医生和护士等专业人员进行交流来确定。 例如,实际证据可能表明糖尿病患者超重是再次入院数的预测迹象。
    • 数据标准化:
      1. 描述数据的位置和可变性,为机器学习任务做好准备。 特征描述应包括数据分布、偏度和峰度。
        • 偏度回答了这样一个问题:分布的形状是怎么样的?
        • 峰度回答了这样一个问题:分布的厚度或可称性的度量是多少?
      2. 确定并更正数据集中的异常 - 应使用正态分布在数据集上执行预测模型。
      3. 预期输出是下列训练数据集:
        • 一个用于创建可供部署的令人满意的预测模型。
        • 一个可为公民数据科学家提供自动化模型预测 (AutoML)。
  3. 公民数据科学家:负责构建基于数据科学家的训练数据的预测模型。 公民数据科学家最有可能使用 AutoML 的功能,这种功能不需要大量的编码技能就能创建预测模型。

    预期输出是可供部署的令人满意的预测模型。

  4. 商业智能 (BI) 分析员:负责对数据工程师生成的原始数据执行操作分析。 BI 分析师可能参与从非结构化数据创建关系数据、编写 SQL 脚本和创建仪表板。

    预期输出为关系查询、BI 报表和仪表板。

  5. MLOps 工程师:负责将模型放入数据科学家或公民数据科学家提供的生产环境中。

    预期的输出是已准备好进行生产并可重复的模型。

虽然可在此列表中全面了解可在工作流中的任何时间与医疗保健数据交互的所有潜在角色,但可根据需要合并或扩展这些角色。

组件

  • Azure 数据工厂是一种业务流程服务,可将数据从本地系统移到 Azure,来使用其他 Azure 数据服务。 管道用于数据移动,映射数据流用于执行各种转换任务,例如提取、转换、加载 (ETL),以及提取、加载、转换 (ELT)。 在此体系结构中,数据工程师使用数据工厂来运行管道,将历史再次入院数数据从本地 SQL Server 复制到云存储。
  • Azure Databricks 是一种基于 Spark 的分析和机器学习服务,用于数据工程和 ML 工作负载。 在此体系结构中,数据工程师使用 Databricks 调用数据工厂管道来运行 Databricks 笔记本。 该笔记本由数据科学家开发,用于处理初始数据清理和特征工程任务。 数据科学家可在其他笔记本中编写代码,以便对数据进行标准化并构建和部署预测模型。
  • Azure Data Lake Storage 是一种高度可缩放且安全的存储服务,适用于高性能分析工作负载。 在此体系结构中,数据工程师使用 Data Lakes Storage 为加载到 Azure 的本地数据定义初始登陆区域,并为训练数据定义最终登陆区域。 数据以原始格式或最终格式准备就绪,可供各种下游系统使用。
  • Azure 机器学习是一种协作环境,用于对机器学习模型进行训练、部署、自动化、管理和跟踪。 自动机器学习 (AutoML) 是一项功能,可自动执行 ML 模型开发所涉及的耗时且迭代的任务。 数据科学家使用机器学习从 Databricks 跟踪 ML 运行,并创建 AutoML 模型,作为数据科学家的 ML 模型的性能基准。 公民数据科学家使用此服务通过 AutoML 快速运行训练数据来生成模型,无需详细了解机器学习算法。
  • Azure Synapse Analytics 是一种分析服务,它将数据集成、企业数据仓库和大数据分析统一起来。 用户可随意使用无服务器或专用资源来大规模地查询数据。 在此体系结构中:
    • 数据工程师使用 Synapse Analytics 从数据湖中的数据轻松创建关系表,使其成为运营分析的基础。
    • 数据科学家使用它来快速查询数据湖中的数据,并使用 Spark 笔记本开发预测模型。
    • BI 分析师通过它使用熟悉的 SQL 语法来运行查询。
  • Microsoft Power BI 是软件服务、应用和连接器的集合,它们相互配合,将不相关的数据源转换为一致的、视觉沉浸的交互式见解。 BI 分析师使用 Power BI 从数据开发可视化效果(例如,显示每位患者的家庭位置和最近的医院的地图)。
  • Microsoft Entra ID 是 Microsoft 推出的基于云的标识和访问管理服务。 在此体系结构中,它控制对 Azure 服务的访问。
  • Azure Key Vault 是一项云服务,它为密钥、密码和证书等机密提供了安全的存储。 Key Vault 保存 Databricks 用于获取对数据湖的写入访问权限的机密。
  • Microsoft Defender for Cloud 是一个统一的基础结构安全管理系统,可增强数据中心的安全态势,并跨云中和本地的混合工作负载提供高级威胁防护。 可以使用它来监视 Azure 环境中的安全威胁。
  • Azure Kubernetes 服务 (AKS) 是一项完全托管的 Kubernetes 服务,用于部署和管理容器化应用程序。 AKS 通过将操作开销分流到 Azure,简化了 Azure 中托管 AKS 群集的部署。

备选方法

  • 数据移动:可以使用 Databricks 将数据从本地系统复制到数据湖。 通常,Databricks 适用于具有流式处理或实时要求的数据(例如来自医疗设备的遥测)。

  • 机器学习:H2O.ai、DataRobot、Dataiku 和其他供应商提供与机器学习 AutoML 类似的自动化机器学习功能。 可以使用此类平台来补充 Azure 数据工程和机器学习活动。

方案详细信息

此体系结构代表了示例端到端工作流,该工作流使用 1999 到 2008 的 10 年间从 130 所美国医院获得的公开可用数据预测再次入院数。 首先,它计算用于预测能力的二元分类算法,然后针对使用自动机器学习生成的预测模型对其进行基准测试。 在自动机器学习无法纠正不均衡数据的情况下,必须应用其他技术。 选择最终模型进行部署和使用。

由于医疗保健和生命科学组织致力于为患者和医护人员提供更个性化的体验,因此他们面临的难题是使用来自旧系统的数据来提供相关、准确且及时的预测性见解。 数据收集超出了传统的操作系统和电子医疗记录 (EHR),并从消费者健康应用、健身可穿戴设备和智能医疗设备逐渐进入非结构化形式。 组织需要能够快速集中此数据,并充分利用数据科学和机器学习功能,使其与客户保持相关。

为了实现这些目标,医疗保健和生命科学组织应瞄准:

  • 创建其中的预测分析可为医疗保健提供商、医院管理员、药品制造商等提供实时价值的数据源。
  • 容纳他们行业的没有数据科学和机器学习技能的行业专家 (SME)。
  • 向数据科学和机器学习 (ML) SME 提供高效、准确并大规模创建和部署预测模型所需的灵活工具。

可能的用例

  • 预测再次入院数
  • 通过 ML 驱动的图像加速患者诊断
  • 对医师备注执行文本分析
  • 通过分析医疗物联网 (IoMT) 中的远程患者监测数据来预测不良事件

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负载质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

可用性

对许多医疗保健组织来说,提供实时临床数据和见解非常重要。 以下是将停机时间降至最低并确保数据安全的方法:

性能

数据工厂自承载集成运行时可纵向扩展来实现高可用性和可伸缩性

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

医疗保健数据通常包括受保护的敏感健康信息 (PHI) 和个人信息。 可使用以下资源来保护此数据:

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

此解决方案的定价基于:

  • 使用的 Azure 服务。
  • 数据量。
  • 容量和吞吐量要求。
  • 需要的 ETL/ELT 转换。
  • 执行机器学习任务所需的计算资源。

可使用 Azure 定价计算器来估算费用。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

后续步骤

Azure 服务

医疗保健解决方案