你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Team Data Science Process 生命周期建模阶段
本文概述了与 Team Data Science Process (TDSP) 的建模阶段相关联的目标、任务和可交付结果。 此过程提供团队可用于构建数据科学项目的建议生命周期。 生命周期概述了团队执行的主要阶段(通常以迭代方式进行):
- 了解业务
- 数据采集和理解
- 建模
- 部署
- 客户验收
此处直观地展示了 TDSP 生命周期:
目标
建模阶段的目标是:
确定机器学习模型的最佳数据功能。
创建可精准预测目标的信息性机器学习模型。
创建适用于生产的机器学习模型。
如何完成任务
建模阶段有三个主要任务:
特征工程:从原始数据创建数据特征,以实现模型定型。
模型训练:通过比较模型的成功指标,找出最能准确回答问题的模型。
模型评估:确定模型是否适用于生产。
特性工程
功能设计包括对原始变量的涵盖、聚合和转换,以创建分析中使用的功能。 如果想要深入了解如何生成模型,则需要研究模型的基础特征。
此步骤需要创造性地组合域专业知识,并从数据浏览的步骤中获取见解。 特征工程可平衡信息性变量的查找与添加,同时避免产生过多不相关的变量。 信息性变量可改进结果。 不相关的变量会在模型中引入不必要的干扰。 还需要为在评分过程中获取的任何新数据生成一些功能。 因此,可仅根据在评分时可用的数据生成这些功能。
模型定型
根据所要回答的问题类型,你可以使用许多建模算法。 有关选择预生成算法的指南,请参阅 Azure 机器学习设计器机器学习算法备忘单。 其他算法可通过 R 或 Python 中的开源包获得。 尽管本文侧重于 Azure 机器学习,但所述指南也适用于很多机器学习项目。
模型定型的过程包括以下步骤:
随机拆分输入数据,以建模成定型数据集和测试数据集。
使用定型数据集生成模型。
评估定型数据集和测试数据集。 使用一系列相互竞争的机器学习算法。 使用各种相关的调优参数(称为参数扫描),这些参数旨在回答与当前数据相关的问题。
比较备用方法的成功指标,确定可解答问题的最佳解决方案。
有关详细信息,请参阅使用机器学习训练模型。
注意
避免泄漏:若添加定型数据集外部数据,则可能会导致数据泄漏,因为此类数据允许模型或机器学习算法做出不切实际的良好预测。 泄露是数据科学家获得好到不真实的预测结果时会紧张的常见原因。 可能很难检测到这些依赖项。 为避免泄漏,通常需要在生成分析数据集、创建模型和评估结果准确性之间进行循环。
模型评估
训练模型后,团队中的数据科学家将专注于模型评估。
做出决定:评估模型的性能是否足以用于生产。 要提出的一些关键问题有:
在给定测试数据的情况下,模型是否能充分地回答问题?
是否应尝试备用方法?
是否应收集更多数据、进行更多的特征工程或使用其他算法进行试验?
解释模型:使用机器学习 Python SDK 执行以下任务:
在本地的个人计算机上解释整个模型行为或单个预测。
为工程特征启用可解释性技术。
在 Azure 中解释整个模型的行为和单个预测。
将解释上传到机器学习运行历史记录。
在 Jupyter 笔记本和机器学习工作区中,使用可视化仪表板与模型解释进行交互。
将评分解释器与模型一起部署,以便在推理过程中观察解释。
评估公平性:使用 Fairlearn 开源 Python 包与机器学习执行以下任务:
评估模型预测的公平性。 此过程有助于团队了解关于机器学习中公平性的详细信息。
在机器学习工作室中上传、列出和下载公平性评估见解。
请查看机器学习工作室中的公平性评估仪表板,与模型的公平性见解进行交互。
与 MLflow 集成
机器学习与 MLflow 集成以支持建模生命周期。 它使用 MLflow 的跟踪来跟踪试验、项目部署、模型管理和模型注册表。 此集成可确保无缝高效的机器学习工作流。 机器学习中的以下功能有助于支持此建模生命周期元素:
跟踪试验:MLflow 的核心功能在建模阶段广泛使用,用于跟踪各种试验、参数、指标和项目。
部署项目:使用 MLflow 项目打包代码可确保在团队成员之间保持一致运行,并在迭代模型开发过程中轻松共享。
管理模型:管理模型并对其进行版本控制在此阶段至关重要,因为生成、评估和优化了不同的模型。
注册模型:模型注册表用于在其整个生命周期内对模型进行版本控制和管理。
同行评审的文献
研究人员在经过同行评审的文献中发表了有关 TDSP 的研究。 引文提供了调查 TDSP 的其他应用程序或类似想法的机会,包括建模生命周期阶段。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Mark Tabladillo | 高级云解决方案架构师
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
相关资源
这些文章介绍了 TDSP 生命周期的其他阶段: