你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Team Data Science Process 生命周期的数据采集和理解阶段

本文概述了与 Team Data Science Process (TDSP) 的数据采集和理解阶段相关联的目标、任务和可交付结果。 此过程提供团队可用于构建数据科学项目的建议生命周期。 生命周期概述了团队执行的主要阶段(通常以迭代方式进行):

  • 了解业务
  • 数据采集和理解
  • 建模
  • 部署
  • 客户验收

此处直观地展示了 TDSP 生命周期:

显示 TDSP 生命周期各阶段的示意图。

目标

数据收集和理解阶段的目标是:

  • 生成与目标变量明确相关的干净、高质量的数据集。 在适当的分析环境中找到数据集,以便你的团队为建模阶段做好准备。

  • 开发数据管道的一个解决方案体系结构,以定期对数据进行刷新和评分。

如何完成任务

数据收集和理解阶段有三个主要任务:

  • 将数据引入到目标分析环境中。

  • 浏览数据以确定数据是否可以回答问题。

  • 设置数据管道以对新数据或定期刷新的数据进行评分。

引入数据

设置过程,将数据从源位置移动到要运行训练和预测等分析操作的目标位置。

浏览数据

在对模型定型之前,需要对数据进行深刻理解。 实际的数据集通常比较杂乱,缺少值或存在大量其他差异。 可使用数据汇总和可视化来审核数据的质量,并收集处理数据所需的信息,然后进行建模。 此过程通常是迭代的。

对清理后数据的质量感到满意后,下一步是更好地理解数据中的模式。 此数据分析有助于为目标选择并开发合适的预测模型。 确定数据与目标的相符程度。 然后决定团队在进行后续建模步骤时是否有足够的数据可用。 同样,此过程通常是迭代的。 可能需要查找包含更准确或更相关数据的新数据源,以调整在上一阶段中最初标识的数据集。

设置数据管道

除了引入和清理数据以外,作为持续学习过程的一部分,通常还需设置对新数据进行评分或定期刷新数据的过程。 可以使用数据管道或工作流对数据进行评分。 建议使用 Azure 数据工厂的管道。

此阶段会开发数据管道的一个解决方案体系结构。 在数据科学项目的下一阶段,同时创建管道。 根据业务需求以及集成了此解决方案的现有系统的约束,管道可以是:

  • 基于批处理的管道
  • 流式处理管道或实时管道
  • Hybrid

与 MLflow 集成

在数据理解阶段,可以使用 MLflow 的试验跟踪来跟踪和记录各种数据预处理策略和探索性数据分析。

Artifacts

在此阶段,你的团队提供:

  • 数据质量报表,其中包含数据摘要、每个属性和目标之间的关系、变量排名等。

  • 解决方案体系结构,例如团队用来对新数据运行预测的数据管道的关系图或说明。 此图还包含要基于新数据重新训练模型的管道。 使用 TDSP 目录结构模板时,将此文档存储到项目目录中。

  • 检查点决策。 开始完整的特征工程和建模前,可以重新评估项目,以确定预期值是否足以继续投入资金。 例如,用户可能已准备好继续进行项目,但需要收集更多数据或在你找不到可以回答问题的数据时放弃项目。

同行评审的文献

研究人员在经过同行评审的文献中发表了有关 TDSP 的研究。 引文提供了调查 TDSP 的其他应用程序或类似想法的机会,包括数据获取和理解生命周期阶段。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

这些文章介绍了 TDSP 生命周期的其他阶段: