你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Team Data Science Process 生命周期建模阶段

本文概述了与 Team Data Science Process (TDSP) 的建模阶段相关联的目标、任务和可交付结果。 此过程提供团队可用于构建数据科学项目的建议生命周期。 生命周期概述了团队执行的主要阶段(通常以迭代方式进行):

  • 了解业务
  • 数据采集和理解
  • 建模
  • 部署
  • 客户验收

此处直观地展示了 TDSP 生命周期:

Diagram that shows the stages of the TDSP lifecycle.

目标

建模阶段的目标是:

  • 确定机器学习模型的最佳数据功能。

  • 创建可精准预测目标的信息性机器学习模型。

  • 创建适用于生产的机器学习模型。

如何完成任务

建模阶段有三个主要任务:

  • 特征工程:从原始数据创建数据特征,以实现模型定型。

  • 模型训练:通过比较模型的成功指标,找出最能准确回答问题的模型。

  • 模型评估:确定模型是否适用于生产。

特性工程

功能设计包括对原始变量的涵盖、聚合和转换,以创建分析中使用的功能。 如果想要深入了解如何生成模型,则需要研究模型的基础特征。

此步骤需要创造性地组合域专业知识,并从数据浏览的步骤中获取见解。 特征工程可平衡信息性变量的查找与添加,同时避免产生过多不相关的变量。 信息性变量可改进结果。 不相关的变量会在模型中引入不必要的干扰。 还需要为在评分过程中获取的任何新数据生成一些功能。 因此,可仅根据在评分时可用的数据生成这些功能。

模型定型

根据所要回答的问题类型,你可以使用许多建模算法。 有关选择预生成算法的指南,请参阅 Azure 机器学习设计器机器学习算法备忘单。 其他算法可通过 R 或 Python 中的开源包获得。 尽管本文侧重于 Azure 机器学习,但所述指南也适用于很多机器学习项目。

模型定型的过程包括以下步骤:

  • 随机拆分输入数据,以建模成定型数据集和测试数据集。

  • 使用定型数据集生成模型。

  • 评估定型数据集和测试数据集。 使用一系列相互竞争的机器学习算法。 使用各种相关的调优参数(称为参数扫描),这些参数旨在回答与当前数据相关的问题。

  • 比较备用方法的成功指标,确定可解答问题的最佳解决方案

有关详细信息,请参阅使用机器学习训练模型

注意

避免泄漏:若添加定型数据集外部数据,则可能会导致数据泄漏,因为此类数据允许模型或机器学习算法做出不切实际的良好预测。 泄露是数据科学家获得好到不真实的预测结果时会紧张的常见原因。 可能很难检测到这些依赖项。 为避免泄漏,通常需要在生成分析数据集、创建模型和评估结果准确性之间进行循环。

模型评估

训练模型后,团队中的数据科学家将专注于模型评估。

  • 做出决定:评估模型的性能是否足以用于生产。 要提出的一些关键问题有:

    • 在给定测试数据的情况下,模型是否能充分地回答问题?

    • 是否应尝试备用方法?

    • 是否应收集更多数据、进行更多的特征工程或使用其他算法进行试验?

  • 解释模型:使用机器学习 Python SDK 执行以下任务:

    • 在本地的个人计算机上解释整个模型行为或单个预测。

    • 为工程特征启用可解释性技术。

    • 在 Azure 中解释整个模型的行为和单个预测。

    • 将解释上传到机器学习运行历史记录。

    • 在 Jupyter 笔记本和机器学习工作区中,使用可视化仪表板与模型解释进行交互。

    • 将评分解释器与模型一起部署,以便在推理过程中观察解释。

  • 评估公平性:使用 Fairlearn 开源 Python 包与机器学习执行以下任务:

    • 评估模型预测的公平性。 此过程有助于团队了解关于机器学习中公平性的详细信息。

    • 在机器学习工作室中上传、列出和下载公平性评估见解。

    • 请查看机器学习工作室中的公平性评估仪表板,与模型的公平性见解进行交互。

与 MLflow 集成

机器学习与 MLflow 集成以支持建模生命周期。 它使用 MLflow 的跟踪来跟踪试验、项目部署、模型管理和模型注册表。 此集成可确保无缝高效的机器学习工作流。 机器学习中的以下功能有助于支持此建模生命周期元素:

  • 跟踪试验:MLflow 的核心功能在建模阶段广泛使用,用于跟踪各种试验、参数、指标和项目。

  • 部署项目:使用 MLflow 项目打包代码可确保在团队成员之间保持一致运行,并在迭代模型开发过程中轻松共享。

  • 管理模型:管理模型并对其进行版本控制在此阶段至关重要,因为生成、评估和优化了不同的模型。

  • 注册模型:模型注册表用于在其整个生命周期内对模型进行版本控制和管理。

同行评审的文献

研究人员在经过同行评审的文献中发表了有关 TDSP 的研究。 引文提供了调查 TDSP 的其他应用程序或类似想法的机会,包括建模生命周期阶段。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

这些文章介绍了 TDSP 生命周期的其他阶段: