你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是团队数据科学过程?

Azure 机器学习

TDSP 是一种敏捷的迭代数据科学方法,可用于高效交付预测分析解决方案和 AI 应用程序。 TDSP 通过推荐团队角色协同工作的最佳方法来增强团队协作和学习。 TDSP 整合了 Microsoft 和其他行业领导者的最佳做法和框架,以帮助团队有效地实施数据科学计划。 使用 TDSP 可以完全实现分析计划的优势。

本文提供 TDSP 及其主要组件的概述。 其中提供了有关如何使用 Microsoft 工具和基础结构实现 TDSP 的指导。 可以在整个文章中找到更详细的资源。

TDSP 的关键组件

TDSP 具有以下关键组成部分:

  • 数据科学生命周期定义
  • 标准化项目结构
  • 基础结构和资源是数据科学项目的理想选择
  • 负责任的 AI:以及在道德原则的推动下,致力于 AI 的发展

数据科学生命周期

TDSP 提供可用于构建数据科学项目开发的生命周期。 该生命周期概述了成功的项目所遵循的完整步骤。

你可以将基于任务的 TDSP 与其他数据科学生命周期相结合,如数据挖掘的跨行业标准过程 (CRISP-DM)、数据库中的知识发现 (KDD) 流程或其他定制过程。 从较高层面讲,这些不同的方法具有很多共性。

如果你有一个属于智能应用程序的数据科学项目,则可以使用此生命周期。 智能应用程序部署机器学习或 AI 模型以进行预测分析。 你还可以将此过程用于探索性数据科学项目和即席分析项目。

TDSP 生命周期由团队以迭代方式执行的 5 个主要阶段组成。 这些阶段包括:

此处直观地展示了 TDSP 生命周期:

显示 TDSP 生命周期各阶段的示意图。

有关每个阶段的目标、任务和文档项目的信息,请参阅 TDSP 生命周期

这些任务和项目与项目角色保持一致,例如:

  • 解决方案架构师
  • 项目经理
  • 数据工程师
  • 数据科学家
  • 应用程序开发人员
  • 项目主管

下图显示了与横轴上描述的各个生命周期阶段和纵轴上描述的角色相对应的任务(蓝色)和项目(绿色)。

显示每个阶段的任务和项目的示意图。

标准化项目结构

你的团队可以使用 Azure 基础结构来组织数据科学资产。

Azure 机器学习支持开源 MLflow。 建议使用 MLflow 进行数据科学和 AI 项目管理。 MLflow 旨在管理完整的机器学习生命周期。 它在不同的平台上训练和提供模型,因此,无论试验在何处运行,都可以使用一组一致的工具。 可以在计算机本地、远程计算目标、虚拟机或机器学习计算实例上使用 MLflow。

MLflow 由多个关键功能组成:

  • 跟踪试验:你可以使用 MLflow 跟踪试验,包括参数、代码版本、指标和输出文件。 此功能可帮助你有效地比较不同的运行和管理试验过程。

  • 包代码:它提供一种标准化格式来打包机器学习代码,其中包括依赖项和配置。 通过此打包,可以更轻松地重现运行并与其他人共享代码。

  • 管理模型:MLflow 提供管理模型并对其进行版本控制的功能。 它支持各种机器学习框架,因此可以存储、提供模型并对其进行版本控制。

  • 提供和部署模型:MLflow 集成了模型服务和部署功能,因此你可以在不同的环境中轻松部署模型。

  • 注册模型:你可以管理模型的生命周期,包括版本控制、阶段转换和批注。 可以使用 MLflow 在协作环境中维护集中式模型存储。

  • 使用 API 和 UI:在 Azure 中,MLflow 捆绑在机器学习 API 版本 2 中,以便你可以以编程方式与系统交互。 可以使用 Azure 门户与 UI 交互。

MLflow 简化和标准化了从试验到部署的机器学习开发过程。

机器学习与 Git 存储库集成,因此可以使用与 Git 兼容的服务,例如 GitHub、GitLab、Bitbucket、Azure DevOps 或其他与 Git 兼容的服务。 除了已在机器学习中跟踪的资产之外,你的团队还可以在其 Git 兼容的服务中开发自己的分类,以存储其他项目数据,例如:

  • 文档
    • 项目数据:例如最终项目报表
    • 数据报表:例如数据字典或数据质量报表
    • 模型:例如模型报表
  • 代码
    • 数据准备
    • 模型开发
    • 操作化,包括安全性和符合性

基础结构和资源

TDSP 为如何管理以下类别的共享分析和存储基础架构提供了建议:

用于存储数据集的云文件系统

云文件系统对 TDSP 至关重要,原因如下:

  • 集中式数据存储:云文件系统提供一个集中位置来存储数据集,这对于数据科学团队成员之间的协作至关重要。 集中性可确保所有团队成员都可以访问最新的数据,并降低使用过时或不一致的数据集的风险。

  • 可伸缩性:云文件系统可以处理大量数据,这在数据科学项目中很常见。 文件系统提供可缩放的存储解决方案,这些解决方案随项目的需求而增长。 它们使团队能够存储和处理大型数据集,而无需担心硬件限制。

  • 辅助功能:使用云文件系统,可以通过 Internet 连接从任何位置访问数据。 此访问权限对于分布式团队或团队成员需要远程工作时非常重要。 云文件系统促进了无缝协作,并确保数据始终可访问。

  • 安全性和合规性:云提供商通常会实施强大的安全措施,包括加密、访问控制以及遵守行业标准和法规。 强大的安全措施可以保护敏感数据,并帮助团队满足法律和法规要求。

  • 版本控制:云文件系统通常包括版本控制功能,团队可以使用这些功能来跟踪数据集随时间的变化。 版本控制对于保持数据的完整性并在数据科学项目中重现结果至关重要。 它还有助于审核并排查出现的任何问题。

  • 与工具集成:云文件系统可与各种数据科学工具和平台无缝集成。 工具集成支持更轻松的数据引入、数据处理和数据分析。 例如,Azure 存储与机器学习、Azure Databricks 和其他数据科学工具集成良好。

  • 协作和共享:云文件系统使与其他团队成员或利益干系人共享数据集变得容易。 这些系统支持共享文件夹和权限管理等协作功能。 协作功能促进了团队合作,并确保合适的人员能够访问所需的数据。

  • 成本效益:云文件系统比维护本地存储解决方案更具成本效益。 云提供商具有灵活的定价模型,包括即用即付选项,这有助于根据数据科学项目的实际使用情况和存储要求来管理成本。

  • 灾难恢复:云文件系统通常包括数据备份和灾难恢复功能。 这些功能有助于保护数据免受硬件故障、意外删除和其他灾难的影响。 它让用户安心无忧,并支持数据科学操作的连续性。

  • 自动化和工作流集成:云存储系统可以集成到自动化工作流中,从而在数据科学过程的不同阶段之间实现无缝数据传输。 自动化可以帮助提高效率,减少管理数据所需的手动工作量。

  • Azure Blob 存储 - 有关 Azure Blob 存储的综合文档,这是一种用于非结构化数据的可缩放对象存储服务。
  • Azure Data Lake Storage - 有关 Azure Data Lake Storage Gen2 的信息,专为大数据分析而设计,并支持大规模数据集。
  • Azure 文件存储 - 有关 Azure 文件存储的详细信息,它在云中提供完全托管的文件共享。

总之,云文件系统对于 TDSP 至关重要,因为它们提供了可缩放、安全且可访问的存储解决方案,支持整个数据生命周期。 云文件系统实现了来自各种来源的无缝数据集成,支持全面的数据采集和理解。 数据科学家可以使用云文件系统有效地存储、管理和访问大型数据集。 此功能对于训练和部署机器学习模型至关重要。 这些系统还通过使团队成员能够在统一环境中同时共享和处理数据,从而增强协作。 云文件系统提供可靠的安全功能,可帮助保护数据并使其符合法规要求,这对于维护数据完整性和信任至关重要。

云数据库

云数据库在 TDSP 中起着至关重要的作用,原因有几个:

  • 可伸缩性:云数据库提供可缩放的解决方案,可以轻松扩展以满足项目日益增长的数据需求。 可伸缩性对于经常处理大型复杂数据集的数据科学项目至关重要。 云数据库可以处理不同的工作负载,而不需要手动干预或硬件升级。

  • 性能优化:开发人员通过使用自动索引、查询优化和负载均衡等功能来优化云数据库的性能。 这些功能有助于确保数据检索和处理快速高效,这对于需要实时数据访问或近实时数据访问的数据科学任务至关重要。

  • 辅助功能和协作:团队可以从任何位置访问云数据库中存储的数据。 此辅助功能可促进可能分散在不同地理位置的团队成员之间的协作。 辅助功能和协作对于分布式团队或远程工作的人来说非常重要。 云数据库支持多用户环境,实现同时访问和协作。

  • 与数据科学工具集成:云数据库与各种数据科学工具和平台无缝集成。 例如,Azure 云数据库与机器学习、Power BI 和其他数据分析工具集成良好。 这种集成简化了从引入和存储到分析和可视化的数据管道。

  • 安全性和合规性:云提供商实施强大的安全措施,包括数据加密、访问控制以及遵守行业标准和法规。 安全措施可以保护敏感数据,并帮助团队满足法律和法规要求。 安全功能对于维护数据完整性和隐私至关重要。

  • 成本效益:云数据库通常采用即用即付模式运行,这比维护本地数据库系统更具成本效益。 这种定价灵活性使组织能够有效地管理其预算,只为他们使用的存储和计算资源付费。

  • 自动备份和灾难恢复:云数据库提供自动备份和灾难恢复解决方案。 如果发生硬件故障、意外删除或其他灾难,这些解决方案有助于防止数据丢失。 可靠性对于维护数据科学项目中的数据连续性和完整性至关重要。

  • 实时数据处理:许多云数据库支持实时数据处理和分析,这对于需要最新信息的数据科学任务至关重要。 此功能可帮助数据科学家根据最新的可用数据及时做出决策。

  • 数据集成:云数据库可以轻松地与其他数据源、数据库、数据湖和外部数据馈送集成。 集成可帮助数据科学家合并来自多个源的数据,并提供全面的视图和更复杂的分析。

  • 灵活性和多样性:云数据库采用各种形式,例如关系数据库、NoSQL 数据库和数据仓库。 这种多样性使数据科学团队能够根据其特定需求选择最佳类型的数据库,无论是需要结构化数据存储、非结构化数据处理还是大规模数据分析。

  • 支持高级分析:云数据库通常内置对高级分析和机器学习的支持。 例如,Azure SQL 数据库提供内置机器学习服务。 这些服务可帮助数据科学家直接在数据库环境中执行高级分析。

  • Azure SQL 数据库 - Azure SQL 数据库的文档,这是一种完全托管的关系数据库服务。
  • Azure Cosmos DB - Azure Cosmos DB 的相关信息,这是一项全球分布式多模型数据库服务。
  • Azure Database for PostgreSQL - Azure Database for PostgreSQL 南,一种用于应用程序开发和部署的托管数据库服务。
  • Azure Database for MySQL - Azure Database for MySQL 的详细信息,这是 MySQL 数据库的托管服务。

总之,云数据库对 TDSP 至关重要,因为它们提供了可缩放、可靠和高效的数据存储和管理解决方案,支持数据驱动的项目。 它们有助于无缝数据集成,这有助于数据科学家从各种源引入、预处理和分析大型数据集。 云数据库支持快速查询和数据处理,这对于开发、测试和部署机器学习模型至关重要。 此外,云数据库通过为团队成员提供一个集中式平台来同时访问和处理数据,从而增强了协作。 最后,云数据库提供高级安全功能和合规支持,以保护数据并符合监管标准,这对于维护数据完整性和信任至关重要。

使用 SQL 或 Spark 的大数据群集

大数据群集(如使用 SQL 或 Spark 的群集)是 TDSP 的基础,原因有几个:

处理大量数据:大数据群集旨在高效处理大量数据。 数据科学项目通常涉及超过传统数据库容量的大型数据集。 基于 SQL 的大数据群集和 Spark 可以大规模管理和处理这些数据。

分布式计算:大数据群集使用分布式计算将数据和计算任务分散到多个节点。 并行处理功能显著加快了数据处理和分析任务,这对于获取数据科学项目中的及时见解至关重要。

可伸缩性:大数据集群通过增加更多节点在水平方向上提供高可伸缩性,通过增加现有节点的力量在垂直方向上提供可伸缩性。 可扩展性通过处理不断增加的数据大小和复杂性,有助于确保数据基础结构随着项目的需求而增长。

与数据科学工具集成:大数据群集与各种数据科学工具和平台很好地集成在一起。 例如,Spark 与 Hadoop 无缝集成,SQL 群集与各种数据分析工具协同工作。 集成有助于实现从数据引入到分析和可视化的平稳工作流程。

高级分析:大数据群集支持高级分析和机器学习。 例如,Spark 提供以下内置库:

  • 机器学习,MLlib
  • 图形处理,GraphX
  • 流处理,Spark 流式处理

这些功能可以帮助数据科学家直接在群集内执行复杂的分析。

实时数据处理:大数据群集(尤其是使用 Spark 的群集)支持实时数据处理。 此功能对于需要最新数据分析和决策的项目至关重要。 实时处理有助于欺诈检测、实时推荐和动态定价等场景。

数据转换和提取、转换、加载 (ETL):大数据群集是数据转换和 ETL 过程的理想选择。 它们可以有效地处理复杂的数据转换、清理和聚合任务,这些任务在分析数据之前通常是必要的。

成本效益:大数据群集具有成本效益,特别是当使用基于云的解决方案(如 Azure Databricks 和其他云服务)时。 这些服务提供灵活的定价模型,包括即用即付,这比维护本地大数据基础结构更具经济性。

容错:大数据群集的设计考虑了容错性。 它们跨节点复制数据,以帮助确保即使某些节点发生故障,系统仍可正常运行。 这种可靠性对于维护数据科学项目中的数据完整性和可用性至关重要。

Data Lake 集成:大数据群集通常与数据湖无缝集成,使数据科学家能够以统一的方式访问和分析各种数据源。 集成通过支持结构化和非结构化数据的组合来促进更全面的分析。

基于 SQL 的处理:对于熟悉 SQL 的数据科学家,使用 SQL 查询的大数据群集(如 Spark SQL 或 Hadoop 上的 SQL)提供了一个熟悉的界面来查询和分析大数据。 这种易用性可以加速分析过程,使其更容易被更广泛的用户使用。

协作和共享:大数据群集支持协作环境,其中多个数据科学家和分析师可以在同一数据集上协同工作。 它们提供共享代码、笔记本和结果的功能,可促进团队合作和知识共享。

安全性和合规性:大数据群集提供可靠的安全功能,例如数据加密、访问控制和符合行业标准。 安全功能可保护敏感数据,并帮助团队满足法规要求。

总之,大数据群集(无论是 SQL 还是 Spark)对于 TDSP 都至关重要,因为它们提供了高效处理大量数据所需的计算能力和可伸缩性。 大数据群集使数据科学家能够对大型数据集执行复杂的查询和高级分析,从而促进深入见解和准确的模型开发。 使用分布式计算时,这些群集可实现快速数据处理和分析,从而加速整个数据科学工作流程。 大数据群集还支持与各种数据源和工具的无缝集成,从而增强了从多个环境中引入、处理和分析数据的能力。 大数据群集还提供了一个统一平台,团队可以有效地共享资源、工作流和结果,从而促进协作和可重复性。

AI 和机器学习服务

AI 和机器学习 (ML) 服务是 TDSP 不可或缺的一部分,原因有几个:

高级分析:AI 和 ML 服务支持高级分析。 数据科学家可以使用高级分析来发现复杂的模式,进行预测,并生成传统分析方法无法实现的见解。 这些高级功能对于创建影响较大的数据科学解决方案至关重要。

重复性任务的自动化:AI 和 ML 服务可以自动执行重复任务,例如数据清理、特征工程和模型训练。 自动化节省了时间,并帮助数据科学家专注于项目的更具战略性的方面,从而提高了整体工作效率。

提高准确性和性能:ML 模型可以通过从数据中学习来提高预测和分析的准确性和性能。 随着这些模型接触到更多的数据,它们可以不断改进,从而做出更好的决策和更可靠的结果。

可伸缩性:云平台(如机器学习)提供的 AI 和 ML 服务具有高度的可伸缩性。 他们可以处理大量数据和复杂的计算,这有助于数据科学团队缩放解决方案以满足不断增长的需求,而无需担心底层基础结构限制。

与其他工具集成:AI 和 ML 服务与 Microsoft 生态系统中的其他工具和服务无缝集成,例如 Azure Data Lake、Azure Databricks 和 Power BI。 集成支持从数据引入和处理到模型部署和可视化的简化工作流。

模型部署和管理:AI 和 ML 服务为在生产中部署和管理机器学习模型提供了强大的工具。 版本控制、监视和自动重新训练等功能有助于确保模型随时间推移保持准确且有效。 此方法简化了 ML 解决方案的维护。

实时处理:AI 和 ML 服务支持实时数据处理和决策。 实时处理对于需要即时见解和操作的应用程序至关重要,例如欺诈检测、动态定价和建议系统。

可定制性和灵活性:AI 和 ML 服务提供一系列可定制的选项,从预生成模型和 API 到从头开始构建自定义模型的框架。 这种灵活性有助于数据科学团队根据特定的业务需求和用例量身定制解决方案。

访问尖端算法:AI 和 ML 服务为数据科学家提供了访问领先研究人员开发的尖端算法和技术的机会。 Access 确保团队可以将 AI 和 ML 的最新进展用于他们的项目。

协作和共享:AI 和 ML 平台支持协作开发环境,在这种环境中,多个团队成员可以在同一个项目上协同工作、共享代码和重现试验。 协作增强了团队合作,有助于确保模型开发的一致性。

成本效益:云上的 AI 和 ML 服务比构建和维护本地解决方案更具成本效益。 云提供商具有灵活的定价模型,包括即用即付选项,可降低成本并优化资源使用情况。

增强的安全性和合规性:AI 和 ML 服务具有强大的安全功能,包括数据加密、安全访问控制以及符合行业标准和法规。 这些功能有助于保护数据和模型,并满足法律和法规要求。

预生成模型和 API:许多 AI 和 ML 服务为常见任务(如自然语言处理、图像识别和异常情况检测)提供预生成模型和 API。 预生成解决方案可以加速开发和部署,并帮助团队将 AI 功能快速集成到其应用程序中。

试验和原型制作:AI 和 ML 平台为快速试验和原型制作提供了环境。 数据科学家可以快速测试不同的算法、参数和数据集,以找到最佳解决方案。 试验和原型制作支持模型开发的迭代方法。

机器学习是我们推荐用于数据科学应用程序和 TDSP 的主要资源。 此外,Azure 还为特定应用程序提供了现成的 AI 模型的 AI 服务。

  • 机器学习:机器学习的主要文档页面,涵盖了设置、模型训练、部署等。
  • Azure AI 服务:有关 AI 服务的信息,这些服务为视觉、语音、语言和决策任务提供预生成的 AI 模型。

总之,AI 和 ML 服务对于 TDSP 至关重要,因为它们提供了功能强大的工具和框架,简化了机器学习模型的开发、训练和部署。 这些服务自动执行算法选择和超参数优化等复杂任务,大大加快了模型开发过程。 这些服务还提供可缩放的基础结构,帮助数据科学家高效处理大型数据集和计算密集型任务。 AI 和 ML 工具与其他 Azure 服务无缝集成,并增强数据引入、预处理和模型部署。 集成有助于确保端到端的工作流程顺畅。 此外,这些服务促进了协作和可重现性。 团队可以分享见解,有效地对结果和模型进行试验,同时保持高标准的安全性和合规性。

负责任 AI

借助 AI 或 ML 解决方案,Microsoft 在其 AI 和 ML 解决方案中推广负责任的 AI 工具。 这些工具支持 Microsoft 负责任 AI 标准。 工作负载仍必须单独解决与 AI 相关的危害问题。

同行评审的引文

TDSP 是一种成熟的方法,团队可在 Microsoft 参与中使用。 TDSP 在同行评审的文献中记录和研究。 这些引文提供了调查 TDSP 功能和应用程序的机会。 有关详细信息和引文列表,请参阅 TDSP 生命周期

TDSP 中的角色和任务