你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Team Data Science Process 中的角色和任务
Team Data Science Process (TDSP) 是由 Microsoft 开发的一个框架,其提供的结构化方法可以有效地生成预测分析解决方案和智能应用程序。 本文概述了数据科学团队对此过程进行标准化的关键人员角色和关联任务。
建议使用与 Git 兼容的环境来补充存储在 Azure 机器学习中的 MLflow 项目。 Azure 机器学习与 Git 存储库集成,因此可以使用很多与 Git 兼容的服务,例如 GitHub、GitLab、Bitbucket、Azure DevOps 或任何其他与 Git 兼容的服务。
数据科学组和团队的结构
在企业中,数据科学职能通常采用以下层次结构进行组织:
- 数据科学组
- 组中的数据科学团队
此类结构中存在组主管和团队主管。 通常,数据科学团队负责执行数据科学项目。 数据科学团队由项目主管负责项目管理和治理,由特定数据科学家和工程师负责执行项目的数据科学和数据工程方面的任务。 组、团队或项目的主管执行初始项目设置和管理事项。
四个 TDSP 角色的定义和任务
假设数据科学部门由一个组内的各团队构成,则 TDSP 人员有四种不同的职能角色:
组管理员:管理企业中整个数据科学部门。 数据科学部门可能有多个团队,每个团队都在不同的业务领域开展多个数据科学项目。 组管理员可以将任务委托给代理,但与角色相关的任务不变。
团队主管:管理企业数据科学部门的团队。 团队由数据科学家组成。 对于小型数据科学部门,组管理员和团队主管可能是同一人。
项目主管:管理个别数据科学家在特定数据科学项目上的日常活动。
项目单独参与者:数据科学家、业务分析师、数据工程师、架构师和实施数据科学项目的其他人。
注意
根据企业结构和规模,一个人可能会兼任多个角色,或者多个人可能担任一个角色的情况。
四个角色的任务
下图显示了每个 TDSP 角色的顶级任务。 本概述和下面每个 TDSP 角色的详细任务概述可帮助你根据自己的职责选择所需教程。
组管理员任务
组管理员或指定的 TDSP 系统管理员需完成以下任务以采用 TDSP:
在组织中创建 Azure DevOps“组织”和组项目。
在 Azure DevOps 组项目中创建“项目模板存储库”,并通过 Microsoft TDSP 团队开发的项目模板存储库将其设定为种子。 Microsoft TDSP 项目模板存储库提供:
- “标准化目录结构”,包括数据、代码和文档的目录。
- 一套“标准化的文档模板”,用于引导有效的数据科学过程。
创建“实用程序存储库”,通过 Microsoft TDSP 团队开发的实用程序存储库将其设定为种子。 Microsoft 的 TDSP 实用工具存储库提供了一套有用的实用程序,使数据科学家工作更有效率。 Microsoft 实用程序存储库包含用于交互式数据浏览、分析、报告和基线建模和报告的实用程序。
为组织帐户设置“安全控制策略”。
有关详细信息,请参阅数据科学团队的组管理员任务。
团队主管任务
团队主管或指定的项目管理员需完成以下任务以采用 TDSP:
在组的 Azure DevOps 组织中创建团队“项目”。
在项目下创建“项目模板存储库”,通过组管理员或管理员委托人设置的组项目模板存储库将其设定为种子。
创建团队实用工具存储库,通过组实用程序存储库将其设定为种子,并将特定于团队的实用程序添加到存储库。
创建“Azure 文件存储”,为团队存储有用的数据资产(可选)。 其他团队成员可以在其分析桌面上装载这个共享的云文件存储。
将 Azure 文件装载到团队的 Data Science Virtual Machine 上,并向其中添加团队数据资产(可选)。
设置安全控制,方法是添加团队成员并配置其权限。
有关详细信息,请参阅数据科学团队的团队主管任务。
项目主管任务
项目主管需完成以下任务以采用 TDSP:
在团队项目中创建“项目存储库”,通过项目模板存储库将其设定为种子。
创建“Azure 文件存储”来存储项目的数据资产(可选)。
将 Azure 文件装载到 Data Science Virtual Machine 上,并向其中添加项目数据资产(可选)。
通过添加项目成员并配置其权限来设置“安全控制”。
有关详细信息,请参阅数据科学团队的项目主管任务。
项目单独参与者任务
项目单独参与者(通常是数据科学家)使用 TDSP 执行以下任务:
克隆项目主管设置的项目存储库。
在团队和项目的 Data Science Virtual Machine 上装载共享的 Azure 文件存储。
执行项目。
有关详细信息,请参阅数据科学团队的项目个人参与者任务。
数据科学项目执行工作流
数据科学家、项目主管和团队主管可以创建工作项,以便从头至尾跟踪项目的所有任务和阶段。 下图概述了用于项目执行的 TDSP 工作流:
工作流步骤可分为三个活动:
项目主管执行冲刺 (sprint) 规划。
数据科学家在
git
分支上开发项目,以处理工作项。项目主管或其他团队成员执行代码评审,并将工作分支合并到主分支。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Mark Tabladillo | 高级云解决方案架构师
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。