你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

用于数据科学家的 Team Data Science Process

本文指导读者利用设置的对象,通过配合 Azure 技术实现综合性数据科学解决方案。 本文将指导你:

  • 了解分析工作负载。
  • 使用 Team Data Science Process。
  • 使用 Azure 机器学习。
  • 了解数据传输和存储的基础知识。
  • 提供数据源文档。
  • 使用工具来处理分析。

这些培训材料与 Team Data Science Process (TDSP) 及 Microsoft 与开源代码软件和工具包相关,有助于构想、执行和交付数据科学解决方案。

课程路径

可通过下表中所列项目进行自学。 请参阅“说明”按照路径学习,选择“主题”查看学习参考,并使用“知识检查”检查技能掌握情况

目标 主题 说明 知识检查
了解开发分析项目的过程 Team Data Science Process 概述 首先介绍 TDSP。 此过程将引导你逐步了解分析项目。 阅读以下各节,详细了解相关过程及其实现方法。 查看项目的 TDSP 项目结构项目并将其下载到本地计算机
敏捷开发 TDSP 适用于许多不同的编程方法。 在此学习路径下,我们将使用敏捷软件开发。 通读“什么是敏捷开发?”和“构建敏捷文化”文章,其中介绍了使用敏捷的基础知识。 本站点还收录了其他参考资料,以供读者深入了解。 向同事解释持续集成和持续交付。
用于数据科学的 DevOps 开发者操作 (DevOps) 提供人员、进程和平台,使用者可通过它来处理项目,并将解决方案集成到组织的标准 IT 中。 从应用和安全性来看,集成是必需的。 在此联机课程中,你将了解 DevOps 的相关实践,以及所拥有的某些工具链选项。 为技术受众准备一篇时长 30 分钟的演示文稿,介绍 DevOps 对于分析项目的重要性。
了解数据存储和处理的相关技术 Microsoft 商业分析和 AI 在此学习路径下,我们介绍了几种用于创建分析解决方案的技术,但 Microsoft 所拥有的技术远不止这些。 要了解已有的选项,必须查看 Microsoft Azure、Azure Stack 上的可用平台及功能和本地选项。 查看此资源,了解在解决分析问题时可用的各种工具。 从此学习班下载并查看演示文稿材料
设置和配置培训、开发及生产环境 Microsoft Azure 现在,让我们在 Microsoft Azure 中创建一个培训用帐户,并学习如何创建开发和测试环境。 你可以通过这些免费培训资源入门。 完成初学者中级路径。 如果没有 Azure 帐户,请先创建一个。 登录至 Azure 门户并创建一个资源组用于培训。
Azure 命令行接口 (CLI) Microsoft Azure 的使用范围极其广泛 - 从图形工具(如 Visual Studio Code 和 Visual Studio)到 Web 接口(如 Azure 门户)、命令行(如 Azure PowerShell 命令行)和函数等均适用。 在本文中,我们介绍了 CLI,这是一种可在工作站本地、Windows 和其他操作系统,以及 Azure 门户中使用的工具。 使用 Azure CLI 设置默认订阅
Azure 存储 需要一个位置来存储数据。 在本文中,你将了解 Azure 的存储选项,学习如何创建存储帐户,以及如何将数据复制或移动到云。 请通读此简介了解详细内容。 在培训资源组中创建存储帐户,为 blob 对象创建容器以及上传和下载数据。
Microsoft Entra ID Microsoft Entra ID 是维护应用程序安全的基础。 在本文中,你将了解关于帐户、权限和特权的详细信息。 Active Directory 和安全性都是较复杂的主题,因此请通读此资源以了解相关基础知识。 向 Microsoft Entra ID 添加一个用户。 注意:如果不是该订阅的管理员,则可能不具备执行此操作的权限。 如果是这种情况,请查看此教程以了解详细信息
适用于 PyTorch 的 Azure Data Science Virtual Machine 可以在多个操作系统中以本地方式安装用于数据科学的工具。 但是,适用于 PyTorch 的 Data Science Virtual Machine 可提供用户所需的一切工具,以及大量可供使用的项目模板。 在本文中,你将详细了解适用于 PyTorch 的 Data Science Virtual Machine 以及如何完成其示例。 此资源介绍了适用于 PyTorch 的 Data Science Virtual Machine,指导如何创建数据科学虚拟机,并介绍了使用它来开发代码的若干选项。 它还提供完成此学习路径所需的一切软件,以便你能顺利完成此主题的知识路径。 创建适用于 PyTorch 的 Data Science Virtual Machine,并至少通过一个实验室加以使用
安装和了解使用数据科学解决方案的相关工具和技术 使用 Git 要通过 TDSP 完成 DevOps 过程,需要版本控制系统。 机器学习使用 Git,这是一款常用的开源分布式存储库系统。 本文详细介绍如何安装、配置、使用 Git 和中央存储库 GitHub。 克隆此 GitHub 项目作为学习路径项目结构
Visual Studio Code Visual Studio Code 是跨平台的集成开发环境 (IDE),支持多种语言和 Azure 工具。 可使用此单一环境来创建自己的整套解决方案。 请观看这些介绍视频以开始。 安装 Visual Studio Code,并在交互式编辑器演练场中演练 Visual Studio Code 功能
使用 Python 进行编程 我们将在此解决方案中使用 Python,这是数据科学中最常用的语言之一。 本文介绍了使用 Python 编写分析代码的基础知识,并提供用于深入学习的相关资源。 演练此参考资料中的第 1-9 节,并检查所学知识。 使用 Python 向 Azure 表添加一个实体
使用 Jupyter Notebook 在同一文档中引入文本和代码的一种方法是使用 Notebook。 机器学习与 Notebook 配合使用,因此了解如何使用它们是有益的。 通读此教程,并在知识检查部分进行尝试。 打开 Jupyter 网页,然后选择“欢迎使用 Python.ipynb”。 在该页面上演练相关示例。
机器学习 创建高级分析解决方案需要处理数据和使用机器学习,这也是使用 AI 和深入学习的基础。 此课程将详细介绍机器学习。 要获取数据科学的完整课程,请查看此证书 在机器学习算法中定位资源。 (提示:搜索“Azure 机器学习算法备忘单”)
scikit-learn 可使用 scikit-learn 工具集在 Python 中执行数据科学任务。 我们在自己的解决方案中使用了此框架。 本文介绍了相关基础知识,并说明了在何处可以进行更深入的学习。 使用 Iris 数据集,保留使用 Pickle 的 SVM 模型。
使用 Docker Docker 是一个分布式平台,用于生成、装运和运行应用程序,此外在机器学习中也经常使用它。 本文介绍了关于此技术的基础知识,并说明了在何处可以进行更深入的学习。 打开 Visual Studio Code 并安装 Docker 扩展创建简单的 Node Docker 容器
Azure HDInsight HDInsight 是 Hadoop 开源基础结构,可作为一种服务在 Azure 中使用。 你的机器学习算法可能具有较大的数据集,你可以使用 HDInsight 存储、传输和处理大规模数据。 本文介绍如何使用 HDInsight。 创建小型 HDInsight 群集。 使用 HiveQL 语句将列投影到 /example/data/sample.log 文件。 或者,也可在本地系统中完成此知识检查
根据业务需求创建数据处理流 根据 TDSP 确定问题 在安装和配置了开发环境并对相关技术和进程有一定了解之后,即可通过 TDSP 将所有内容集合在一起以执行分析。 我们需要先定义问题、选择数据源,并完成 TDSP 中的剩余步骤。 在演练此流程的过程中,请注意 DevOps 进程。 在本文中,你将了解如何从组织获取需求,如何通过应用程序来创建数据流映射,从而使用 TDSP 定义解决方案。 在“5 大数据科学问题”中找到资源,并描述你的组织可能在这些领域遇到的一个问题。 要解决此问题应关注哪个算法?
使用机器学习创建预测解决方案 机器学习 机器学习使用 AI 进行数据整理和特征设计,管理试验,并跟踪模型运行。 它使用单个环境,且大部分功能都可以在本地或 Azure 中运行。 可使用 PyTorch 框架、TensorFlow 框架或其他框架来创建试验。 在本文中,我们将运用你目前学习到的所有知识,重点介绍此过程的完整示例。
使用 Power BI 可视化结果 Power BI Power BI 是一款数据可视化工具。 多个平台(如 Web 设备、移动设备和台式计算机)都支持这款工具。 在本文中,你将了解如何通过访问 Azure 存储的结果并使用 Power BI 创建可视化效果处理所创建的解决方案的输出。 在 Power BI 中完成本教程。 然后将 Power BI 连接到在运行试验的过程中创建的 Blob CSV。
监视解决方案 Application Insights 有多种工具可用于监视你的最终解决方案。 使用 Application Insights,可轻松将内置的监视功能集成到解决方案中。 设置 Application Insights 以监视应用程序
Azure Monitor 日志 监视应用程序的另一种方法是将其集成到 DevOps 进程。 Azure Monitor 提供了丰富的功能集,可帮助你在部署分析解决方案后监视这些解决方案。 完成本教程了解如何使用 Azure Monitor 日志。
完成此学习路径 祝贺你! 你已完成此学习路径。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

首席作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤

AI 学习中心继续执行 AI 之旅。