你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
用于数据科学家的 Team Data Science Process
本文指导读者利用设置的对象,通过配合 Azure 技术实现综合性数据科学解决方案。 本文将指导你:
- 了解分析工作负载。
- 使用 Team Data Science Process。
- 使用 Azure 机器学习。
- 了解数据传输和存储的基础知识。
- 提供数据源文档。
- 使用工具来处理分析。
这些培训材料与 Team Data Science Process (TDSP) 及 Microsoft 与开源代码软件和工具包相关,有助于构想、执行和交付数据科学解决方案。
课程路径
可通过下表中所列项目进行自学。 请参阅“说明”按照路径学习,选择“主题”查看学习参考,并使用“知识检查”检查技能掌握情况。
目标 | 主题 | 说明 | 知识检查 |
---|---|---|---|
了解开发分析项目的过程 | Team Data Science Process 概述 | 首先介绍 TDSP。 此过程将引导你逐步了解分析项目。 阅读以下各节,详细了解相关过程及其实现方法。 | 查看项目的 TDSP 项目结构项目并将其下载到本地计算机。 |
敏捷开发 | TDSP 适用于许多不同的编程方法。 在此学习路径下,我们将使用敏捷软件开发。 通读“什么是敏捷开发?”和“构建敏捷文化”文章,其中介绍了使用敏捷的基础知识。 本站点还收录了其他参考资料,以供读者深入了解。 | 向同事解释持续集成和持续交付。 | |
用于数据科学的 DevOps | 开发者操作 (DevOps) 提供人员、进程和平台,使用者可通过它来处理项目,并将解决方案集成到组织的标准 IT 中。 从应用和安全性来看,集成是必需的。 在此联机课程中,你将了解 DevOps 的相关实践,以及所拥有的某些工具链选项。 | 为技术受众准备一篇时长 30 分钟的演示文稿,介绍 DevOps 对于分析项目的重要性。 | |
了解数据存储和处理的相关技术 | Microsoft 商业分析和 AI | 在此学习路径下,我们介绍了几种用于创建分析解决方案的技术,但 Microsoft 所拥有的技术远不止这些。 要了解已有的选项,必须查看 Microsoft Azure、Azure Stack 上的可用平台及功能和本地选项。 查看此资源,了解在解决分析问题时可用的各种工具。 | 从此学习班下载并查看演示文稿材料。 |
设置和配置培训、开发及生产环境 | Microsoft Azure | 现在,让我们在 Microsoft Azure 中创建一个培训用帐户,并学习如何创建开发和测试环境。 你可以通过这些免费培训资源入门。 完成初学者和中级路径。 | 如果没有 Azure 帐户,请先创建一个。 登录至 Azure 门户并创建一个资源组用于培训。 |
Azure 命令行接口 (CLI) | Microsoft Azure 的使用范围极其广泛 - 从图形工具(如 Visual Studio Code 和 Visual Studio)到 Web 接口(如 Azure 门户)、命令行(如 Azure PowerShell 命令行)和函数等均适用。 在本文中,我们介绍了 CLI,这是一种可在工作站本地、Windows 和其他操作系统,以及 Azure 门户中使用的工具。 | 使用 Azure CLI 设置默认订阅。 | |
Azure 存储 | 需要一个位置来存储数据。 在本文中,你将了解 Azure 的存储选项,学习如何创建存储帐户,以及如何将数据复制或移动到云。 请通读此简介了解详细内容。 | 在培训资源组中创建存储帐户,为 blob 对象创建容器以及上传和下载数据。 | |
Microsoft Entra ID | Microsoft Entra ID 是维护应用程序安全的基础。 在本文中,你将了解关于帐户、权限和特权的详细信息。 Active Directory 和安全性都是较复杂的主题,因此请通读此资源以了解相关基础知识。 | 向 Microsoft Entra ID 添加一个用户。 注意:如果不是该订阅的管理员,则可能不具备执行此操作的权限。 如果是这种情况,请查看此教程以了解详细信息。 | |
适用于 PyTorch 的 Azure Data Science Virtual Machine | 可以在多个操作系统中以本地方式安装用于数据科学的工具。 但是,适用于 PyTorch 的 Data Science Virtual Machine 可提供用户所需的一切工具,以及大量可供使用的项目模板。 在本文中,你将详细了解适用于 PyTorch 的 Data Science Virtual Machine 以及如何完成其示例。 此资源介绍了适用于 PyTorch 的 Data Science Virtual Machine,指导如何创建数据科学虚拟机,并介绍了使用它来开发代码的若干选项。 它还提供完成此学习路径所需的一切软件,以便你能顺利完成此主题的知识路径。 | 创建适用于 PyTorch 的 Data Science Virtual Machine,并至少通过一个实验室加以使用。 | |
安装和了解使用数据科学解决方案的相关工具和技术 | 使用 Git | 要通过 TDSP 完成 DevOps 过程,需要版本控制系统。 机器学习使用 Git,这是一款常用的开源分布式存储库系统。 本文详细介绍如何安装、配置、使用 Git 和中央存储库 GitHub。 | 克隆此 GitHub 项目作为学习路径项目结构。 |
Visual Studio Code | Visual Studio Code 是跨平台的集成开发环境 (IDE),支持多种语言和 Azure 工具。 可使用此单一环境来创建自己的整套解决方案。 请观看这些介绍视频以开始。 | 安装 Visual Studio Code,并在交互式编辑器演练场中演练 Visual Studio Code 功能。 | |
使用 Python 进行编程 | 我们将在此解决方案中使用 Python,这是数据科学中最常用的语言之一。 本文介绍了使用 Python 编写分析代码的基础知识,并提供用于深入学习的相关资源。 演练此参考资料中的第 1-9 节,并检查所学知识。 | 使用 Python 向 Azure 表添加一个实体。 | |
使用 Jupyter Notebook | 在同一文档中引入文本和代码的一种方法是使用 Notebook。 机器学习与 Notebook 配合使用,因此了解如何使用它们是有益的。 通读此教程,并在知识检查部分进行尝试。 | 打开 Jupyter 网页,然后选择“欢迎使用 Python.ipynb”。 在该页面上演练相关示例。 | |
机器学习 | 创建高级分析解决方案需要处理数据和使用机器学习,这也是使用 AI 和深入学习的基础。 此课程将详细介绍机器学习。 要获取数据科学的完整课程,请查看此证书。 | 在机器学习算法中定位资源。 (提示:搜索“Azure 机器学习算法备忘单”) | |
scikit-learn | 可使用 scikit-learn 工具集在 Python 中执行数据科学任务。 我们在自己的解决方案中使用了此框架。 本文介绍了相关基础知识,并说明了在何处可以进行更深入的学习。 | 使用 Iris 数据集,保留使用 Pickle 的 SVM 模型。 | |
使用 Docker | Docker 是一个分布式平台,用于生成、装运和运行应用程序,此外在机器学习中也经常使用它。 本文介绍了关于此技术的基础知识,并说明了在何处可以进行更深入的学习。 | 打开 Visual Studio Code 并安装 Docker 扩展。 创建简单的 Node Docker 容器。 | |
Azure HDInsight | HDInsight 是 Hadoop 开源基础结构,可作为一种服务在 Azure 中使用。 你的机器学习算法可能具有较大的数据集,你可以使用 HDInsight 存储、传输和处理大规模数据。 本文介绍如何使用 HDInsight。 | 创建小型 HDInsight 群集。 使用 HiveQL 语句将列投影到 /example/data/sample.log 文件。 或者,也可在本地系统中完成此知识检查。 | |
根据业务需求创建数据处理流 | 根据 TDSP 确定问题 | 在安装和配置了开发环境并对相关技术和进程有一定了解之后,即可通过 TDSP 将所有内容集合在一起以执行分析。 我们需要先定义问题、选择数据源,并完成 TDSP 中的剩余步骤。 在演练此流程的过程中,请注意 DevOps 进程。 在本文中,你将了解如何从组织获取需求,如何通过应用程序来创建数据流映射,从而使用 TDSP 定义解决方案。 | 在“5 大数据科学问题”中找到资源,并描述你的组织可能在这些领域遇到的一个问题。 要解决此问题应关注哪个算法? |
使用机器学习创建预测解决方案 | 机器学习 | 机器学习使用 AI 进行数据整理和特征设计,管理试验,并跟踪模型运行。 它使用单个环境,且大部分功能都可以在本地或 Azure 中运行。 可使用 PyTorch 框架、TensorFlow 框架或其他框架来创建试验。 在本文中,我们将运用你目前学习到的所有知识,重点介绍此过程的完整示例。 | |
使用 Power BI 可视化结果 | Power BI | Power BI 是一款数据可视化工具。 多个平台(如 Web 设备、移动设备和台式计算机)都支持这款工具。 在本文中,你将了解如何通过访问 Azure 存储的结果并使用 Power BI 创建可视化效果处理所创建的解决方案的输出。 | 在 Power BI 中完成本教程。 然后将 Power BI 连接到在运行试验的过程中创建的 Blob CSV。 |
监视解决方案 | Application Insights | 有多种工具可用于监视你的最终解决方案。 使用 Application Insights,可轻松将内置的监视功能集成到解决方案中。 | 设置 Application Insights 以监视应用程序。 |
Azure Monitor 日志 | 监视应用程序的另一种方法是将其集成到 DevOps 进程。 Azure Monitor 提供了丰富的功能集,可帮助你在部署分析解决方案后监视这些解决方案。 | 完成本教程了解如何使用 Azure Monitor 日志。 | |
完成此学习路径 | 祝贺你! 你已完成此学习路径。 |
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Mark Tabladillo | 高级云解决方案架构师
若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
后续步骤
在 AI 学习中心继续执行 AI 之旅。
相关资源
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈