你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 HortonWorks 数据平台的 Docker 部署来设置 Azure 实验室服务中的大数据分析实验室

注意

本文引用了实验室计划中可用的功能,该计划取代了实验室帐户。

本文展示了如何设置用于讲授大数据分析课程的实验室。 大数据分析课程为用户讲解如何处理大量数据。 它还讲解如何应用计算机和统计学习算法来派生数据见解。 关键目标是学习如何使用数据分析工具,例如 Apache Hadoop 的开源软件包。 该软件包提供用于存储、管理和处理大数据的工具。

在此实验室中,实验室用户使用由 Cloudera 提供的常用商业版 Hadoop,称为 Hortonworks 数据平台 (HDP)。 具体而言,实验室用户使用 HDP Sandbox 3.0.1 - 该平台的简化易用版本。 HDP Sandbox 3.0.1 也是免费的,旨在用于学习和试验。 不过,此课程也可以使用部署了 HDP Sandbox 的 Windows 或 Linux 虚拟机 (VM)。 本文介绍如何使用 Windows。

另一个有意思的任务是,你将使用 Docker 容器在实验室 VM 上部署 HDP Sandbox。 每个 Docker 容器都提供了自己的隔离环境,让软件应用程序在内部运行。 从概念上讲,Docker 容器类似于嵌套 VM,可用于基于 Docker Hub 提供的容器映像来轻松部署和运行各种软件应用程序。 Cloudera 针对 HDP 沙盒的部署脚本会自动从 Docker Hub 拉取 HDP 沙盒 3.0.1 Docker 映像,并运行两个 Docker 容器:

  • sandbox-hdp
  • sandbox-proxy

先决条件

若要设置此实验室,你需要能够访问 Azure 订阅。 与组织的管理员讨论,了解是否可以访问现有的 Azure 订阅。 如果没有 Azure 订阅,请在开始之前创建一个免费帐户

实验室配置

实验室计划设置

获取 Azure 订阅后,可以在 Azure 实验室服务中创建实验室计划。 有关创建新实验室计划的详细信息,请参阅快速入门:设置资源以创建实验室。 也可以使用现有实验室计划。

本实验室使用 Windows 10 专业版 Azure 市场映像作为基础 VM 映像。 首先需要在实验室计划中启用此映像。 这样,实验室创建者就可以选择此映像作为实验室的基础映像。

请按照以下步骤使这些 Azure 市场映像可供实验室创建者使用。 选择其中一个 Windows 10 Azure 市场映像

实验室设置

为实验室计划创建实验室。 有关如何创建实验室的说明,请参阅教程:设置实验室。 创建实验室时,请使用以下设置。

实验室设置 值/说明
虚拟机大小 中等(嵌套虚拟化)。 此 VM 大小最适用于关系数据库、内存中缓存和分析。 此大小还支持嵌套虚拟化。
虚拟机映像 Windows 10 专业版

注意

使用“中等(嵌套虚拟化)”VM 大小,因为采用 Docker 的 HDP Sandbox 需要使用提供嵌套虚拟化和至少 10 GB RAM 的 Windows Hyper-V。

模板计算机配置

若要设置模板计算机,请执行以下操作:

  1. 安装 Docker
  2. 部署 HDP 沙盒
  3. 使用 PowerShell 和 Windows 任务计划程序来自动启动 Docker 容器

安装 Docker

本部分中的步骤基于 Cloudera 有关使用 Docker 容器部署的说明

若要使用 Docker 容器,必须首先在模板 VM 上安装 Docker Desktop:

  1. 遵循先决条件部分中的步骤来安装用于 Windows 的 Docker

    重要

    确保“使用 Windows 容器而不是 Linux 容器”配置选项处于未选中状态。

  2. 确保“Windows 容器和 Hyper-V 功能”已打开。

    打开或关闭 Windows 功能。

  3. 遵循用于 Windows 的内存部分中的步骤来配置 Docker 的内存配置。

    警告

    如果在安装 Docker 时无意中选中了“使用 Windows 容器而不是 Linux 容器”选项,则不会看到内存配置设置。 若要修补此问题,可以通过单击 Windows 系统托盘中的 Docker 图标切换到使用 Linux 容器;Docker Desktop 菜单开启后,选择“切换到 Linux 容器”。

部署 HDP 沙盒

接下来,部署 HDP Sandbox,然后使用浏览器访问 HDP Sandbox。

  1. 确保已安装本指南的“先决条件”部分中列出的 Git Bash。 建议使用 Git Bash 来完成后续步骤。

  2. 使用Cloudera 对于 Docker 的部署和安装指南,完成以下部分中的步骤:

    • 部署 HDP 沙盒
    • 验证 HDP 沙盒

    警告

    下载 HDP 的最新 .zip 文件时,请确保不要将该 .zip 文件保存在包含空格的目录路径中。

    注意

    如果在部署过程中收到异常,指出“驱动器尚未共享”,则需要与 Docker 共享 C 盘,以便 HDP 的 Linux 容器可以访问本地 Windows 文件。 若要修补此问题,请单击 Windows 系统托盘中的 Docker 图标以开启 Docker Desktop 菜单并选择“设置”。 当“Docker 设置”对话框打开时,选择“资源”>“文件共享”,并选中 C 驱动器。 然后,可以重复这些步骤来部署 HDP 沙盒。

  3. 部署和运行 HDP Sandbox 的 Docker 容器后,可以通过启动浏览器来访问环境。 按照 Cloudera 的说明打开 Sandbox 欢迎页并启动 HDP 仪表板。

    注意

    这些说明假定你已首先将沙盒环境的本地 IP 地址映射到模板 VM 上的主机文件中的 sandbox-hdp.hortonworks.com。 如果不执行此映射,可以通过导航到 http://localhost:8080 来访问 Sandbox 欢迎页。

实验室用户登录时自动启动 Docker 容器

为了给实验室用户提供易用的体验,请创建自动执行以下操作的 PowerShell 脚本:

  1. 当实验室用户启动并连接到其实验室 VM 时,启动 HDP Sandbox Docker 容器。
  2. 启动浏览器并导航到 Sandbox 欢迎页。

当实验室用户登录到其 VM 时,使用 Windows 任务计划程序来自动运行此脚本。 若要设置任务计划程序,请遵循以下步骤:大数据分析脚本

成本估算

本部分提供为 25 位实验室用户运行此课堂的成本估算。 课程时间计划为 20 小时。 此外,每位用户会在计划课程时间之外获得 10 小时配额,用于完成家庭作业或课外作业。 我们选择的虚拟机大小是“中等(嵌套虚拟化)”,即 55 个实验室单位。

  • 25 个实验室用户 × (20 个计划小时 + 10 个配额小时) × 55 个实验室单位

重要

成本估算仅用于示例。 有关最新定价信息,请参阅 Azure 实验室服务定价

结束语

本文引导你完成了为大数据分析课程创建实验室的步骤。 大数据分析课程使用与 Docker 一起部署的 Hortonworks 数据平台。 此课程类型的设置可用于类似的数据分析课程。 此设置可能还适用于使用 Docker 进行部署的其他类型的课程。

后续步骤

现在可以将模板映像发布到实验室。 有关详细信息,请参阅发布模板 VM

设置实验室时,请参阅以下文章: