何时使用 Azure Data Box 设备系列

已完成

Azure Data Box 设备系列中的设备并不是将数据导入 Azure 的唯一方法。 对于自动驾驶车辆数据,需确保 Data Box Disk 是你下订单前的最佳选择。

在本单元中,了解何时使用 Data Box 设备,以及何时使用其他某解决方案。

Data Box 设备的用例

Data Box 非常适合在网络连接受限或没有网络连接的情况下传输数 TB 的数据。 数据移动的方式可以是一次性的、定期的,或者先执行批量数据传输,再定期传输。

下面是可以使用 Data Box 设备将数据导入 Azure 的各种场景。

  • 一次性迁移 - 将大量本地数据移动至 Azure 时。

    • 将媒体库从脱机磁带移动到 Azure 以创建联机媒体库。
    • 将 VM 场、SQL server 和应用程序迁移到 Azure。
    • 将历史数据移至 Azure,以便使用 HDInsight 进行深入分析和报告。
  • 初始批量转移 - 使用 Data Box(种子)完成初始批量传输,然后通过网络进行增量传输。

  • 定期上传 - 定期生成大量数据,并需要将这些数据移动到 Azure。 例如,在能源勘探领域,会定期生成有关石油钻塔和风力发电机场的视频内容。

下面是可以使用 Data Box 从 Azure 导出数据的各种场景。 Data Box Disk 和 Data Box Heavy 不支持从 Azure 导出数据。

  • 灾难恢复 - 将来自 Azure 的数据副本还原到本地网络。 在典型的灾难恢复场景中,大量 Azure 数据将导出到 Data Box。 Microsoft 随后会发送此 Data Box,数据很快就会在本地还原。

  • 安全要求 - 需要能够根据政府要求或安全要求将数据从 Azure 导出。 例如,Azure 存储在 US Secret 和 Top Secret 云中可用时,你可以使用 Data Box 从 Azure 导出数据。

  • 迁移回本地或其他云服务提供商 - 想要将所有数据移回本地或其他云服务提供商时,可通过 Data Box 导出数据以迁移工作负载。

脱机传输选项

用于将数据移到 Azure 的脱机选项包括 Data Box 设备和 Azure 导入/导出。

Data Box 设备

若要将数据导入 Azure,可以将数据加载到物理设备,并将设备寄送到 Azure 数据中心。 在那里,数据会复制到 Azure 订阅中。 正如第 2 单元所述,有三种 Data Box 产品以这种方式工作:

  • Data Box
  • Data Box Disk
  • Data Box Heavy

如果你所在的区域不受 Azure Data Box 设备系列支持,建议使用 Azure 导入/导出将数据导入 Azure。

Azure 导入/导出

使用物理设备将数据传输到 Azure 的另一项服务是 Azure 导入/导出。 使用 Azure 导入/导出时,可以使用自己的磁盘。 可以将数据从 Blob 存储脱机传输到磁盘。 Azure 导入/导出还将数据从 Azure 导出回你自己的数据中心,并且允许数据跨越国际边界。

使用 Azure 导入/导出来导入数据的设置过程,比 Azure Data Box 设备系列要难。 你需要处理所有送货详细信息和设备准备工作。 建议使用 Azure Data Box,这是一项完全不用由自己动手的服务,它可最大限度地减少将大量数据以便宜、安全的方式迁移到 Azure 所需的工作量。

网络传输选项

将数据导入 Azure 的另一种方法是通过 Internet 发送数据。 还可以使用几种工具通过网络传输数据。

Data Box Gateway

如第 2 单元所述,Data Box Gateway 是一种虚拟设备。 它基于你在本地环境中预配的虚拟机。 你使用 NFS 和 SMB 协议将数据写入虚拟设备。 然后,设备会将你的数据传输到 Azure 块 blob、页 blob 或 Azure 文件。

Azure 存储资源管理器

Azure 存储资源管理器是可下载的免费应用程序,可以在 Windows、Mac 或 Linux 上运行。 它提供图形用户界面 (GUI),可用于浏览 Azure 存储帐户中的 blob、文件、队列和表。 如果一次只传输几个文件,并且无需自动传输,那么存储资源管理器是理想的解决方案。

如果你不希望安装应用程序,但有浏览器,可以使用 Azure 门户中的“存储资源管理器”页传输文件。

Azure Stack Edge

Azure Stack Edge 也使用物理设备将数据传输到 Azure。 与 Data Box 设备不同,Azure Stack Edge 设备会将 Azure 功能(例如计算、存储、网络以及硬件加速的机器学习)提供给任何边缘位置。 以下场景请使用 Azure Stack Edge 设备:

  • 使用 Azure 机器学习进行推理 - 运行 ML 模型以获得在将数据发送到云之前可以进行处理的快速结果。 可以选择传输完整的数据集以继续重新训练并优化 ML 模型。

  • 预处理数据 - 在将数据发送到 Azure 之前通过计算选项(如容器或虚拟机)转换数据,以创建更具操作性的数据集。 可以使用预处理来执行以下操作:

    • 聚合数据。
    • 修改数据,例如删除个人数据。
    • 用于优化存储和带宽,或用于进一步分析的子集数据。
    • 分析和应对 IoT 事件。
  • 通过网络将数据传输到 Azure - 轻松快速地将数据传输到 Azure,以便进行进一步的计算和分析,或进行存档。

Azure 数据工厂

Azure 数据工厂是一项服务,使用它可以组织、移动和转换来自许多不同来源的大量数据。 在数据工厂中,可以创建从关系数据库、NoSQL 数据库和其他系统引入数据的数据管道。 可以使用 Azure 机器学习、Hadoop、Spark 和其他服务来处理和转换相应数据。 然后,在管道末尾,可以将转换的数据发布到 Azure SQL 数据仓库、Azure SQL 数据库、Azure Cosmos DB 和 Azure 存储。

如果有复杂数据转换需求,但又不想编写脚本或编译代码,可以使用此服务。

脚本化或编程传输

Microsoft 提供了一系列经过优化的命令行工具,可以使用单个命令进行调用,也可以将其汇集到脚本中,这样可将数据移动到 Azure 中。 这些工具包括:

  • AzCopy。 可以通过任何脚本调用此命令行工具,将 blob 或文件传输到 Azure 存储帐户。
  • Azure PowerShell。 PowerShell 是一个脚本接口和语言,旨在帮助管理员通过运行 cmdlet 命令来自动执行复杂的任务。 Azure PowerShell 模块提供了一系列适用于 Azure 的 cmdlet。 其中包括,可用于将数据上传到 Azure 存储帐户、Azure SQL 数据库、Azure Cosmos DB 和其他目标的 cmdlet。 例如,若要将文件上传到 Azure 存储 blob,请使用 Set-AzStorageBlobContent cmdlet。
  • Azure CLI。 Azure CLI 是一种命令行工具,可以通过 PowerShell 和 Bash 脚本来调用它,以用于 Azure。 它包括可以将数据迁移到 Azure 位置的选项。 例如,使用命令 az storage blob upload 可以将文件上传到 Azure 存储 blob。

管理员和非开发人员可以轻松使用脚本工具。 如果有人拥有能够编写编译代码的开发人员技能,可以考虑使用编程语言来安排向 Azure 进行数据传输。 代码必须调用 Azure 存储表述性状态转移 (REST) 应用程序编程接口 (API)。 REST API 是一组可从多种不同编程语言调用的 Web 服务。 开发人员可以使用 .NET 语言、Java、Python、Node.js、C++、PHP 和其他许多语言来调用这些 API。 开发人员可以选择最常用的语言。

选择数据传输方法

若要从这些系统中选择传输方法,请考虑以下问题:

  • 数据大小是多少?
  • 我希望多久传输一次数据?
  • 有多少网络带宽可用?

如果需要偶尔传输几个文件,可以选择 Azure 存储资源管理器或使用 Azure 门户。

如果网络带宽较低或使用成本较高,并且有大量数据,可以使用物理设备来传输数据。 若要使用你自己的磁盘,请选择 Azure 导入/导出。 如果你觉得使用 Microsoft 硬件更得心应手,请选择 Azure Data Box 产品。 根据数据量上限,可以在 Data Box、Data Box Disk 和 Data Box Heavy 之间进行选择。

如果你有足够的可用网络带宽,并且想要定期或持续传输数据,可以选择网络传输方法。 若要在传输数据时转换数据,而不使用代码,建议使用 Azure 数据工厂。 如果你可以投入时间,并拥有代码编写技能,可以使用脚本工具或针对 REST API 开发的编译代码。 若要通过网络传输大型数据集,并且可用带宽较高,可以选择 Data Box Gateway 或 Azure Stack Edge 设备。

适用于自动驾驶车辆的数据传输

你的组织需要以一种相对便宜、安全、且不占用网络的方式将自动驾驶汽车遥测数据上传到 Azure。 该场景是 Azure Data Box Disk 的一个主要用例。

可以将 Azure Data Box Disk 用于不同类型的数据传输场景。 Azure Data Box Disk 适用于一次性迁移,例如将多达 35 TB 的数据从脱机磁带迁移到 Azure 冷存储。 若要上传超过 35TB 的数据,可以创建额外订单。 同样值得回顾一下在第 1 单元中了解的其他 Data Box 设备系列选项,因为可能有更适合的候选方法。 增量传输也很有用。 Data Box Disk 用于提供初始的大型种子,在此之后,不断增加的更多数据使用标准网络技术进行复制。

知识检查

1.

如果网络带宽适中或较高,哪种数据导入方法最适合导入日常交通摄像机视频数据?

2.

通过 Azure Data Box Disk 一次操作最多可以将多少数据量传输到 Azure?

3.

你的数据中心内的智能设备和应用程序生成了大量数据。 你希望在将数据迁移到 Azure 以进行更深入分析之前,对数据执行基于机器学习的快速推断。 你将使用哪种设备?