你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

教程:使用数据复制服务将数据复制到 Azure Data Box(预览)

本教程介绍如何在不使用中间主机的情况下,使用数据复制服务引入数据。 数据复制服务在 Microsoft Azure Data Box 本地运行,通过 SMB 连接到网络连接存储 (NAS) 设备,并将数据复制到 Data Box。

数据复制服务:

  • 可在中间主机不可用的 NAS 环境中使用。
  • 可用于复制需要花费数周时间来引入和上传其中数据的小型文件。 数据复制服务能够大幅缩减小型文件的引入和上传时间。

在本教程中,你将了解如何执行以下操作:

  • 将数据复制到 Data Box

先决条件

在开始之前,请确保:

  1. 已完成以下教程:设置 Azure Data Box
  2. 已收到 Data Box 设备,并且门户中的订单状态为“已送达”。
  3. 具有复制数据时要连接的源 NAS 设备的凭据。
  4. 已连接到高速网络。 我们强烈建议你至少建立一个 10-Gb 以太网 (GbE) 连接。 如果 10-GbE 连接不可用,可以使用 1-GbE 数据链路,但复制速度会受影响。

将数据复制到 Data Box

连接到 NAS 设备之后,下一步是复制数据。 在开始复制数据之前,请查看以下注意事项:

  • 复制数据时,请确保数据大小符合 Azure 存储和 Data Box 限制一文中所述的大小限制。

  • 如果 Data Box 上传的数据同时已由 Data Box 外部的其他应用程序上传,则可能会导致上传作业失败和数据损坏。

  • 如果数据复制服务读取数据时数据正在修改,则可能会出现失败或数据损坏的情况。

重要

请确保保留源数据的副本,直到可以确认 Data Box 已将数据传输到 Azure 存储中为止。

若要使用数据复制服务复制数据,需要创建一个作业:

  1. 在 Data Box 设备的本地 Web UI 中,转到“管理”>“复制数据”。

  2. 在“复制数据”页上,选择“创建”。

    在“复制数据”页上选择“创建”

  3. 在“配置作业并启动”对话框中填写以下字段:

    字段
    作业名称 作业的唯一名称,少于 230 个字符。 作业名称中不允许以下字符:<、>、|、?、*、\、:、/ 和 \。
    源位置 使用 \\<ServerIPAddress>\<ShareName>\\<ServerName>\<ShareName> 格式提供数据源的 SMB 路径。
    用户名 用于访问数据源的用户名,采用 \\<DomainName><UserName> 格式。 如果本地管理员正在连接,他们将需要显式的安全权限。 右键单击文件夹,选择“属性”,然后选择“安全性”。 这应该会在“安全性”选项卡中添加本地管理员。
    密码 用于访问数据源的密码。
    目标存储帐户 从列表中选择要将数据上传到的目标存储帐户。
    目标类型 从列表中选择目标存储类型:“块 Blob”、“页 Blob”、“Azure 文件存储”或“块 Blob (存档)”。
    目标容器/共享 输入目标存储帐户中要将数据上传到的容器或共享的名称。 该名称可以是共享名称或容器名称。 例如,使用 mysharemycontainer。 也可以输入 sharename\directory_namecontainername\virtual_directory_name 格式的名称。
    复制文件匹配模式 可按以下两种方式输入文件名匹配模式:
    • 使用通配符表达式: 通配符表达式中仅支持 *?。 例如,表达式 *.vhd 匹配扩展名为 .vhd 的所有文件。 类似地,*.dl? 匹配扩展名为 .dl 或以 .dl 开头的所有文件,例如 .dll。 同理,*foo 匹配名称以 foo 结尾的所有文件。
      可以直接在该字段中输入通配符表达式。 默认情况下,在该字段中输入的值被视为通配符表达式。
    • 使用正则表达式: 支持基于 POSIX 的正则表达式。 例如,正则表达式 .*\.vhd 匹配扩展名为 .vhd 的所有文件。 对于正则表达式,请直接提供 <pattern> 作为 regex(<pattern>)。 有关正则表达式的详细信息,请转到正则表达式语言 - 快速参考
      文件优化 启用此功能后,引入期间会打包小于 1 MB 的文件。 打包可以加快小型文件的数据复制速度。 如果文件数远远超出目录数,则打包还可以显著节省时间。
      如果使用文件优化:
      • 运行“准备交付”后,可以下载 BOM 文件(其列出了原始文件名),以帮助确保已复制所有正确的文件。
      • 请勿删除文件名以“ADB_PACK_”开头的打包文件。 如果删除已打包的文件,则在将来复制数据时不会上传原始文件。
      • 请勿通过 SMB、NFS 或 REST API 等其他协议复制通过复制服务复制的相同文件。 使用不同的协议可能会导致在数据上传过程中发生冲突和失败。
      • Azure 文件存储不支持文件优化。 若要查看针对未优化的数据复制作业复制了哪些时间戳、文件属性和 ACL,请查看传输的元数据
    • 选择“开始”。 随后会验证输入,如果验证成功,则启动某个作业。 启动该作业可能需要花费几分钟时间。

      从“配置作业并启动”对话框启动作业

    • 将创建一个使用指定设置的作业。 可以暂停、恢复、取消或重启作业, 选中作业名称旁边的复选框,然后选择相应的按钮即可。

      在“复制数据”页上管理作业

      • 如果某个作业在高峰期会影响 NAS 设备的资源,可将其暂停:

        在“复制数据”页上暂停作业

        进入非高峰期后,可以恢复作业:

        在“复制数据”页上恢复作业

      • 随时可以取消作业:

        在“复制数据”页上取消作业

        取消作业时需要确认:

        确认取消作业

        如果决定取消作业,已复制的数据不会删除。 若要删除已复制到 Data Box 设备的所有数据,请重置设备。

        重置设备

        注意

        如果取消或暂停作业,大型文件可能只复制了一部分。 这些部分复制的文件将以相同的状态上传到 Azure。 取消或暂停作业时,请确保文件已正常复制。 若要验证这些文件,请查看 SMB 共享或下载 BOM 文件。

      • 如果网络假死等暂时性错误导致作业失败,可以重启作业。 但是,如果作业已达到终结状态(例如,状态为“成功”或“已完成但出错”),则无法重启该作业。 作业失败可能是文件命名或文件大小问题造成的。 系统会记录这些错误,但作业完成后,便无法将其重启。

        重启失败的作业

        如果遇到失败并且无法重启作业,请下载错误日志,并查看日志文件中的失败。 更正问题后,创建新的作业来复制文件。 也可以通过 SMB 复制文件

      • 在此版本中无法删除作业。

      • 可以创建无限个作业,但在任意给定时间,最多只能同时运行 10 个作业。

      • 如果启用了“文件优化”,则引入时会打包小型文件,以提高复制性能。 在这种情况下,你会看到一个打包的文件(GUID 为文件名)。 请不要删除此文件。 此文件会在上传过程中解包。

    • 当作业正在进行时,在“复制数据”页上:

      • 在“状态”列中,可以查看复制作业的状态。 状态可以为:
        • 正在运行
        • 失败
        • 成功
        • 正在暂停
        • 已暂停
        • 正在取消
        • 已取消
        • 已完成但出错
      • 在“文件”列中,可以看到正在复制的文件的数目和总大小。
      • 在“已处理”列中,可以看到已处理的文件的数目和总大小。
      • 在“作业详细信息”列中,选择“查看”可以查看作业详细信息。
      • 如果在复制过程中出现了“错误数”列中所示的任何错误,请转到“错误日志”列,并下载错误日志以用于故障排除。

    等待复制作业完成。 由于某些错误仅记录在“连接并复制”页上,因此,在转到下一步骤之前,请确保复制作业已完成且未出错。

    “连接并复制”页上未显示错误

    为确保数据完整性,复制数据时将以内联方式计算校验和。 复制完成后,选择“查看仪表板”以检查设备上的已用空间和可用空间。

    在仪表板上检查可用空间和已用空间

    复制作业完成后,可以选择“准备交付”。

    注意

    复制作业正在进行时,无法运行“准备交付”。

    后续步骤

    请继续学习下一篇教程,了解如何将 Data Box 设备寄回 Microsoft。