你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 存储磁带迁移概述

本文重点介绍磁带迁移。 其目的是简化、提供指导和注意事项,以便成功将存储在各种磁带介质上的数据迁移到 Azure 存储服务。

概述

磁带存储大量的世界数据,并且仍然是主要的存储介质类型之一。 磁带介质已存在数十年,并且仍被广泛使用,每年都会交付数百 EB 的新磁带。

磁带是存储冷数据的绝佳介质。 它们在顺序读取方面速度很快,但需要机械移动(例如磁带的加载和卸载、磁带寻道等)的阶段速度较慢。 这使得磁带无法用于传统的随机访问,这也是至今很少使用存储在磁带上的数据的主要原因。 此外,磁带是一种需要特殊处理的磁介质。 它们对环境敏感,尤其是温度和湿度。 如果磁带保存在其工作环境范围内,它们可以实现高耐用性和良好的还原成功率。 但是,当磁带保存在不友好的环境中时,经常会发生质量下降,并导致磁带无法读取。

大部分磁带存储暗数据(创建和存储的数据,但不用于任何目的)。 暗数据不会给数据所有者带来任何价值。 随着 AI 功能和辅助功能的增加,这一趋势正在发生变化。 客户正在研究暗数据如何帮助他们提高效率、开辟新的收入来源或增强竞争优势。 为了利用暗数据,许多组织正在考虑将数据从磁带迁移到云存储。 云存储提供了一种简单的方法来分析数据、提取业务价值(使用 AI、机器学习、Azure 搜索等服务)或通过利用存档存储进行长期保留来降低成本。

我们看到磁带到云迁移增加的一些主要原因包括:

  • 从暗数据中提取业务价值,
  • 减少管理长期保留数据所需的工作量,
  • 避免从一代磁带到另一代磁带的迁移过程,
  • 降低数据丢失的风险,尤其是对于前几代磁带,
  • 更换非站点磁带存储设施,
  • 简化灾难恢复过程,
  • 将 AI 和 ML 等新式工具应用于历史数据。

注意事项

在磁带迁移过程开始之前,必须仔细考虑选项。 首先考虑的是决定谁执行迁移。 通常使用两个选项:

  • 客户执行迁移:客户执行端到端迁移,
  • 磁带迁移合作伙伴:客户将磁带交付给合作伙伴,合作伙伴执行迁移过程。
方法 优点 缺点
客户执行迁移 - 数据永远不会离开站点
- 无需物流运送磁带
- 需要硬件资源
- 给人员带来更多工作
- 需要处理磁带方面的专业知识
- 可能的未知成本
磁带迁移合作伙伴 - 定价简单,预付已知费用(按磁带付费)
- 对生产没有影响
- 对人员没有影响
- 需要物流运送磁带
- 由于运送磁带,需要安全注意事项
- 迁移期间需要多个副本以确保数据可用性

几个主要注意事项可以轻松地指导我们决定谁可以执行迁移,客户还是合作伙伴。

资源

资源是磁带迁移过程中最重要的部分,我们将其分为以下几类:

类别 备注
People - 需要特定的技能集
- 流程是劳动密集型
硬件 - 不同代的磁带需要不同类型的硬件
- 迁移速度与可用驱动器和网络带宽成正比
软件 - 需要访问创建数据的软件
- 需要访问加密密钥

硬件通常是最具挑战性的部分。 如果我们要迁移现有的几代磁带,则硬件可用,但要作为现有产品的一部分使用。 但对于前几代的磁带来说,硬件通常已经过时,而且很难获得。 对于前几代的磁带,使用磁带迁移合作伙伴是首选且更简单的选项。 当使用生产硬件进行迁移时,需要仔细规划,以确保迁移不会干扰生产工作负载。 在这里,我们可以应用三种不同的模型:

  1. 使用专用硬件进行迁移:最简单的迁移模型,易于安排和计划,不会影响生产。。 它增加了获取硬件的成本(如果尚未提供),并导致迁移后的硬件利用率低。
  2. 在生产硬件上运行非工作时间迁移:迁移模型不影响生产。 需要复杂的调度、执行和人员非工作时间工作。 仅当生产硬件未全天候使用时才有可能。
  3. 同时运行生产和迁移:最不推荐的迁移模型,因为它很容易影响生产。 此模型模型减少了可用于生产的硬件,需要复杂的调度和计划。 如果使用此模型,则减少对生产的影响的流程对于控制迁移时间线至关重要。 仅当生产硬件利用率较低时,才建议使用此模型。

数据传输选项

从磁带读取数据后,需要将数据迁移到 Azure 存储。 可以使用网络或脱机设备(例如 Azure Data Box)迁移数据。 影响数据传输选项选择的一些参数包括:

  • 可用网络带宽
  • 完成迁移所需的时间线
  • 数据更改的频率

此处了解有关选择最佳选项指南的详细信息。 网络传输更简单,是首选选项。 还可以组合网络和脱机方法,但需要更多规划,以确保迁移的数据不会重叠。

如果没有可用的资源来执行迁移,无论哪种类型的资源,我们唯一的选择是使用磁带迁移合作伙伴。 在这种情况下,可以在两个选项中进行选择:

  1. 在客户站点执行迁移:磁带迁移合作伙伴运送硬件、雇用人员并在客户位置执行工作。 客户需要提供对磁带的访问权限、设备专用空间、网络连接以及对 Azure 存储服务的访问权限。 合作伙伴负责所有其他活动。
  2. 在合作伙伴的站点执行迁移:客户将磁带运送给合作伙伴,并提供对 Azure 存储服务的访问权限。 磁带迁移合作伙伴执行将数据从磁带迁移到 Azure 存储的所有工作。

第二个选项更容易,更常用。 磁带迁移合作伙伴拥有专门设计和配备用于大规模执行磁带迁移的设施。 由于合作伙伴拥有更多可用的硬件资源,此选项还可以降低风险和缩短时间线。 仅当出于安全和隐私考虑不允许客户将磁带运送给合作伙伴时,才会在客户站点执行迁移。

多个合作伙伴可以执行到 Azure 的磁带迁移。 完整的合作伙伴列表可以在脱机介质导入中找到。

下面是一个简单的流程图,用于简化选择过程。 显示磁带迁移选择过程的图表。

数据格式

数据格式对迁移设计有很大影响,并且是未来数据可用性的关键考虑因素。 数据可以采用专有格式或本机格式存储。 专有格式通常存储为虚拟磁带。 本机格式需要从磁带还原文件,并将其存储为文件或对象。

模型 优点 缺点
虚拟磁带 - 迁移更容易、速度更快
- 可以重新创建与原始磁带介质相同的磁带介质
- 无需访问原始软件来写入数据
- 需要维护虚拟磁带清单
- 以应用程序相关的格式存储数据,需要原始软件来还原数据
- 如果不进行还原,Azure 服务 (AI/ML) 将无法访问数据
本机文件 - 任何应用程序和服务 (AI/ML) 都可以访问的文件
- 可以通过数据盈利
- 无需访问原始软件进行还原
- 迁移更复杂
- 需要访问原始软件来写入数据

决定格式的主要标准是我们计划使用数据的方式。 如果仅迁移数据以供长期保留,则虚拟磁带是一个很好的选择。 在任何其他情况下,以本机格式存储数据是首选选项。 它允许将来简单使用数据,并通过数据分析开辟许多可能性。

迁移过程

决定执行迁移和首选数据格式后,即可开始迁移。 迁移要经过多个阶段。 显示磁带迁移阶段的示意图。

信息阶段

信息阶段对于收集关键要求至关重要。 收集的信息指导正确的设计和规划。 尽管某些信息可以在后续阶段更新,但提供精确的信息可以设定场景,并避免对流程进行巨大的更改。 此阶段需要回答的一些关键问题包括:

  • 需要迁移哪些类型的磁带(例如 LTO3、LTO6、3592JC 等)?
  • 每个型号需要迁移的磁带数量(例如 100xLTO3、200xLTO6 等)?
  • 使用什么软件将数据写入磁带,该软件是否还可以使用?
  • 在磁带上写入数据的格式是什么,是开放格式还是专有格式,是否应用了压缩?
  • 是否使用了加密,如果是,则交换加密密钥最安全的选项是什么?
  • 目标区域是什么?
  • 使用哪种存储服务?
  • 哪些监管要求至关重要(HIPAA、GDPR 等)? 监管链是否是必需的?
  • 何时是迁移的最后期限? 是否有关键里程碑?
  • 有多少网络带宽可用于迁移?
  • 磁带实际存储在哪里?是否可以运送?
  • 是否已有所有文件的哈希值? 如果是,则使用哪种哈希算法?
  • 迁移后是否需要磁带?
  • 如何在迁移/传输期间保持磁带的温度和湿度?
  • 谁是主要利益干系人?

准备阶段

收集基本信息后,可以准备迁移。 准备阶段可以包括许多不同的步骤,但大多数迁移都会经历一些共同的步骤:

  1. “数据分析”提供有关需要迁移的数据的信息。 这些信息对于估计从磁带读取数据的速度以及我们需要实现多少并行度才能在最后期限之前成功完成迁移至关重要。 它会影响对所需硬件(库、自动程序、驱动器)的估计。 数据分析是通过对代表要迁移的数据集的多个磁带进行采样来完成的。 我们要寻找的典型信息包括:

    • 文件大小,
    • 每个磁带存储的数据量,
    • 每个磁带的文件数,
    • 最小和最大文件大小,
    • 文件类型。
  2. “数据质量”有助于估计需要迁移的最终和唯一的数据集。 磁带迁移最常见的问题之一是数据重复。 磁带迁移是清理重复数据的理想时间。 此过程可提高未来使用的数据质量,降低成本并缩短迁移持续时间。

  3. “数据优先级”决定数据迁移的顺序。 理想情况下,我们希望实现从每个磁带直接进行流式处理,而不是从不同的磁带随机读取文件(以避免不断的加载、卸载和寻道)。 此方法可实现最高的吞吐量,并且始终是最快的迁移路径。 数据优先级需要考虑业务需求和技术可行性才能取得最佳结果。

  4. “迁移设计”包括迁移的所有技术方面,以及收集的信息以形成最终的迁移过程。 它是一个书面文档,可供剩余阶段核实信息。 此文档必须至少包含以下各项:

    • 清除迁移过程和迁移最后期限,
    • 硬件和人员要求,
    • 基础结构和网络设计,
    • 安全注意事项,
    • 处理不可读磁带的方法,
    • 角色和职责等。

迁移阶段

迁移设计完成后,我们将开始迁移过程。 在加快全面迁移速度之前,我们总是先使用较小的样本进行测试。 测试的目标是确保端到端进程正常工作。 它使我们能够进行调整并改进流程。 测试成功后,我们对结果感到满意,将执行迁移。 如果我们使用本机文件与虚拟磁带,迁移阶段会略有不同。 在这两种情况下,迁移都是一个重复的过程,遍历所有磁带并读取其全部内容。 此流程图显示迁移到本机文件时的迁移阶段。 显示迁移阶段详细信息的流程图。

数据验证

对于我们迁移的每个文件,我们需要执行数据验证,以确保数据在迁移过程中未损坏。 数据验证是通过比较迁移前和迁移后的哈希值来完成的。 可以使用许多类型的哈希算法。 一种常见方法是使用 MD5,因为 Azure 存储包含可在迁移过程中填充的预定义元数据字段 Content-MD5。 此方法允许我们在访问数据时检查相同的 MD5 值,以验证数据未更改或损坏。 在理想情况下,源数据已包含哈希值,可以轻松地与迁移后的哈希值进行比较。 如果不存在哈希值,则必须在迁移文件之前进行计算。 如果哈希值匹配,则会将文件标记为已迁移。 否则,文件将被丢弃,并再次迁移。 有时,源磁带上的数据已损坏。 拥有原始哈希值有助于捕获这些不常见的情况。 如果发生这种情况,我们可以从辅助副本读取数据(如果存在)。 数据验证流程是迁移设计的关键部分。 必须定义处理失败验证的流程。 迁移阶段也会受到持续监控,以确保我们能够对不可预知的情况做出反应,并适应这种情况。 定期向主要利益干系人报告对于确保迁移按计划进行非常重要。

迁移后阶段

迁移完成后,在成功结束迁移项目之前,我们仍需要考虑几个步骤。 我们需要处理不再需要的用于迁移的硬件。 最重要的问题是如何处置磁带。 磁带处置流程包含两个步骤。 如果磁带存储了敏感和机密信息(通常确实如此),则必须先对其进行消磁。 消磁可确保所有数据从介质中磁性删除。 删除后,需要正确销毁磁带并回收。 如果使用磁带迁移合作伙伴,还可以让合作伙伴安全地处置磁带。

后续步骤