Azure Storage のテープ移行の概要
この記事では、テープ移行について説明します。 これは、さまざまなテープ メディアに格納されているデータを Azure Storage サービスに移行するプロセスを成功させるための簡略化、ガイダンス、考慮事項を提供することを目的としています。
概要
テープは、世界中のデータの大部分を格納し、依然として中心的役割を持つストレージ メディアの 1 つです。 テープ メディアは何十年も存続し、現在も毎年出荷される数百エクサバイトの新しいテープで多用されています。
テープは、コールド データを格納するための優れたメディアです。 連続した読み取りでは高速ですが、テープの読み取り、取り出し、テープ探しなどの機械的な動きを必要とする場面では低速になります。 これにより、従来のランダム ベースのアクセスではテープを使用できず、これが、現在テープに格納されているデータがほとんど使用されない主な理由です。 さらに、テープは特別な取り扱いを必要とする磁気媒体でもあります。 環境、特に温度と湿度に敏感です。 動作環境の範囲内で保存されているのであれば、高い耐久性と良好な復元成功率を達成できます。 ただし、不適切な環境で保存されていると、劣化が進むことが多く、テープが読み取り不能になることがあります。
テープの大部分は、ダーク データ (作成され、格納されるものの、特定の目的に使用されるわけではないデータ) を格納します。 ダーク データは、データ所有者に価値をもたらしません。 AI の能力とアクセシビリティの向上に伴い、この傾向は変化しつつあります。 お客様は、ダーク データを効率の向上、新しい収益源の開拓、競争上の優位性の向上に役立てる方法を探しています。 多くの組織が、ダーク データを有効活用するために、データをテープからクラウド ストレージに移行することを検討しています。 クラウド ストレージを使用すると、データの分析、ビジネス価値の抽出 (AI、機械学習、Azure Search などのサービスを使用) を容易にでき、長期保有のためにアーカイブ ストレージを利用してコストを削減できます。
テープからクラウドへの移行が増えている主な理由のいくつかを次に挙げます。
- ダーク データからビジネス価値を引き出します。
- データを長期保有して管理するために必要な労力を削減します。
- テープの世代間でテープを移行するプロセスを回避します。
- 特に古い世代のテープの場合、データ損失のリスクを軽減します。
- 現場から離れたテープ保管設備を置き換えます。
- ディザスター リカバリー プロセスが簡略化されます。
- AI や ML などの最新のツールを履歴データに適用します。
考慮事項
テープ移行プロセスを開始する前に、そのための選択肢を慎重に検討する必要があります。 最初の考慮事項は、移行の実行者を決定することです。 一般的に、次の 2 つの選択肢があります。
- お客様による移行の実施の場合、この移行はエンドツーエンドで実行されます。
- テープ移行パートナーの場合、お客様がテープをパートナーに送り、パートナーが移行プロセスを実行します。
アプローチ | 長所 | 短所 |
---|---|---|
お客様による移行の実施 | - データは現場に保持される - テープを配送するための輸送が不要 |
- ハードウェア リソースが必要 - 担当者の仕事が増える - テープの扱い関する特定の知識が必要 - コストを予測できない可能性 |
テープ移行パートナー | - シンプルな価格設定と事前にわかるコスト (テープ単位の支払い) - 運用環境への影響なし - 担当者への影響なし |
- テープを配送するための輸送が必要 - テープの配送にセキュリティ上の考慮が必要 - 移行中にデータを利用するために複数のコピーが必要 |
移行を実行するのがお客様かパートナーかに関する決定は、いくつかの主要な事項を考慮することで簡単に導き出せます。
リソース
リソースはテープ移行プロセスの最重要部分であり、次のカテゴリに分類されます。
カテゴリ | メモ |
---|---|
ユーザー | - 特定のスキル セットが必要 - プロセスは労働コストが高い |
ハードウェア | - テープの世代が異なると、異なる種類のハードウェアが必要 - 移行の速度は、使用可能なドライブとネットワーク帯域幅に比例 |
ソフトウェア | - データを作成したソフトウェアを使用できる必要がある - 暗号化キーにアクセスできる必要がある |
通常、ハードウェアが最も困難な部分です。 現行のテープ世代を移行する場合、ハードウェアは入手できるものの、既存の運用環境の一部として使用されています。 しかし、古い世代のテープでは、多くの場合にハードウェアの生産が終了し、入手が困難になります。 古い世代のテープの場合、テープ移行パートナーを使用するのが適切であり、簡単な選択肢でもあります。 運用環境のハードウェアを移行に使用する場合は、移行が運用環境のワークロードに干渉しないように注意深く計画する必要があります。 ここでは、次の 3 つの異なるモデルを適用できます。
- 移行に専用ハードウェアを使用: 最も単純な移行モデルであり、スケジュールを設定しやすく、運用環境に影響を与えない計画を立てられます。 使用できるハードウェアがない場合は、購入するためのコストが増え、移行後はハードウェア利用度は低くなります。
- 運用環境のハードウェアで時間外に移行を実施: 運用環境に影響を与えずにできる移行モデルです。 複雑なスケジュール設定、実行、担当者の勤務時間外の作業が必要です。 運用ハードウェアが 24 時間 365 日使用されているのでない場合にのみ、可能です。
- 運用環境を維持しつつ、同時に移行を実施: 運用環境に影響を与えやすいため、最も推奨されない移行モデルです。 このモデルでは、運用環境で使用できるハードウェアが減り、複雑なスケジュール設定と計画が必要になります。 このモデルを採用する場合、運用環境への影響を軽減するようにプロセスを組み立て、移行タイムラインを制御の範囲に収めることが重要です。 このモデルは、運用ハードウェアの使用度が低い場合にのみ推奨されます。
データ転送オプション
テープからデータを読み取った後は、データを Azure Storage に移動する必要があります。 データは、ネットワークまたは Azure Data Box などのオフライン デバイスを使用して移動できます。 データ転送のための選択肢の選択に影響を与える要素の一部を次に示します。
- 使用可能なネットワーク帯域幅
- 移行を完了するために必要なタイムライン
- データ変更の頻度
最適な選択肢を選ぶためのガイダンスについては、こちらをご覧ください。 ネットワーク転送は、より簡単で推奨される選択肢です。 ネットワークとオフラインの方法の組み合わせも可能ですが、移行されたデータが重複しないように、より詳細に計画する必要があります。
移行を実行するために使用可能なリソースがない場合、リソースの種類に関係なく、テープ移行パートナーを使用するのが唯一の選択肢です。 その場合は、次の 2 つの選択肢から選択できます。
- お客様の現場で実行される移行: テープ移行パートナーは、ハードウェアを出荷し、作業者を派遣し、お客様の事業所で作業を実行します。 お客様は、テープへのアクセス、機器の専用スペース、ネットワーク接続、Azure Storage サービスへのアクセスを提供する必要があります。 パートナーは、その他すべての作業に責任を負います。
- パートナーの現場で実行される移行: お客様はテープをパートナーに送付し、Azure Storage サービスへのアクセスを提供します。 テープ移行パートナーは、テープから Azure Storage にデータを移行するためのすべての作業を実行します。
2 番目の選択肢は、選ばれることが多い、より簡単な方法です。 テープ移行パートナーは、大規模なテープ移行を実行するように設計され装備された設備を持っています。 この選択肢を選ぶと、パートナーはより多くのハードウェア リソースを持っているため、リスクとタイムラインも軽減されます。 お客様の現場で移行の実施は、セキュリティ上やプライバシーの問題の懸念があるために、お客様がテープをパートナーに送付できない場合にのみ、選択できます。
Azure へのテープ移行を実行できるパートナーは複数あります。 パートナーの完全な一覧は、オフライン メディアのインポートで参照できます。
選択プロセスを促進するための簡単なフローチャートを次に示します。
データ形式
データ形式は移行の設計に大きな影響を与え、将来のデータの使いやすさに関連する重要な考慮事項です。 データは、独自の形式やネイティブの形式で格納できます。 独自の形式は、一般に仮想テープとして格納されます。 ネイティブの形式は、テープからファイルを復元でき、ファイルまたはオブジェクトとして格納できる形式である必要があります。
モデル | 長所 | 短所 |
---|---|---|
仮想テープ | - 移行が簡単で迅速 - 元のテープ メディアと同じテープ メディアを再作成可能 - データの書き込みに元のソフトウェアへのアクセスが不要 |
- 仮想テープ インベントリを維持する必要がある - アプリケーションに依存する形式で格納されたデータの場合、データを復元するための元のソフトウェアが必要 - データは復元せずには Azure サービス (AI/ML) からアクセスできない |
ネイティブ ファイル | - ファイルに任意のアプリケーションとサービス (AI/ML) からアクセスできる - データを収益化できる可能性が高まる - 復元のために元のソフトウェアへのアクセスは不要 |
- 移行がより複雑 - データの書き込みに元のソフトウェアへのアクセスが必要 |
形式を決定における主な基準は、データの使用方法です。 データが長期保有のみを目的として移行される場合、仮想テープが最適な選択肢です。 それ以外の場合は、ネイティブ形式でデータを格納することをお勧めします。 将来データを簡単に使用できるようになり、幅広いデータ分析の可能性が高まります。
移行プロセス
移行の実施方法と優先するデータ形式を決定したら、移行を開始できます。 移行はいくつかのフェーズを経て実施します。
情報フェーズ
情報フェーズは、主な要件を収集するために不可欠です。 収集された情報は、設計と計画が適切にできるためのガイドになります。 情報の一部は、後の段階で変更できますが、正確な情報を提供することで、状況を明確にでき、後でプロセスに大きな変更を加える必要がなくなります。 このフェーズで解決方法を考慮しておく必要がある重要な検討事項の一部を次に示します。
- 移行する必要があるテープの種類 (LTO3、LTO6、3592JC など)
- 移行する必要がある各モデルのテープの数量 (100xLTO3、200xLTO6 など)
- テープへのデータの書き込みに使用されたソフトウェア
- テープへのデータの書き込みに使用する形式。形式がオープンかどうか、独自の形式し、圧縮されるかどうか
- 暗号化は使用されているかどうか。暗号化されている場合、暗号化キーを交換するための最も安全な選択肢が何か
- 対象のリージョンが何か
- 使用するストレージ サービス
- 重要な規制要件 (HIPAA、GDPR など) 証拠保全が義務付けられているかどうか
- 移行の最終期限はいつか 重要なマイルストーンがあるかどうか
- 移行に使用できるネットワーク帯域幅
- テープの物理的保管場所とそれらが送付可能かどうか
- すべてのファイルのハッシュ値を既に取得しているかどうか している場合、使用するハッシュ アルゴリズム
- 移行後にテープが必要かどうか
- 移行または輸送中にテープの温度と湿度を維持する方法
- 主な利害関係者
準備フェーズ
基本情報を収集したら、移行の準備を行うことができます。 準備フェーズにはさまざまな手順を含めることができますが、ほとんどの移行で一般的な手順がいくつかあります。
データ分析: 移行する必要があるデータに関する情報を提供します。 テープからデータを読み取れる速度と、期限前に移行を正常に完了するために達成する必要がある並列処理の量を見積もるには、情報が不可欠です。 これは、必要なハードウェア (ライブラリ、ロボット、ドライブ) に関する見積もりに影響します。 データ分析は、移行するデータ セットを表す複数のテープをサンプリングすることによって行われます。 特定する必要がある一般的な情報は次のとおりです。
- ファイル サイズ、
- テープごとに格納されるデータ量、
- テープあたりのファイル数、
- 最小ファイル サイズと最大ファイル サイズ、
- ファイルの種類。
データ品質: 移行する必要がある最終的な一意のデータセットを見積もるのに役立ちます。 テープの移行に関する最もよくある問題の 1 つは、データの重複です。 テープの移行時は、重複したデータをクリーンアップするのに理想的なタイミングです。 この処理を行うことで、将来使用するデータ品質が向上し、コストが削減され、移行の期間が短縮されます。
データの優先順位付け: これに基づいてデータを移行できる順序が決まります。 テープの常時読み取り、取り出し、テープ探しを行わずに済むように、異なるテープからファイルをランダムに読み取るのでなく、各テープから直接のストリーミングを実現するのが理想的です。 この方法は、スループットが可能な限り高まり、どのような場合でも移行パスとして最速です。 データを優先順位付けることは、ビジネス要件であり、技術的に最適な結果を得ることを可能にします。
移行の設計: 移行のすべての技術的側面と、最終的な移行プロセスを形成するための情報収集が含まれます。 これは、後続の段階での信頼できる唯一の情報源になる公式情報です。 これには、少なくとも次のものが含まれている必要があります。
- 明確な移行プロセスと移行の期限、
- ハードウェアと担当者の要件、
- インフラストラクチャとネットワーク設計、
- セキュリティに関する考慮事項、
- 読み取れないテープの処置方法、
- ロールと責任など。
移行フェーズ
移行の設計が最終的に完了したら、移行プロセスを開始します。 移行ペースを本格的に上げる前に、最初は必ず小さなサンプルでテストを実行します。 このテストの目的は、エンドツーエンドのプロセスが機能するかどうかを確認することです。 こうすることで、調整を加え、プロセスを改善できます。 テストが成功し、結果に満足したら、移行を実施します。 ネイティブ ファイルを使用する場合と仮想テープを使用する場合では、移行フェーズは若干異なります。 どちらの場合も、すべてのテープを巻き取り、中身全体を読み取ることを繰り返すプロセスです。 このフローチャートは、ネイティブ ファイルに移行するときの移行フェーズを示しています。
データ検証
移行するファイルごとに、データ検証を実行して、移行プロセス中にデータが破損していないことを確認する必要があります。 データの検証は、移行前と移行後にハッシュ値を比較することによって行われます。 使用できるハッシュ アルゴリズムには、さまざまな種類があります。 Azure Storage には、移行中に入力できる定義済みのメタデータ フィールド Content-MD5 が含まれるため、MD5 を使用するのが一般的な方法です。 この方法では、データにアクセスするときに同じ MD5 値をチェックして、データが変更されおらず、破損していないことを検証できます。 理想的な状況は、移行後のハッシュ値と簡単に比較できるハッシュ値が、ソース データに既に含まれているものです。 ハッシュが存在しない場合は、ファイルを移行する前に計算する必要があります。 ハッシュが一致する場合、ファイルは移行済みとしてマークされます。 そうでない場合、ファイルは破棄され、データは再度移行されます。 場合によって、ソース テープのデータが破損することがあります。 元のハッシュ値を使用すると、このような数少ないケースを把握するのに役立ちます。 これが発生した場合は、2 つ目のコピーが存在すれば、データを読み取ることができます。 データ検証プロセスは、移行設計にとって重要な要素です。 失敗した検証を処理するプロセスを定義する必要があります。 また、移行フェーズを常に監視し、予測できない状況に対応し、それに適応できることを確認します。 移行を順調に進めるためには、主な利害関係者への定期的な報告が重要です。
移行後フェーズ
移行が完了したら、移行プロジェクトを正常に終了する前に、考慮する必要がある手順があと 2 つあります。 移行に使用されるハードウェアは、その後不要になった場合は破棄する必要があります。 最も重要な課題は、テープを破棄する方法です。 テープ廃棄は、2 段階のプロセスです。 テープは通常これに該当しますが、機密性の高い機密情報を格納している場合、まずデータを磁気消去する必要があります。 データを磁気消去すると、すべてのデータがメディアから磁気的に削除されます。 削除後に、テープを適切に破棄し、リサイクルする必要があります。 テープ移行パートナーを使用した場合は、パートナーにテープを安全に破棄してもらうこともできます。