Teilen über


Übersicht über die Azure Storage-Bandmigration

Der Schwerpunkt dieses Artikels liegt auf Bandmigrationen. Ziel ist es, eine erfolgreiche Migration von auf verschiedenen Bandmedien gespeicherten Daten zu Azure Storage-Diensten zu vereinfachen und einen Leitfaden sowie Überlegungen hierzu bereitzustellen.

Übersicht

Bänder speichern einen Großteil der Daten weltweit und zählen weiterhin zu den vorherrschenden Speichermedien. Bandmedien existieren seit Jahrzehnten und werden immer noch häufig für Hunderte von Exabyte neuer Bänder verwendet, die jedes Jahr versandt werden.

Bänder sind ein hervorragendes Medium zum Speichern kalter Daten. Sie erlauben ein schnelles sequenzielles Lesen, wohingegen Phasen, die mechanische Bewegungen wie das Laden und Entladen von Bändern oder Bandsuchen erfordern, langsamer sind. Dadurch erweisen sich Bänder für den traditionellen, zufälligen Zugriff als unbrauchbar. Das ist der Hauptgrund dafür, dass auf Bändern gespeicherte Daten selbst heutzutage selten verwendet werden. Darüber hinaus handelt es sich beim Band um ein magnetisches Medium, das eine spezielle Handhabung erfordert. Bänder sind empfindlich gegenüber ihrer Umgebung – sie sind insbesondere temperatur- und feuchtigkeitsempfindlich. Innerhalb des Bereichs ihrer Betriebsumgebung können sie eine hohe Haltbarkeit und Erfolgsquote für die Wiederherstellung erzielen. Umgebungen mit widrigen Umständen rufen jedoch häufig eine Verschlechterung hervor, durch die das Band unlesbar wird.

Ein Großteil der Bänder speichert Dark Data. Dabei handelt es sich um Daten, die erstellt und gespeichert werden, jedoch für keinen Zweck verwendet werden. Daten in Form von Dark Data sind für den Besitzer der Daten wertlos. Durch die zunehmende Funktionalität und die erhöhte Zugänglichkeit von künstlicher Intelligenz ändert sich dieser Trend. Kunden möchten mehr darüber zu erfahren, wie Dark Data sie dabei unterstützen kann, ihre Effizienz zu steigern, neue Umsatzströme zu generieren oder ihren Wettbewerbsvorteil auszubauen. Um Dark Data nutzen zu können, ziehen viele Organisationen die Migration der Daten von Bändern zum Cloudspeicher in Betracht. Der Cloudspeicher bietet eine einfache Möglichkeit zum Analysieren der Daten oder zum Extrahieren des Geschäftswerts unter anderem mit Diensten wie KI, Machine Learning oder Azure Search. Zudem bietet er durch die Nutzung des Archivierungsspeichers für die Langzeitaufbewahrung eine einfache Möglichkeit zur Kostensenkung.

Einige der Hauptgründe für die Zunahme der Migrationen vom Band zur Cloud sind folgende:

  • Extrahieren des Geschäftswerts aus Dark Data
  • Verringern des Aufwands für die Verwaltung von Daten mit Langzeitaufbewahrung
  • Vermeiden des Migrationsprozesses von einer Bandgeneration zu einer anderen
  • Verringern des Risikos für Datenverluste, insbesondere bei älteren Bandgenerationen
  • Ersetzen externer Bandspeichereinrichtungen
  • Vereinfachen der Prozesse für die Notfallwiederherstellung
  • Anwenden moderner Tools wie KI und ML auf historische Daten

Überlegungen

Vor einem Bandmigrationsprozess müssen die Optionen sorgfältig abgewogen werden. Die erste Überlegung liegt in der Entscheidung, wer die Migration durchführt. Häufig werden zwei Optionen verwendet:

  • Migration durch den Kunde: Dabei führt der Kunde die Migration vollständig durch.
  • Bandmigration durch einen Partner: Dabei sendet der Kunde die Bänder zum Partner, der den Migrationsprozess durchführt.
Vorgehensweise Vorteile Nachteile
Migration durch den Kunden – Daten verlassen niemals den Standort
– Keine Logistik für den Versand der Bänder
– Erfordert Hardwareressourcen
– Mehr Arbeit für das Personal
– Erfordert für den Umgang mit Bändern spezifisches Wissen
– Mögliche unbekannte Kosten
Bandmigration durch einen Partner – Einfache Preisgestaltung und vorab bekannte Kosten (bezahlt pro Band)
– Keine Auswirkungen auf die Produktion
– Keine Auswirkungen auf das Personal
– Erfordert Logistik für den Versand der Bänder
– Überlegungen zur Sicherheit, die aufgrund des Versands der Bänder erforderlich sind
– Mehrere Kopien, die für die Datenverfügbarkeit während der Migration erforderlich sind

Mehrere wichtige Überlegungen können die Entscheidung vereinfachen, wer die Migration durchführen kann – der Kunden oder der Partner.

Ressourcen

Ressourcen stellen den wichtigsten Teil des Bandmigrationsprozesses dar. Sie werden in die folgenden Kategorien aufgeteilt:

Kategorie Hinweise
Personen – Spezifische Fähigkeiten sind erforderlich.
– Der Prozess ist arbeitsintensiv.
Hardware – Unterschiedliche Bandgenerationen erfordern unterschiedliche Hardwaretypen.
– Die Geschwindigkeit der Migration ist relativ zu den verfügbaren Laufwerken und der Netzwerkbandbreite.
Software – Der Zugriff auf Software, die die Daten erstellt hat, ist erforderlich.
– Der Zugriff auf Verschlüsselungsschlüssel ist erforderlich.

Hardware stellt in der Regel die größte Herausforderung dar. Hardware ist zwar für eine Migration der vorhandenen Bandgenerationen verfügbar, jedoch wird diese als Teil der vorhandenen Produktion verwendet. Die Hardware für ältere Bandgenerationen hat oft das Ende der Lebensdauer erreicht und ist schwieriger zu erwerben. Bei älteren Bandgenerationen stellt der Einsatz eines Bandmigrationspartners eine bevorzugte und einfachere Option dar. Wenn Produktionshardware für Migrationen verwendet wird, ist eine sorgfältige Planung erforderlich, damit die Produktionsworkloads nicht durch die Migration beeinträchtigt werden. Hierzu können drei verschiedene Modelle anwendet werden:

  1. Verwenden dedizierter Hardware für die Migration: das einfachste Migrationsmodell, das einfach zu planen ist und keine Auswirkungen auf die Produktion hat. Dabei entstehen zusätzliche Kosten für den Erwerb der Hardware, sofern diese noch nicht verfügbar ist, sowie eine geringe Hardwareauslastung nach der Migration.
  2. Durchführung der Migration auf der Produktionshardware außerhalb der Geschäftszeiten: Migrationsmodell ohne Auswirkungen auf die Produktion. Erfordert eine komplexe Planung und Durchführung sowie die Arbeit von Personen außerhalb der Geschäftszeiten. Nur möglich, wenn die Produktionshardware nicht 24/7 verwendet wird.
  3. Durchführen der Migration während der Produktion: am wenigsten bevorzugtes Migrationsmodell, da es sich leicht auf die Produktion auswirken kann. Dieses Modell führt zu einer Verringerung der für die Produktion verfügbaren Hardware und erfordert eine komplexe Planung. Bei der Verwendung dieses Modells sind Prozesse zur Verringerung der Auswirkungen auf die Produktion entscheidend für die Einhaltung des Zeitplans für die Migration. Dieses Modell wird nur dann empfohlen, wenn die Produktionshardware eine geringe Auslastung aufweist.

Datenübertragungsoptionen

Nachdem die Daten aus den Bändern gelesen wurden, müssen diese in Azure Storage verschoben werden. Daten können mithilfe von Netzwerk- oder Offlinegeräten wie Azure Data Box verschoben werden. Die folgenden Parameter stellen einige der Parameter dar, die sich auf die Auswahl der Optionen für die Datenübertragung auswirken:

  • Verfügbare Netzwerkbandbreite
  • Für den Abschluss der Migration erforderlicher Zeitplan
  • Häufigkeit von Datenänderungen

Weitere Informationen zur Auswahl der optimalen Option finden Sie hier. Die Netzwerkübertragung ist eine einfachere und bevorzugte Option. Eine Kombination der Netzwerk- und Offlinemethode ist ebenfalls möglich. Diese erfordert jedoch mehr Planung, damit migrierte Daten nicht überlappen.

Wenn unabhängig vom Ressourcentyp keine Ressourcen zum Durchführen der Migration verfügbar sind, besteht die einzige Option darin, einen Bandmigrationspartner einzusetzen. In diesem Fall kann eine Auswahl zwischen zwei Optionen getroffen werden:

  1. Migration am Standort des Kunden: Der Bandmigrationspartner liefert die Hardware, rekrutiert die Personen und führt die Arbeit am Standort des Kunden durch. Der Kunde muss Zugriff auf die Bänder, für die Geräte vorgesehenen Räumlichkeiten, Netzwerkverbindungen und den Zugriff auf den Azure Storage-Dienst bereitstellen. Der Partner ist für alle anderen Aktivitäten verantwortlich.
  2. Migration am Standort des Partners: Der Kunde sendet die Bänder an den Partner und stellt Zugriff auf den Azure Storage-Dienst bereit. Der Bandmigrationspartner führt alle Aufgaben zur Migration der Daten von den Bändern zu Azure Storage aus.

Die zweite Option ist einfacher und wird häufiger verwendet. Bandmigrationspartner verfügen über Einrichtungen, die für die Durchführung einer Bandmigration im großen Stil ausgelegt und ausgerüstet sind. Diese Option führt zudem zu einer Verringerung des Risikos und zu einer Verkürzung des Zeitplans, da für Partner mehr Hardwareressourcen verfügbar sind. Die Migration wird nur dann am Standort des Kunden durchgeführt, wenn Sicherheits- und Datenschutzbedenken es dem Kunden nicht erlauben, die Bänder an den Partner zu senden.

Bandmigrationen zu Azure können durch mehrere Partner durchgeführt werden. Die vollständige Liste der Partner finden Sie unter Importieren von Offlinemedien.

Durch dieses einfache Flussdiagramm wird der Auswahlprozess vereinfacht. Diagramm mit dem Auswahlprozess für die Bandmigration

Datenformat

Das Datenformat hat einen großen Einfluss auf den Migrationsentwurf und stellt eine wichtige Überlegung für die zukünftige Datenfreundlichkeit dar. Daten können in einem geschützten oder nativen Format gespeichert werden. Geschützte Formate werden häufig als virtuelle Bänder gespeichert. Das native Format erfordert eine Wiederherstellung von Dateien aus Bändern und das Speichern der Bänder als Dateien oder Objekte.

Modell Vorteile Nachteile
Virtuelle Bänder – Einfachere und schnellere Migration
– Kann Bandmedien neu erstellen, die identische zum Original sind
– Erfordert zum Schreiben der Daten keinen Zugriff auf die Originalsoftware
– Erfordert die Pflege des Inventars der virtuellen Bänder
– Im anwendungsabhängigen Format gespeicherte Daten erfordern die Originalsoftware, um die Daten wiederherzustellen.
– Daten, auf die durch Azure-Diensten wie KI oder ML nicht ohne Wiederherstellung zugegriffen werden kann
Native Dateien – Dateien, auf die durch alle Anwendungen und Dienste wie KI oder ML zugegriffen werden kann
– Mögliche Monetarisierung der Daten
– Erfordert für Wiederherstellungen keinen Zugriff auf die Originalsoftware
– Komplexere Migration
– Erfordert zum Schreiben der Daten Zugriff auf die Originalsoftware

Das Hauptentscheidungskriterium für das Format ist die beabsichtigte Verwendung der Daten. Wenn Daten ausschließlich für die Langzeitaufbewahrung migriert werden, sind virtuelle Bänder eine gute Wahl. In allen anderen Fällen ist das Speichern von Daten im nativen Format die bevorzugte Option. Das ermöglicht die einfache Nutzung von Daten in Zukunft und eröffnet viele Möglichkeiten für Datenanalysen.

Migrationsprozess

Sobald die Entscheidungen über die Durchführung der Migration und das bevorzugte Datenformat getroffen wurden, kann mit der Migration begonnen werden. Die Migration durchläuft mehrere Phasen. Diagramm mit den Phasen der Bandmigration

Informationsphase

Die Informationsphase ist entscheidend für die Erfassung wichtiger Anforderungen. Die gesammelten Informationen sind für den richtigen Entwurf und die Planung wegweisend. Obwohl einige Informationen in späteren Phasen angepasst werden können, schaffen präzise Informationen optimale Voraussetzungen. Außerdem entfällt durch sie die Notwendigkeit für große Änderungen am Prozess. Zu den wichtigsten Fragen, die in dieser Phase beantwortet werden müssen, gehören die folgenden:

  • Welche Bandtypen müssen migriert werden (z. B. LTO3, LTO6, 3592JC)?
  • Welche Bandmenge muss für jedes Modell migriert werden (z. B. 100xLTO3, 200xLTO6)?
  • Welche Software wurde verwendet, um die Daten auf Bänder zu schreiben, und ist diese Software noch verfügbar?
  • Welches Format wurde zum Schreiben der Daten auf Bänder verwendet wird, ist das Format offen oder geschützt, und wurde eine Komprimierung angewendet?
  • Wurde eine Verschlüsselung verwendet, und was ist im Falle einer Verschlüsselung die sicherste Option zum Austauschen der Verschlüsselungsschlüssel?
  • Was ist die Zielregion?
  • Welcher Speicherdienst wird verwendet?
  • Welche behördlichen Vorschriften sind ausschlaggebend (HIPAA, DSGVO)? Ist die Rückverfolgbarkeit zwingend notwendig?
  • Was ist der Stichtag für die Migration? Gibt es wichtige Meilensteine?
  • Wie viel Netzwerkbandbreite ist für die Migration verfügbar?
  • Wo werden die Bänder physisch aufbewahrt, und können sie versandt werden?
  • Verfügen Sie bereits über Hashwerte für alle Dateien? Falls ja, welcher Hashalgorithmus wird verwendet?
  • Sind nach der Migration Bänder erforderlich?
  • Wie werden Temperatur und Feuchtigkeit für Bänder während der Migration und des Transports aufrechterhalten?
  • Wer sind die wichtigsten Beteiligten?

Vorbereitungsphase

Nachdem die grundlegenden Informationen gesammelt wurden, kann die Migration vorbereitet werden. Die Vorbereitungsphase kann viele verschiedene Schritte umfassen. Es gibt jedoch einige häufige Schritte, die die meisten Migrationen durchlaufen:

  1. Datenanalyse: Sie stellt Informationen zu den Daten bereit, die migriert werden müssen. Informationen sind wichtig, um einzuschätzen, wie schnell Daten aus Bändern gelesen werden können und wie viel Parallelität erreicht werden muss, um die Migration vor dem Stichtag erfolgreich abzuschließen. Sie wirkt sich auf Einschätzung der erforderlichen Hardware wie Bibliotheken, Roboter oder Laufwerke aus. Die Datenanalyse erfolgt durch die Stichprobenentnahme von mehreren Bändern, die das zu migrierende Dataset darstellen. Üblicherweise gesuchte Informationen:

    • Dateigrößen
    • Menge der gespeicherten Daten pro Band
    • Anzahl der Dateien pro Band
    • Minimale und maximale Dateigrößen
    • Dateitypen
  2. Datenqualität: Sie hilft bei der Einschätzung des endgültigen und eindeutigen Datasets, das migriert werden muss. Eines der häufigsten Probleme bei der Bandmigration ist die Duplizierung von Daten. Die Bandmigration ist ideal, um duplizierte Daten zu bereinigen. Dieser Prozess verbessert die Datenqualität für die zukünftige Verwendung und verringert die Kosten und Dauer der Migration.

  3. Datenpriorisierung: Sie bestimmt die Reihenfolge, in der die Daten migriert werden können. Im Idealfall soll ein direktes Streaming von jedem Band anstelle des Lesens zufälliger Dateien aus verschiedenen Bändern erreicht werden, um ständige Lade-, Entlade- und Suchvorgänge zu vermeiden. Durch diesen Ansatz wird der größtmögliche Durchsatz erreicht. Außerdem stellt er immer den schnellsten Migrationspfad dar. Die Datenpriorisierung erfordert zum Erzielen der besten Ergebnisse geschäftliche Anforderungen und eine technische Umsetzbarkeit.

  4. Migrationsentwurf: Dieser umfasst alle technischen Aspekte der Migration sowie die gesammelten Informationen zum Ausgestalten des endgültigen Migrationsprozesses. Er stellt ein schriftliches Dokument dar, das für die verbleibenden Phasen als Source of Truth fungiert. Er muss mindestens Folgendes enthalten:

    • Eindeutiger Migrationsprozess und Stichtag für die Migration
    • Hardware- und Personalanforderungen
    • Infrastruktur und Netzwerkentwurf
    • Überlegungen zur Sicherheit
    • Vorgehensweise bei unlesbaren Bändern
    • Rollen, Zuständigkeiten usw.

Phase: Migration

Sobald der Migrationsentwurf fertiggestellt wurde, beginnt der Migrationsprozess. Bevor die eigentliche Migration beginnt, wird stets ein Test an einer kleineren Stichprobe durchgeführt. Ziel des Tests ist es, sicherzustellen, dass der Gesamtprozess funktioniert. Das ermöglicht es Ihnen, den Prozess anzupassen und ihn zu verbessern. Sobald der Test erfolgreich abgeschlossen wurde und die Ergebnisse zufriedenstellend sind, wird die Migration durchgeführt. Die Migrationsphase mit nativen Dateien unterscheidet sich geringfügig von der Migrationsphase mit virtuellen Bändern. In beiden Fällen handelt es sich um einen sich wiederholenden Prozess, den alle Bänder durchläuft und der den gesamten Inhalt der Bänder liest. Dieses Flussdiagramm veranschaulicht die Migrationsphase bei der Migration zu nativen Dateien. Flussdiagramm mit Details zu einer Migrationsphase

Datenvalidierung

Für jede migrierte Datei muss eine Datenüberprüfung durchgeführt werden, um sicherzustellen, dass die Daten während des Migrationsprozesses nicht beschädigt wurden. Die Datenüberprüfung erfolgt anhand eines Vergleichs der Hashwerte vor und nach der Migration. Es gibt viele Arten von Hashalgorithmen, die verwendet werden können. Ein üblicher Ansatz besteht darin, MD5 zu verwenden, da Azure Storage das vordefinierte Metadatenfeld Content-MD5 enthält, das während der Migration ausgefüllt werden kann. Dieser Ansatz ermöglicht die Überprüfung des selben MD5-Werts, wenn auf die Daten zugegriffen wird, um zu validieren, dass die Daten nicht geändert oder beschädigt sind. Im Idealfall enthalten die Quelldaten bereits Hashwerte, die leicht mit den Hashwerten nach der Migration verglichen werden können. Wenn keine Hashes vorhanden sind, müssen diese vor der Migration der Datei berechnet werden. Wenn die Hashes übereinstimmen, wird die Datei als migriert markiert. Andernfalls wird die Datei verworfen und erneut migriert. Gelegentlich sind die Daten auf den Quellbändern beschädigt. Wenn Sie über die ursprünglichen Hashwerte verfügen, können Sie diese Ausnahmen erkennen. In diesen Fällen können die Daten aus der sekundären Kopie gelesen werden, sofern diese vorhanden ist. Der Datenüberprüfungsprozess ist ein wichtiger Bestandteil des Migrationsentwurfs. Der Prozess für die Behandlung fehlgeschlagener Überprüfungen muss definiert werden. Die Migrationsphase wird zudem ständig überwacht, um sicherzustellen, dass auf unvorhersehbare Situationen reagiert werden kann und Anpassungen möglich sind. Eine regelmäßige Berichterstattung an die wichtigsten Beteiligten ist wichtig, damit die Migration nach Plan verläuft.

Phase: Nach der Migration

Nach Abschluss der Migration müssen noch einige Schritte berücksichtigt werden, bevor das Migrationsprojekt erfolgreich geschlossen wird. Falls die Hardware, die für die Migration verwendet wurde, nicht mehr erforderlich ist, muss diese entsorgt werden. Die wichtigste Frage befasst sich mit der Entsorgung der Bänder. Die Entsorgung der Bänder ist ein Prozess mit zwei Schritten. In der Regel speichern Bänder vertrauliche Informationen. In diesem Fall müssen die Bänder zunächst entmagnetisiert werden. Durch die Entmagnetisierung wird sichergestellt, dass alle Daten magnetisch aus den Medien gelöscht werden. Nach der Löschung müssen die Bänder ordnungsgemäß vernichtet und recycelt werden. Wenn ein Bandmigrationspartner eingesetzt wurde, kann dieser die Bänder ebenfalls sicher entsorgen.

Nächste Schritte