Share via


Overzicht van azure Storage-tapemigratie

Dit artikel is gericht op tapemigraties. Het is erop gericht om gegevens die op verschillende tapemedia zijn opgeslagen, te vereenvoudigen, richtlijnen en overwegingen te overwegen om gegevens die zijn opgeslagen op verschillende tapemedia naar Azure Storage-services te migreren.

Overzicht

Tape slaat een groot deel van wereldgegevens op en blijft een van de dominante typen opslagmedia. Tapemedia bestaan tientallen jaren en worden nog steeds intensief gebruikt met honderden exabytes aan nieuwe tapes die elk jaar worden verzonden.

Tapes zijn een geweldig medium voor het opslaan van koude gegevens. Ze zijn snel in sequentiële lezing, maar fasen die mechanische bewegingen vereisen (zoals laden en lossen van tapes, tapezoekers, enz.) zijn langzamer. Dat maakt tapes onbruikbaar voor traditionele, willekeurige toegang en is de belangrijkste reden dat zelfs vandaag gegevens die zijn opgeslagen op tapes zelden worden gebruikt. Daarnaast is tape een magnetisch medium dat speciale verwerking vereist. Ze zijn gevoelig voor omgevingen, met name temperatuur en vochtigheid. Als ze binnen hun bedrijfs-omgevingsbereik blijven, kunnen ze een hoge duurzaamheid bereiken en een goed succespercentage voor herstel. Wanneer u echter in onvriendelijke omgeving blijft, gebeurt verslechtering vaak en wordt de tape onleesbaar gemaakt.

Grote delen van tapes slaan donkere gegevens op (gegevens die worden gemaakt en opgeslagen, maar worden niet gebruikt voor enig doel). Donkere gegevens hebben geen waarde voor de eigenaar van de gegevens. Met de toename van AI-mogelijkheden en toegankelijkheid verandert de trend. Klanten kijken hoe donkere gegevens hen kunnen helpen om de efficiëntie te verhogen, nieuwe omzetstromen te openen of hun concurrentievoordeel te verhogen. Om te profiteren van donkere gegevens, overwegen veel organisaties om de gegevens van tapes naar cloudopslag te migreren. Cloudopslag biedt een eenvoudige manier om de gegevens te analyseren, bedrijfswaarde te extraheren (met services zoals AI, Machine Learning, Azure Search, enzovoort) of kosten te verlagen door gebruik te maken van archiveringsopslag voor langetermijnretentie.

Enkele van de belangrijkste redenen waarom de tape-naar-cloudmigraties toenemen, zijn:

  • Zakelijke waarde extraheren uit donkere gegevens,
  • Verminder de inspanning die nodig is voor het beheren van gegevens met langetermijnretentie,
  • Vermijd het migratieproces van de ene tapegeneratie naar een andere,
  • Verminder het risico op gegevensverlies, met name voor oudere generaties tapes,
  • Opslagfaciliteiten voor off-site tape vervangen,
  • Processen voor herstel na noodgevallen vereenvoudigen,
  • Moderne hulpprogramma's zoals AI en ML toepassen op historische gegevens.

Overwegingen

Voordat een tapemigratieproces wordt gestart, moeten opties zorgvuldig worden overwogen. Eerste overweging is bepalen wie de migratie uitvoert. Er worden twee opties gebruikt:

  • Klant heeft een migratie uitgevoerd waarbij de klant de migratie end-to-end uitvoert,
  • Tapemigratiepartner waar de klant de tapes naar de partner verzendt en partner voert het migratieproces uit.
Methode Voordelen Nadelen
Door de klant uitgevoerde migratie - Gegevens verlaten de site nooit
- Geen logistiek voor transporttapes
- Hardwarebronnen vereist
- Voegt meer werk toe aan personeel
- Vereist specifieke kennis bij het verwerken van tapes
- Mogelijke onbekende kosten
Tapemigratiepartner - Eenvoudige prijzen en bekende kosten vooraf (betaald per tape)
- Geen invloed op productie
- Geen invloed op personeel
- Vereist logistiek voor verzendtapes
- Beveiligingsoverwegingen die zijn vereist vanwege verzendtapes
- Meerdere kopieën die nodig zijn voor beschikbaarheid van gegevens tijdens de migratie

Verschillende belangrijke overwegingen kunnen ons bepalen wie de migratie, klant of partner kan uitvoeren.

Resources

Resources zijn het belangrijkste onderdeel van het tapemigratieproces en we verdelen ze in de volgende categorieën:

Categorie Opmerkingen
People - Er zijn specifieke vaardigheden vereist
- Proces is arbeidsintensief
Hardware - Voor verschillende tapegeneraties is een ander type hardware vereist
- Snelheid van de migratie is evenredig met beschikbare stations en netwerkbandbreedte
Software - Toegang tot software die de gegevens heeft gemaakt, is nodig
- Toegang tot versleutelingssleutels is vereist

Hardware is meestal het meest uitdagende onderdeel. Als we bestaande tapegeneraties migreren, is hardware beschikbaar, maar wordt deze gebruikt als onderdeel van de bestaande productie. Maar voor oudere tapegeneraties is hardware vaak het einde van het leven, en het is moeilijker om te verkrijgen. Bij oudere tapegeneratie is het gebruik van een tapemigratiepartner een voorkeur en eenvoudigere optie. Wanneer productiehardware wordt gebruikt voor migraties, is zorgvuldige planning nodig om ervoor te zorgen dat de migratie de productieworkloads niet beïnvloedt. Hier kunnen we drie verschillende modellen toepassen:

  1. Gebruik toegewezen hardware voor migratie: eenvoudigste migratiemodel, het is eenvoudig te plannen en te plannen zonder dat dit van invloed is op de productie. Het voegt kosten toe voor het aanschaffen van de hardware (indien niet al beschikbaar) en veroorzaakt een laag hardwaregebruik na de migratie.
  2. Migratie buiten kantooruren uitvoeren op productiehardware: migratiemodel zonder gevolgen voor productie. Vereist complexe planning, uitvoering en mensen die buiten kantooruren werken. Alleen mogelijk als productiehardware niet 24x7 wordt gebruikt.
  3. Productie en migratie samen uitvoeren: migratiemodel met de minste voorkeur, omdat dit eenvoudig van invloed kan zijn op de productie. Dit model vermindert de beschikbare hardware voor productie, vereist complexe planning en planning. Als dit model wordt gebruikt, zijn processen rond het verminderen van de impact op productie essentieel om de migratietijdlijn onder controle te houden. Dit model wordt alleen aanbevolen wanneer productiehardware weinig gebruik heeft.

Opties voor gegevensoverdracht

Nadat de gegevens van tapes zijn gelezen, moeten ze worden verplaatst naar Azure Storage. Gegevens kunnen worden verplaatst met behulp van een netwerk of offlineapparaten zoals Azure Data Box. Enkele van de parameters die van invloed zijn op de keuze voor opties voor gegevensoverdracht zijn:

  • Beschikbare netwerkbandbreedte
  • Vereiste tijdlijn om de migratie te voltooien
  • Frequentie van gegevenswijzigingen

Meer informatie over richtlijnen voor het selecteren van de optimale optie hier. Netwerkoverdracht is eenvoudiger en voorkeursoptie. Combinatie van netwerk en offlinemethode is ook mogelijk, maar vereist meer planning om ervoor te zorgen dat gemigreerde gegevens niet overlappen.

Als er geen beschikbare resources beschikbaar zijn om de migratie uit te voeren, ongeacht het type resource, is onze enige optie om een tapemigratiepartner te gebruiken. In dat geval kunnen we kiezen tussen twee opties:

  1. Migratie uitgevoerd op de site van de klant: tapemigratiepartner verzendt de hardware, huurt personen in en voert het werk uit op de locatie van de klant. De klant moet toegang bieden tot de tapes, toegewezen ruimte voor de apparatuur, netwerkverbindingen en toegang tot de Azure Storage-service. Partner is verantwoordelijk voor alle andere activiteiten.
  2. Migratie uitgevoerd op de site van de partner: de klant verzendt de tapes naar de partner en biedt toegang tot de Azure Storage-service. Tapemigratiepartner voert alle werkzaamheden uit om de gegevens van tapes naar Azure Storage te migreren.

Tweede optie is eenvoudiger en veelgebruikter. Tapemigratiepartners hebben faciliteiten die zijn ontworpen en uitgerust om tapemigratie op grote schaal uit te voeren. Deze optie vermindert ook het risico en de tijdlijn omdat partners meer hardwareresources beschikbaar hebben. Het uitvoeren van migratie op de site van de klant wordt alleen gebruikt wanneer beveiliging en privacyproblemen niet toestaan dat de klant de tapes naar de partner verzendt.

Verschillende partners kunnen tapemigraties naar Azure uitvoeren. De volledige lijst met partners vindt u bij het offline importeren van media.

Hier volgt een eenvoudig stroomdiagram om het selectieproces te vereenvoudigen. Grafiek met selectieproces voor tapemigratie.

Gegevensopmaak

Gegevensindeling heeft een grote invloed op het migratieontwerp en is de essentiële overweging voor toekomstige bruikbaarheid van gegevens. Gegevens kunnen worden opgeslagen in een eigen of systeemeigen indeling. Eigen indelingen worden meestal opgeslagen als virtuele tapes. Voor systeemeigen indeling moeten bestanden van tapes worden hersteld en als bestanden of objecten worden opgeslagen.

Model Voordelen Nadelen
Virtuele tapes - Eenvoudigere en snellere migratie
- Kan identieke tapemedia opnieuw maken als het origineel
- U hoeft geen toegang te hebben tot de oorspronkelijke software om de gegevens te schrijven
- Vereist onderhoud van virtuele tape-inventaris
- Voor gegevens die zijn opgeslagen in de afhankelijke indeling van de toepassing, is oorspronkelijke software vereist om de gegevens te herstellen
- Gegevens die niet toegankelijk zijn voor Azure-services (AI/ML) zonder herstel
Systeemeigen bestanden - Bestanden die toegankelijk zijn voor elke toepassing en service (AI/ML)
- Mogelijk om geld te verdienen met de gegevens
- U hoeft geen toegang te hebben tot de oorspronkelijke software voor herstelbewerkingen
- Complexere migratie
- Vereist toegang tot de oorspronkelijke software om de gegevens te schrijven

Het belangrijkste criterium voor het bepalen van de indeling is de manier waarop we de gegevens gaan gebruiken. Als gegevens alleen worden gemigreerd voor langetermijnretentie, zijn virtuele tapes een uitstekende keuze. In elk ander geval is het opslaan van gegevens in systeemeigen indeling een voorkeursoptie. Het maakt eenvoudig gebruik van gegevens in de toekomst mogelijk en opent veel mogelijkheden met gegevensanalyse.

Migratieproces

Zodra we beslissingen hebben genomen over de uitvoering van de migratie en de voorkeursgegevensindeling, kunnen we beginnen met de migratie. Migratie doorloopt verschillende fasen. Diagram met tapemigratiefasen.

Informatiefase

Informatiefase is essentieel voor het verzamelen van belangrijke vereisten. Verzamelde informatiehandleidingen corrigeren het ontwerp en de planning. Hoewel sommige informatie in latere fasen kan worden bijgewerkt, worden de scènes nauwkeurig ingesteld en wordt voorkomen dat er enorme wijzigingen in het proces moeten worden aangebracht. Enkele van de belangrijkste vragen die in deze fase moeten worden beantwoord, zijn:

  • Welk type tapes moet worden gemigreerd (bijvoorbeeld LTO3, LTO6, 3592JC, enzovoort)?
  • Welke hoeveelheid tapes voor elk model dat moet worden gemigreerd (bijvoorbeeld 100xLTO3, 200xLTO6, enzovoort)?
  • Welke software is gebruikt om de gegevens op tapes te schrijven, is die software nog steeds beschikbaar?
  • Wat is de indeling die wordt gebruikt om de gegevens op tapes te schrijven, is de indeling open of eigendom, wordt compressie toegepast?
  • Is versleuteling gebruikt en zo ja, wat is de veiligste optie om versleutelingssleutels uit te wisselen?
  • Wat is de doelregio?
  • Welke opslagservice wordt gebruikt?
  • Welke wettelijke vereisten zijn kritiek (HIPAA, AVG, enzovoort)? Is de bewakingsketen verplicht?
  • Wat is de migratiedeadline? Zijn er kritieke mijlpalen?
  • Hoeveel netwerkbandbreedte is er beschikbaar voor migratie?
  • Waar worden tapes fysiek opgeslagen en kunnen ze worden verzonden?
  • Hebt u al hashwaarden voor alle bestanden? Zo ja, welk hash-algoritme wordt gebruikt?
  • Zijn tapes nodig na de migratie?
  • Hoe kan ik tijdens de migratie/transport de temperatuur en vochtigheid voor tapes onderhouden?
  • Wie zijn de belangrijkste belanghebbenden?

Voorbereidingsfase

Nadat we basisinformatie hebben verzameld, kunnen we ons voorbereiden op de migratie. De voorbereidingsfase kan veel verschillende stappen bevatten, maar er zijn enkele veelvoorkomende stappen die de meeste migraties doorlopen:

  1. Gegevensanalyse biedt informatie over de gegevens die moeten worden gemigreerd. Informatie is essentieel om te schatten hoe snel gegevens kunnen worden gelezen van tapes en hoeveel parallellisme we nodig hebben om de migratie vóór de deadline te voltooien. Dit heeft invloed op schattingen van de vereiste hardware (bibliotheken, robots, stations). Gegevensanalyse wordt uitgevoerd door meerdere tapes te nemen die de gegevensset vertegenwoordigen die moeten worden gemigreerd. Typische informatie die we zoeken is:

    • bestandsgrootten,
    • hoeveelheid gegevens die per tape zijn opgeslagen,
    • aantal bestanden per tape,
    • minimale en maximale bestandsgrootte,
    • bestandstypen.
  2. Gegevenskwaliteit helpt bij het schatten van de uiteindelijke en unieke gegevensset die moet worden gemigreerd. Een van de meest voorkomende problemen met tapemigratie is duplicatie van gegevens. Tapemigratie is ideaal voor het opschonen van dubbele gegevens. Dit proces verbetert de gegevenskwaliteit voor toekomstig gebruik, het vermindert de kosten en de duur van de migratie.

  3. Gegevens prioritatie bepaalt de volgorde waarin de gegevens kunnen worden gemigreerd. In het ideale voorbeeld willen we direct streamen vanaf elke tape in plaats van willekeurig bestanden van verschillende tapes te lezen (om constant laden, lossen en zoeken te voorkomen). Deze aanpak bereikt de hoogst mogelijke doorvoer en is altijd het snelste migratiepad. Voor gegevens prioritering zijn bedrijfsvereisten en technische haalbaarheid nodig om de beste resultaten te behalen.

  4. Migratieontwerp omvat alle technische aspecten van de migratie en de verzamelde informatie om een definitief migratieproces te vormen. Het is een geschreven document dat bron van waarheid wordt voor de resterende fasen. Deze moet ten minste het volgende bevatten:

    • migratieproces en migratiedeadline wissen,
    • hardware- en personeelsvereisten,
    • infrastructuur en netwerkontwerp,
    • Beveiligingsoverwegingen
    • omgaan met onleesbare tapes,
    • rollen en verantwoordelijkheden, enzovoort.

Migratiefase

Zodra het migratieontwerp is voltooid, starten we het migratieproces. Voordat u het volledige migratietempo aangaat, voeren we altijd een test uit met een kleiner voorbeeld. Het doel van de test is ervoor te zorgen dat het end-to-end-proces werkt. Het stelt ons in staat om aanpassingen te maken en het proces te verbeteren. Zodra de test is geslaagd en we tevreden zijn met de resultaten, voeren we de migratie uit. De migratiefase verschilt enigszins als we systeemeigen bestanden versus virtuele tapes gebruiken. In beide gevallen is het een herhalend proces dat door alle tapes cirkelt en de volledige inhoud leest. Dit stroomdiagram toont de migratiefase bij het migreren naar systeemeigen bestanden. Stroomdiagram met details van een migratiefase.

Gegevensvalidatie

Voor elk bestand dat we migreren, moeten we gegevensvalidatie uitvoeren om ervoor te zorgen dat gegevens niet zijn beschadigd tijdens het migratieproces. Gegevensvalidatie wordt uitgevoerd door hashwaarden te vergelijken vóór de migratie en na de migratie. Er zijn veel soorten hash-algoritmen die kunnen worden gebruikt. Een algemene benadering is het gebruik van MD5 omdat Azure Storage een vooraf gedefinieerd metagegevensveld Content-MD5 bevat dat tijdens de migratie kan worden ingevuld. Met deze methode kan dezelfde MD5-waarde worden gecontroleerd wanneer we toegang hebben tot de gegevens om te controleren of de gegevens niet zijn gewijzigd of beschadigd. In de ideale situatie bevatten brongegevens al hashwaarden die eenvoudig kunnen worden vergeleken met hashwaarden na de migratie. Als er geen hashes bestaan, moeten ze worden berekend voordat het bestand wordt gemigreerd. Als hashes overeenkomen, wordt het bestand gemarkeerd als gemigreerd. Als dat niet het is, wordt het bestand verwijderd en opnieuw gemigreerd. Soms zijn de gegevens beschadigd op de brontapes. Het gebruik van de oorspronkelijke hash-waarden helpt bij het ondervangen van deze zeldzame gevallen. Als deze zich voordoen, kunnen we de gegevens lezen uit een secundaire kopie als deze bestaat. Gegevensvalidatieproces is een essentieel onderdeel voor een migratieontwerp. Het proces voor het afhandelen van mislukte validatie moet worden gedefinieerd. De migratiefase wordt ook voortdurend bewaakt om ervoor te zorgen dat we kunnen reageren op onvoorspelbare situatie en zich eraan kunnen aanpassen. Regelmatige rapportage aan de belangrijkste belanghebbenden is belangrijk om de migratie op schema te houden.

Fase na migratie

Nadat de migratie is voltooid, zijn er nog enkele stappen die we moeten overwegen voordat het migratieproject wordt gesloten. We moeten hardware verwijderen die wordt gebruikt voor de migratie, indien niet meer nodig. De belangrijkste vraag is hoe de tapes moeten worden verwijderd. Het verwijderen van tape bestaat uit twee stappen. Als tapes gevoelige en vertrouwelijke informatie opslaan (en ze meestal doen), moeten ze eerst worden gedegradeerd. Degaussing zorgt ervoor dat alle gegevens magnetisch worden verwijderd uit de media. Na verwijdering moeten tapes correct worden vernietigd en gerecycled. Als we een tapemigratiepartner hebben gebruikt, kunnen we de partner de tapes ook veilig laten verwijderen.

Volgende stappen