Omówienie migracji taśm usługi Azure Storage
Ten artykuł koncentruje się na migracjach taśm. Ma na celu uproszczenie, zapewnienie wskazówek i zagadnień dotyczących pomyślnej migracji danych przechowywanych na różnych nośnikach taśmowych do usług Azure Storage.
Omówienie
Taśma przechowuje dużą część danych świata i pozostaje jednym z dominujących typów nośników magazynu. Nośnik taśmowy istnieje przez dziesięciolecia i jest nadal mocno używany z setkami eksabajtów nowych taśm dostarczanych co roku.
Taśmy są doskonałym nośnikiem do przechowywania zimnych danych. Są one szybkie w odczytu sekwencyjnego, ale etapy wymagające ruchów mechanicznych (takich jak ładowanie i zwalnianie taśm, poszukiwania taśm itp.) są wolniejsze. To sprawia, że taśmy są bezużyteczne dla tradycyjnego, losowego dostępu i jest głównym powodem, dla którego nawet dzisiejsze dane przechowywane na taśmach są rzadko używane. Ponadto taśma jest nośnikiem magnetycznym, który wymaga specjalnej obsługi. Są wrażliwe na środowisko, szczególnie temperaturę i wilgotność. Jeśli są przechowywane w zakresie środowiska operacyjnego, mogą osiągnąć wysoką trwałość i dobry współczynnik powodzenia przywracania. Jednak w przypadku, gdy przechowywane w środowisku nieprzyjaznym, pogorszenie występuje często i sprawia, że taśma jest nieczytelna.
Duże fragmenty taśm przechowują ciemne dane (tworzone i przechowywane, ale nie są używane w żadnym celu). Ciemne dane nie przynoszą żadnej wartości właścicielowi danych. Wraz ze wzrostem możliwości sztucznej inteligencji i dostępności trend się zmienia. Klienci badają, w jaki sposób ciemne dane mogą pomóc im zwiększyć wydajność, otworzyć nowe strumienie przychodów lub zwiększyć przewagę konkurencyjną. Aby korzystać z ciemnych danych, wiele organizacji rozważa migrację danych z taśm do magazynu w chmurze. Magazyn w chmurze umożliwia łatwe analizowanie danych, wyodrębnianie wartości biznesowej (z usługami takimi jak sztuczna inteligencja, uczenie maszynowe, usługa Azure Search itp.) lub obniżenie kosztów dzięki wykorzystaniu magazynu archiwalnego na potrzeby długoterminowego przechowywania.
Oto niektóre z głównych powodów, dla których obserwujemy wzrost liczby migracji taśm do chmury:
- Wyodrębnianie wartości biznesowej z ciemnych danych,
- Zmniejsz nakład pracy wymagany do zarządzania danymi przy użyciu długoterminowego przechowywania,
- Unikaj procesu migracji z jednej generacji taśm do innej,
- Zmniejszenie ryzyka utraty danych, szczególnie w przypadku starszych generacji taśm,
- Zastąp pozalokajne magazyny taśm,
- Upraszczanie procesów odzyskiwania po awarii,
- Stosowanie nowoczesnych narzędzi, takich jak sztuczna inteligencja i uczenie maszynowe, do danych historycznych.
Kwestie wymagające rozważenia
Przed rozpoczęciem procesu migracji taśm należy dokładnie rozważyć opcje. Najpierw należy wziąć pod uwagę, kto wykonuje migrację. Często używane są dwie opcje:
- Klient przeprowadził migrację , w której klient wykonuje kompleksową migrację,
- Partner migracji taśm, w którym klient wysyła taśmy do partnera, a partner wykonuje proces migracji.
Metoda | Plusy | Minusy |
---|---|---|
Migracja przeprowadzona przez klienta | — Dane nigdy nie opuszczają witryny - Brak logistyki dla taśm wysyłkowych |
— Wymaga zasobów sprzętowych - Dodaje więcej pracy do personelu - Wymaga konkretnej wiedzy na temat obsługi taśm - Możliwe nieznane koszty |
Partner migracji taśm | - Proste ceny i znane koszty z góry (płatne za taśmę) - Brak wpływu na produkcję - Brak wpływu na personel |
- Wymaga logistyki taśm wysyłkowych - Zagadnienia dotyczące zabezpieczeń wymagane ze względu na taśmy wysyłkowe — Wiele kopii wymaganych do dostępności danych podczas migracji |
Kilka głównych zagadnień może łatwo kierować naszą decyzją dotyczącą tego, kto może przeprowadzić migrację, klienta lub partnera.
Zasoby
Zasoby są najbardziej krytyczną częścią procesu migracji taśm i dzielimy je w następujących kategoriach:
Kategoria | Uwagi |
---|---|
Lud | - Wymagany jest określony zestaw umiejętności - Proces jest pracochłonne |
Sprzęt | - Różne generacje taśm wymagają innego typu sprzętu - Szybkość migracji jest proporcjonalna do dostępnych dysków i przepustowości sieci |
Oprogramowanie | — Wymagany jest dostęp do oprogramowania, które utworzyło dane — Wymagany jest dostęp do kluczy szyfrowania |
Sprzęt jest zwykle najbardziej trudną częścią. Jeśli migrujemy istniejące generacje taśm, sprzęt jest dostępny, ale używany w ramach istniejącej produkcji. Ale w przypadku starszych generacji taśm sprzęt często kończy się życiem i trudniej jest nabyć. W przypadku starszej generacji taśm przy użyciu partnera migracji taśm jest preferowana i prostsza opcja. Gdy sprzęt produkcyjny jest używany do migracji, należy dokładnie zaplanować, aby upewnić się, że migracja nie zakłóca obciążeń produkcyjnych. W tym miejscu możemy zastosować trzy różne modele:
- Użyj dedykowanego sprzętu do migracji: najprostszy model migracji, łatwo zaplanować i zaplanować bez wpływu na środowisko produkcyjne. Dodaje koszt uzyskania sprzętu (jeśli nie jest jeszcze dostępny) i powoduje niskie wykorzystanie sprzętu po migracji.
- Uruchamianie migracji poza godzinami pracy na sprzęcie produkcyjnym: model migracji bez wpływu na środowisko produkcyjne. Wymaga złożonego planowania, wykonywania i osób pracujących poza godzinami pracy. Możliwe tylko wtedy, gdy sprzęt produkcyjny nie jest używany 24x7.
- Uruchamianie środowiska produkcyjnego i migracja razem: najmniej preferowany model migracji, który może mieć łatwy wpływ na produkcję. Ten model zmniejsza dostępność sprzętu w środowisku produkcyjnym, wymaga złożonego planowania i planowania. Jeśli ten model jest używany, procesy zmniejszające wpływ na produkcję mają kluczowe znaczenie dla utrzymania osi czasu migracji pod kontrolą. Ten model jest zalecany tylko wtedy, gdy sprzęt produkcyjny ma niskie wykorzystanie.
Opcje transferu danych
Po odczytaniu danych z taśm należy przenieść je do usługi Azure Storage. Dane można przenosić przy użyciu sieci lub urządzeń w trybie offline, takich jak usługa Azure Data Box. Niektóre parametry wpływające na wybór opcji transferu danych to:
- Dostępna przepustowość sieci
- Wymagana oś czasu do zakończenia migracji
- Częstotliwość zmian danych
Dowiedz się więcej na temat wskazówek dotyczących wybierania optymalnej opcji tutaj. Transfer sieciowy jest prostszy i preferowany. Połączenie sieci i metody offline jest również możliwe, ale wymaga więcej planowania, aby upewnić się, że zmigrowane dane nie nakładają się na siebie.
Jeśli nie ma dostępnych zasobów do przeprowadzenia migracji, niezależnie od typu zasobu, jedyną opcją jest użycie partnera migracji taśm. W takim przypadku możemy wybrać jedną z dwóch opcji:
- Migracja wykonywana na lokacji klienta: partner migracji taśm wysyła sprzęt, zatrudnia ludzi i wykonuje pracę w lokalizacji klienta. Klient musi zapewnić dostęp do taśm, dedykowanego miejsca dla sprzętu, połączeń sieciowych i dostępu do usługi Azure Storage. Partner jest odpowiedzialny za wszystkie inne działania.
- Migracja wykonywana w witrynie partnera: klient wysyła taśmy do partnera i zapewnia dostęp do usługi Azure Storage. Partner migracji taśm wykonuje całą pracę w celu przeprowadzenia migracji danych z taśm do usługi Azure Storage.
Druga opcja jest łatwiejsza i częściej używana. Partnerzy ds. migracji taśm mają obiekty zaprojektowane i wyposażone w migrację taśm na dużą skalę. Ta opcja zmniejsza również ryzyko i oś czasu, ponieważ partnerzy mają więcej dostępnych zasobów sprzętowych. Przeprowadzanie migracji w witrynie klienta jest używane tylko wtedy, gdy zabezpieczenia i obawy dotyczące prywatności nie zezwalają klientowi na dostarczanie taśm do partnera.
Kilku partnerów może przeprowadzić migracje taśm na platformę Azure. Pełną listę partnerów można znaleźć w importowaniu multimediów w trybie offline.
Oto prosty schemat blokowy ułatwiając proces wybierania.
Format danych
Format danych ma duży wpływ na projekt migracji i jest krytycznym czynnikiem do przyszłej użyteczności danych. Dane mogą być przechowywane w zastrzeżonym lub natywnym formacie. Zastrzeżone formaty są często przechowywane jako taśmy wirtualne. Format natywny wymaga przywrócenia plików z taśm i przechowywania ich jako plików lub obiektów.
Model | Plusy | Minusy |
---|---|---|
Wirtualne taśmy | — Łatwiejsza i szybsza migracja - Może odtworzyć identyczne nośniki taśm jako oryginalne - Nie trzeba mieć dostępu do oryginalnego oprogramowania do zapisywania danych |
— Wymaga obsługi spisu wirtualnych taśm — Dane przechowywane w formacie zależnym od aplikacji, wymagają oryginalnego oprogramowania do przywrócenia danych — Dane niedostępne dla usług platformy Azure (AI/ML) bez przywracania |
Pliki natywne | — Pliki dostępne dla dowolnej aplikacji i usługi (AI/ML) - Możliwe do zarabiania na danych — Brak konieczności posiadania dostępu do oryginalnego oprogramowania w celu przywrócenia |
— Bardziej złożona migracja — Wymaga dostępu do oryginalnego oprogramowania w celu zapisania danych |
Głównym kryterium podejmowania decyzji o formacie jest sposób, w jaki planujemy używać danych. Jeśli dane są migrowane tylko do przechowywania długoterminowego, to wirtualne taśmy są doskonałym wyborem. W każdym innym przypadku przechowywanie danych w formacie natywnym jest preferowaną opcją. Umożliwia proste użycie danych w przyszłości i otwiera wiele możliwości analizy danych.
Proces migracji
Po podjęciu decyzji dotyczących wykonywania migracji i preferowanym formacie danych możemy rozpocząć od migracji. Migracja przechodzi kilka faz.
Faza informacji
Faza informacji ma kluczowe znaczenie dla gromadzenia kluczowych wymagań. Zebrane informacje zawierają poprawne projektowanie i planowanie. Mimo że niektóre informacje można zaktualizować w późniejszych etapach, podając dokładne zestawy informacji na scenie i unikając konieczności wprowadzania ogromnych zmian w procesie. Oto niektóre z kluczowych pytań, na które ta faza musi odpowiedzieć:
- Jakiego typu taśmy należy migrować (na przykład LTO3, LTO6, 3592JC itp.)?
- Jaka ilość taśm dla każdego modelu, który musi zostać zmigrowany (na przykład 100xLTO3, 200xLTO6 itp.)?
- Jakiego oprogramowania użyto do zapisywania danych na taśmach, czy oprogramowanie jest nadal dostępne?
- Jaki jest format używany do zapisywania danych na taśmach, czy jest stosowany format otwarty lub zastrzeżony?
- Czy użyto szyfrowania, a jeśli tak, jaka jest najbezpieczniejsza opcja wymiany kluczy szyfrowania?
- Co to jest region docelowy?
- Jaka usługa magazynu jest używana?
- Jakie wymagania prawne są krytyczne (HIPAA, RODO itp.)? Czy łańcuch nadzoru jest obowiązkowy?
- Jaki jest termin migracji? Czy istnieją jakieś krytyczne kamienie milowe?
- Jaka przepustowość sieci jest dostępna do migracji?
- Gdzie są fizycznie przechowywane taśmy i czy mogą być wysyłane?
- Czy masz już wartości skrótu dla wszystkich plików? Jeśli tak, który algorytm tworzenia skrótów jest używany?
- Czy taśmy są potrzebne po migracji?
- Jak utrzymać temperaturę i wilgotność taśm podczas migracji/transportu?
- Kto jest głównymi uczestnikami projektu?
Faza przygotowania
Po zebraniu podstawowych informacji możemy przygotować się do migracji. Faza przygotowania może obejmować wiele różnych kroków, ale istnieją niektóre typowe kroki, które należy wykonać w większości migracji:
Analiza danych zawiera informacje na temat danych, które należy zmigrować. Informacje mają kluczowe znaczenie dla oszacowania, jak szybko można odczytywać dane z taśm i ile równoległości musimy osiągnąć, aby pomyślnie zakończyć migrację przed upływem terminu. Ma to wpływ na szacowany wymagany sprzęt (biblioteki, roboty, dyski). Analiza danych odbywa się przez próbkowanie wielu taśm reprezentujących zestaw danych do zmigrowania. Typowe informacje, których szukamy, to:
- rozmiary plików,
- ilość danych przechowywanych na taśmie,
- liczba plików na taśmę,
- minimalne i maksymalne rozmiary plików,
- typy plików.
Jakość danych ułatwia szacowanie końcowego i unikatowego zestawu danych, który musi zostać zmigrowany. Jednym z najczęstszych problemów z migracją taśm jest duplikowanie danych. Migracja taśm to idealny czas na wyczyszczenie zduplikowanych danych. Ten proces poprawia jakość danych do użycia w przyszłości, zmniejsza koszty i czas trwania migracji.
Priorytetyzacja danych określa kolejność migrowania danych. W idealnym przypadku chcemy osiągnąć bezpośrednie przesyłanie strumieniowe z każdej taśmy zamiast losowo odczytywać pliki z różnych taśm (aby uniknąć ciągłego ładowania, zwalniania i wyszukiwania). Takie podejście zapewnia najwyższą możliwą przepływność i zawsze jest najszybszą ścieżką migracji. Priorytetyzacja danych wymaga wymagań biznesowych i możliwości technicznych, aby osiągnąć najlepsze wyniki.
Projekt migracji obejmuje wszystkie aspekty techniczne migracji oraz zebrane informacje w celu utworzenia końcowego procesu migracji. Jest to napisany dokument, który staje się źródłem prawdy dla pozostałych etapów. Musi zawierać co najmniej:
- przejrzysty proces migracji i termin migracji,
- wymagania dotyczące sprzętu i personelu,
- infrastruktura i projekt sieci,
- zagadnienia dotyczące zabezpieczeń,
- jak radzić sobie z nieczytelnymi taśmami,
- role i obowiązki itp.
Faza migracji
Po zakończeniu projektu migracji rozpoczniemy proces migracji. Przed rozpoczęciem pełnego tempa migracji zawsze przeprowadzamy test z mniejszą próbką. Celem testu jest upewnienie się, że proces end-to-end działa. Pozwala nam to na wprowadzanie poprawek i ulepszanie procesu. Po pomyślnym zakończeniu testu i zadowoleniu z wyników wykonamy migrację. Faza migracji jest nieco inna, jeśli używamy natywnych plików a taśm wirtualnych. W obu przypadkach jest to powtarzalny proces, który krąży przez wszystkie taśmy i odczytuje całą zawartość. Ten schemat blokowy przedstawia fazę migracji podczas migracji do plików natywnych.
Sprawdzanie poprawności danych
Dla każdego migrowanego pliku musimy przeprowadzić walidację danych, aby upewnić się, że dane nie zostały uszkodzone podczas procesu migracji. Walidacja danych odbywa się przez porównanie wartości skrótu przed migracją i po migracji. Istnieje wiele typów algorytmów tworzenia skrótów, których można użyć. Typowym podejściem jest użycie rozwiązania MD5, ponieważ usługa Azure Storage zawiera wstępnie zdefiniowane pole metadanych Content-MD5, które można wypełnić podczas migracji. Takie podejście umożliwia sprawdzenie tej samej wartości MD5, gdy uzyskujemy dostęp do danych w celu sprawdzenia, czy dane nie zostały zmienione lub uszkodzone. W idealnej sytuacji dane źródłowe zawierają już wartości skrótu, które można łatwo porównać z wartościami skrótów po migracji. Jeśli skróty nie istnieją, należy je obliczyć przed przeprowadzeniem migracji pliku. Jeśli skróty są zgodne, plik jest oznaczony jako zmigrowany. Jeśli nie, plik zostanie odrzucony i ponownie zmigrowany. Czasami dane są uszkodzone na taśmach źródłowych. Posiadanie oryginalnych wartości skrótu pomaga w połowu tych rzadkich przypadków. Jeśli tak się stanie, możemy odczytać dane z kopii pomocniczej, jeśli istnieje. Proces weryfikacji danych jest kluczowym składnikiem projektu migracji. Należy zdefiniować proces obsługi nieudanej weryfikacji. Faza migracji jest również stale monitorowana, aby upewnić się, że możemy reagować na nieprzewidywalną sytuację i dostosowywać się do niej. Regularne raportowanie głównym uczestnikom projektu jest ważne, aby zapewnić śledzenie migracji.
Faza po migracji
Po zakończeniu migracji należy rozważyć kilka kroków przed pomyślnym zamknięciem projektu migracji. Musimy usunąć sprzęt używany do migracji, jeśli nie jest już potrzebny. Najważniejszym pytaniem jest sposób usuwania taśm. Usuwanie taśm jest procesem dwóch kroków. Jeśli taśmy przechowują poufne i poufne informacje (i zazwyczaj robią), muszą być najpierw degaussed. Degaussing zapewnia, że wszystkie dane są magnetycznie usuwane z nośnika. Po usunięciu taśmy muszą zostać prawidłowo zniszczone i poddane recyklingu. Jeśli użyliśmy partnera migracji taśm, możemy również umożliwić partnerowi bezpieczne usuwanie taśm.