Migrowanie usługi Azure Data Lake Storage z gen1 do generacji 2 przy użyciu witryny Azure Portal

W tym artykule pokazano, jak uprościć migrację przy użyciu witryny Azure Portal.

Uwaga

Usługa Azure Data Lake Storage Gen1 została wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Zasoby usługi Data Lake Storage Gen1 nie są już dostępne. Jeśli potrzebujesz specjalnej pomocy, skontaktuj się z nami.

Oto film wideo, który zawiera więcej informacji na ten temat.

     Rozdziały:


  • 00.37 — wprowadzenie

  • 01:16 — Przygotowanie do migracji

  • 07:15 — migracja kopii

  • 17:40 — Kopiowanie i ukończenie migracji

  • 19:43 — Ukończona migracja

  • 33:15 — Po migracji

Przed rozpoczęciem zapoznaj się z ogólnymi wskazówkami dotyczącymi migracji z usługi Gen1 do 2. generacji w wytycznych i wzorcach migracji usługi Azure Data Lake Storage.

Twoje konto może nie kwalifikować się do migracji opartej na portalu na podstawie pewnych ograniczeń. Jeśli przycisk Migrowanie danych nie jest włączony w witrynie Azure Portal dla konta usługi Gen1, jeśli masz plan pomocy technicznej, możesz zgłosić wniosek o pomoc techniczną. Możesz również uzyskać odpowiedzi od ekspertów społeczności w witrynie Microsoft Q&A.

Uwaga

Aby ułatwić czytanie, w tym artykule użyto terminu Gen1 do odwoływania się do usługi Azure Data Lake Storage Gen1 oraz terminu Gen2, aby zapoznać się z usługą Azure Data Lake Storage Gen2.

Krok 1. Tworzenie konta magazynu z możliwościami usługi Gen2

Usługa Azure Data Lake Storage Gen2 nie jest dedykowanym kontem magazynu ani typem usługi. Jest to zestaw funkcji, które można uzyskać, włączając funkcję Hierarchiczna przestrzeń nazw konta usługi Azure Storage. Aby utworzyć konto z możliwościami usługi Gen2, zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.

Podczas tworzenia konta upewnij się, że skonfigurować ustawienia przy użyciu następujących wartości.

Ustawienie Wartość
Nazwa konta magazynu Dowolna nazwa. Ta nazwa nie musi być zgodna z nazwą konta gen1 i może znajdować się w dowolnej wybranej subskrypcji.
Lokalizacja Ten sam region używany przez konto usługi Data Lake Storage Gen1
Replikacja LRS lub ZRS
Minimalna wersja protokołu TLS 1.0
NFS v3 Disabled
Hierarchiczna przestrzeń nazw Włączona

Uwaga

Narzędzie do migracji w witrynie Azure Portal nie przenosi ustawień konta. W związku z tym po utworzeniu konta należy ręcznie skonfigurować ustawienia, takie jak szyfrowanie, zapory sieciowe, ochrona danych.

Ważne

Upewnij się, że używasz nowego, nowo utworzonego konta magazynu, które nie ma historii użycia. Nie należy migrować do wcześniej używanego konta ani używać konta, w którym kontenery zostały usunięte, aby konto było puste.

Krok 2. Weryfikowanie przypisań ról kontroli dostępu na podstawie ról (RBAC) platformy Azure

W przypadku usługi Gen2 upewnij się, że rola Właściciela danych obiektu blob usługi Storage została przypisana do tożsamości użytkownika usługi Microsoft Entra w zakresie konta magazynu, nadrzędnej grupy zasobów lub subskrypcji.

W przypadku usługi Gen1 upewnij się, że rola Właściciel została przypisana do tożsamości Firmy Microsoft Entra w zakresie konta Gen1, nadrzędnej grupy zasobów lub subskrypcji.

Krok 3. Migrowanie obciążeń usługi Azure Data Lake Analytics

Usługa Azure Data Lake Storage Gen2 nie obsługuje usługi Azure Data Lake Analytics. Usługa Azure Data Lake Analytics zostanie wycofana 29 lutego 2024 r. Jeśli spróbujesz użyć witryny Azure Portal do przeprowadzenia migracji konta usługi Azure Data Lake Storage Gen1 używanego na potrzeby usługi Azure Data Lake Analytics, możliwe jest, że przerwisz obciążenia usługi Azure Data Lake Analytics. Przed podjęciem próby przeprowadzenia migracji konta usługi Gen1 należy najpierw przeprowadzić migrację obciążeń usługi Azure Data Lake Analytics do usługi Azure Synapse Analytics lub innej obsługiwanej platformy obliczeniowej.

Aby uzyskać więcej informacji, zobacz Zarządzanie usługą Azure Data Lake Analytics przy użyciu witryny Azure Portal.

Krok 4. Przygotowanie konta gen1

Nazwy plików lub katalogów zawierające tylko spacje lub karty, kończące się ciągiem .:, lub z wieloma kolejnymi ukośnikami (//) nie są zgodne z gen2. Przed migracją należy zmienić nazwę tych plików lub katalogów.

Aby uzyskać lepszą wydajność, rozważ opóźnienie migracji przez co najmniej dziesięć dni od czasu ostatniej operacji usuwania. Na koncie gen1 usunięte pliki stają się nietrwałe , a moduł odśmiecwania pamięci nie usunie ich trwale do siedmiu dni i potrwa kilka dodatkowych dni do przetworzenia czyszczenia. Czas potrzebny na oczyszczenie będzie zależeć od liczby plików. Wszystkie pliki, w tym pliki usunięte nietrwale, są przetwarzane podczas migracji. Jeśli zaczekasz na trwałe usunięcie usuniętych plików przez moduł odśmiecwania pamięci, czas oczekiwania może się poprawić.

Krok 5. Przeprowadzanie migracji

Przed rozpoczęciem zapoznaj się z dwiema poniższymi opcjami migracji i zdecyduj, czy skopiować dane tylko z gen1 do generacji 2 (zalecane) lub przeprowadzić pełną migrację.

Opcja 1. Kopiowanie tylko danych (zalecane). W tej opcji dane są kopiowane z gen1 do generacji 2. Podczas kopiowania danych konto gen1 staje się tylko do odczytu. Po skopiowaniu danych zarówno konta Gen1, jak i Gen2 będą dostępne. Należy jednak zaktualizować aplikacje i obciążenia obliczeniowe, aby używać nowego punktu końcowego gen2.

Opcja 2. Przeprowadzanie pełnej migracji. W tej opcji dane są kopiowane z gen1 do generacji 2. Po skopiowaniu danych cały ruch z konta Gen1 zostanie przekierowany do konta z włączoną obsługą gen2. Przekierowane żądania używają warstwy zgodności Gen1, aby przetłumaczyć wywołania interfejsu API gen1 na odpowiedniki gen2. Podczas migracji konto Gen1 staje się tylko do odczytu. Po zakończeniu migracji konto gen1 nie będzie dostępne.

Niezależnie od wybranej opcji po przeprowadzeniu migracji i sprawdzeniu, czy wszystkie obciążenia działają zgodnie z oczekiwaniami, możesz usunąć konto gen1.

Opcja 1. Kopiowanie danych z gen1 do generacji 2

  1. Zaloguj się w witrynie Azure Portal, aby rozpocząć pracę.

  2. Znajdź konto usługi Data Lake Storage Gen1 i wyświetl omówienie konta.

  3. Wybierz przycisk Migruj dane .

    Screenshot of the button to migrate.

  4. Wybierz pozycję Kopiuj dane do nowego konta gen2.

    Screenshot of the copy data option.

  5. Udziel firmie Microsoft zgody na przeprowadzenie migracji danych, zaznaczając pole wyboru. Następnie wybierz przycisk Zastosuj .

    Screenshot of the checkbox to provide consent.

    Zostanie wyświetlony pasek postępu wraz z komunikatem o stanie podrzędnym. Możesz użyć tych wskaźników, aby ocenić postęp migracji. Ponieważ czas ukończenia każdego zadania jest różny, pasek postępu nie będzie przechodzić w spójnego tempie. Na przykład pasek postępu może szybko przejść do 50 procent, ale pośmiń nieco więcej czasu, aby ukończyć pozostałe 50 procent.

    Screenshot of progress bar when migrating data.

    Ważne

    Podczas migrowania danych twoje konto gen1 staje się tylko do odczytu, a konto z włączoną obsługą usługi Gen2 jest wyłączone. Po zakończeniu migracji można odczytywać i zapisywać na obu kontach.

    Migrację można zatrzymać w dowolnym momencie, wybierając przycisk Zatrzymaj migrację.

    Screenshot of the stop migration option.

Opcja 2. Przeprowadzanie pełnej migracji

  1. Zaloguj się w witrynie Azure Portal, aby rozpocząć pracę.

  2. Znajdź konto usługi Data Lake Storage Gen1 i wyświetl omówienie konta.

  3. Wybierz przycisk Migruj dane .

    Screenshot of the migrate button.

  4. Wybierz pozycję Ukończ migrację do nowego konta gen2.

    Screenshot of the complete migration option.

  5. Udziel firmie Microsoft zgody na przeprowadzenie migracji danych, zaznaczając pole wyboru. Następnie wybierz przycisk Zastosuj .

    Screenshot of the consent checkbox.

    Zostanie wyświetlony pasek postępu wraz z komunikatem o stanie podrzędnym. Możesz użyć tych wskaźników, aby ocenić postęp migracji. Ponieważ czas ukończenia każdego zadania jest różny, pasek postępu nie będzie przechodzić w spójnego tempie. Na przykład pasek postępu może szybko przejść do 50 procent, ale pośmiń nieco więcej czasu, aby ukończyć pozostałe 50 procent.

    Screenshot of progress bar when performing a complete migration.

    Ważne

    Podczas migrowania danych twoje konto gen1 staje się tylko do odczytu, a konto z włączoną obsługą usługi Gen2 jest wyłączone.

    Ponadto podczas przekierowywania identyfikatora URI 1. generacji oba konta są wyłączone.

    Po zakończeniu migracji konto usługi Gen1 zostanie wyłączone. Dane na koncie Usługi Gen1 nie będą dostępne i zostaną usunięte po upływie 30 dni. Twoje konto usługi Gen2 będzie dostępne dla operacji odczytu i zapisu.

    Migrację można zatrzymać w dowolnym momencie przed przekierowaniem identyfikatora URI, wybierając przycisk Zatrzymaj migrację.

    Screenshot of the migration stop button.

Krok 6. Sprawdzanie, czy migracja została ukończona

Jeśli migracja zakończy się pomyślnie, kontener o nazwie gen1 zostanie utworzony na koncie obsługującym usługę Gen2, a wszystkie dane z konta Gen1 zostaną skopiowane do tego nowego kontenera gen1 . Aby znaleźć dane w ścieżce, która istniała w usłudze Gen1, należy dodać prefiks gen1/ do tej samej ścieżki, aby uzyskać do niej dostęp w usłudze Gen2. Na przykład ścieżka o nazwie "FolderRoot/FolderChild/FileName.csv" w usłudze Gen1 będzie dostępna w folderze "gen1/FolderRoot/FolderChild/FileName.csv" w usłudze Gen2. Nie można zmienić nazw kontenerów w usłudze Gen2, więc nie można zmienić nazwy tego kontenera gen1 w usłudze Gen2 po migracji. Jednak w razie potrzeby dane można skopiować do nowego kontenera w usłudze Gen2.

Jeśli migracja nie zakończy się pomyślnie, zostanie wyświetlony komunikat informujący o tym, że migracja została zatrzymana z powodu niezgodności. Jeśli chcesz uzyskać pomoc dotyczącą następnego kroku, skontaktuj się z pomoc techniczna firmy Microsoft. Ten komunikat może pojawić się, jeśli konto z włączoną obsługą generacji zostało wcześniej użyte lub gdy pliki i katalogi na koncie Gen1 używają niezgodnych konwencji nazewnictwa.

Przed skontaktowaniem się z pomocą techniczną upewnij się, że używasz nowego, nowo utworzonego konta magazynu, które nie ma historii użycia. Unikaj migracji do wcześniej używanego konta lub konta, w którym kontenery zostały usunięte, aby konto było puste. Na koncie usługi Gen1 upewnij się, że zmieniono nazwy plików lub katalogów, które zawierają tylko spacje lub karty, na końcu z elementem ., zawierać :lub zawierać wiele ukośników (//).

Krok 7. Migrowanie obciążeń i aplikacji

  1. Skonfiguruj usługi w obciążeniach , aby wskazywały punkt końcowy usługi Gen2. Aby uzyskać linki do artykułów, które ułatwiają konfigurowanie usługi Azure Databricks, HDInsight i innych usług platformy Azure do korzystania z usługi Gen2, zobacz Usługi platformy Azure, które obsługują usługę Azure Data Lake Storage Gen2.

  2. Zaktualizuj aplikacje, aby korzystały z interfejsów API gen2. Zobacz następujące przewodniki:

    Środowisko Artykuł
    Eksplorator magazynu Azure Zarządzanie katalogami i plikami w usłudze Azure Data Lake Storage Gen2 przy użyciu Eksplorator usługi Azure Storage
    .NET Zarządzanie katalogami i plikami w usłudze Azure Data Lake Storage Gen2 przy użyciu platformy .NET
    Java Zarządzanie katalogami i plikami w usłudze Azure Data Lake Storage Gen2 przy użyciu języka Java
    Python Zarządzanie katalogami i plikami w usłudze Azure Data Lake Storage Gen2 przy użyciu języka Python
    JavaScript (Node.js) Zarządzanie katalogami i plikami w usłudze Azure Data Lake Storage Gen2 za pomocą zestawu SDK języka JavaScript w Node.js
    Interfejs API REST Azure Data Lake Store REST API
  3. Zaktualizuj skrypty, aby używały poleceń cmdlet programu PowerShell usługi Data Lake Storage Gen2 i poleceń interfejsu wiersza polecenia platformy Azure.

  4. Wyszukaj odwołania identyfikatora URI zawierające ciąg adl:// w plikach kodu lub w notesach usługi Databricks, plikach HQL apache Hive lub innych plikach używanych w ramach obciążeń. Zastąp te odwołania identyfikatorem URI w formacie Gen2 nowego konta magazynu. Na przykład: identyfikator URI 1. generacji: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile może stać się .abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile

Warstwa zgodności Gen1

Ta warstwa próbuje zapewnić zgodność aplikacji między gen1 i gen2 jako wygodę podczas migracji, aby aplikacje mogły nadal korzystać z interfejsów API gen1 do interakcji z danymi na koncie obsługującym usługę Gen2. Ta warstwa ma ograniczoną funkcjonalność i zaleca się zweryfikowanie obciążeń przy użyciu kont testowych, jeśli używasz tego podejścia w ramach migracji. Warstwa zgodności działa na serwerze, więc nie ma nic do zainstalowania.

Ważne

Firma Microsoft nie zaleca tej możliwości jako zamiennika migracji obciążeń i aplikacji. Obsługa warstwy zgodności Gen1 zakończy się po wycofaniu 29 lutego 2024 r. gen1.

Aby napotkać najmniejszą liczbę problemów z warstwą zgodności, upewnij się, że zestawy SDK gen1 korzystają z następujących wersji (lub wyższych).

Język Wersja zestawu SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

Poniższa funkcja nie jest obsługiwana w warstwie zgodności.

  • Opcja interfejsu API ListStatus do elementu ListBefore a entry.

  • Interfejs API ListStatus z ponad 4000 plikami bez tokenu kontynuacji.

  • Kodowanie fragmentów dla operacji dołączania.

  • Wszystkie wywołania interfejsu API, które używają https://management.azure.com/ jako grupy odbiorców tokenów firmy Microsoft Entra.

  • Nazwy plików lub katalogów zawierające tylko spacje lub karty, kończące się ciągiem , zawierającym .:lub z wieloma kolejnymi ukośnikami (//).

Często zadawane pytania

Jak długo potrwa migracja?

Dane i metadane są migrowane równolegle. Łączny czas wymagany do ukończenia migracji jest równy ostatniemu zakończeniu tych dwóch procesów.

W poniższej tabeli przedstawiono przybliżoną szybkość każdego zadania przetwarzania migracji.

Uwaga

Te oszacowania czasu są przybliżone i mogą się różnić. Na przykład kopiowanie dużej liczby małych plików może spowolnić wydajność.

Przetwarzanie zadania Szybkość
Kopiowanie danych 9 TB na godzinę
Sprawdzanie poprawności danych 9 milionów plików lub folderów na godzinę
Kopiowanie metadanych 4 miliony plików lub folderów na godzinę
Przetwarzanie metadanych 25 milionów plików lub folderów na godzinę
Dodatkowe przetwarzanie metadanych (opcja kopiowania danych)1 50 milionów plików lub folderów na godzinę

1 Dodatkowy czas przetwarzania metadanych ma zastosowanie tylko w przypadku wybrania opcji Kopiuj dane do nowego konta gen2. Ten czas przetwarzania nie ma zastosowania, jeśli wybierzesz opcję Zakończ migrację do nowego konta gen2.

Przykład: przetwarzanie dużej ilości danych i metadanych

W tym przykładzie przyjęto założenie , że 300 TB danych i 200 milionów danych i elementów metadanych.

Zadanie Szacowany czas
Kopiowanie danych 300 TB / 9 TB = 33,33 godziny
Weryfikacja danych 200 milionów / 9 milionów = 22,22 godziny
Łączny czas migracji danych 33,33 + 22,2 = 55,55 godz.
Kopiowanie metadanych 200 milionów / 4 miliony = 50 godzin
Przetwarzanie metadanych 200 milionów / 25 milionów = 8 godzin
Dodatkowe przetwarzanie metadanych — tylko opcja kopiowania danych 200 milionów / 50 milionów = 4 godziny
Całkowity czas migracji metadanych 50 + 8 + 4 = 62 godziny
Całkowity czas przeprowadzania migracji tylko do danych 62 godziny
Łączny czas przeprowadzania pełnej migracji 62– 4 = 58 godzin
Przykład: przetwarzanie niewielkiej ilości danych i metadanych

W tym przykładzie przyjęto założenie, że 2 TB danych i 56 tysięcy danych i elementów metadanych.

Zadanie Szacowany czas
Kopiowanie danych (2 TB / 9 TB) * 60 minut = 13,3 minut
Weryfikacja danych (56 000 / 9 milionów) * 3600 sekund = 22,4 sekundy
Łączny czas migracji danych 13,3 minuty + 22,4 sekundy = około 14 minut
Kopiowanie metadanych (56 000 / 4 miliony) * 3600 sekund = około 51 sekund
Przetwarzanie metadanych 56 000/ 25 milionów = 8 sekund
Dodatkowe przetwarzanie metadanych — tylko opcja kopiowania danych (56 000 / 50 milionów) * 3600 sekund = 4 sekundy
Całkowity czas migracji metadanych 51 + 8 + 4 = 63 sekundy
Całkowity czas przeprowadzania migracji tylko do danych 14 minut
Łączny czas przeprowadzania pełnej migracji 14 minut — 4 sekundy = 13 minut i 56 sekund (około 14 minut)

Ile kosztuje migracja danych?

Korzystanie z narzędzia migracji opartego na portalu nie jest kosztowne, jednak opłaty będą naliczane za użycie usług Azure Data Lake Gen1 i Gen2. Podczas migracji danych będą naliczane opłaty za magazyn danych i transakcje konta gen1.

Po migracji, jeśli wybrano opcję, która kopiuje tylko dane, opłaty będą naliczane za magazyn danych i transakcje dla kont usługi Azure Data Lake Gen1 i Gen2. Aby uniknąć naliczania opłat za konto Gen1, usuń konto gen1 po zaktualizowaniu aplikacji, aby wskazywały usługę Gen2. Jeśli zdecydujesz się przeprowadzić pełną migrację, opłaty będą naliczane tylko za magazyn danych i transakcje konta z włączoną obsługą usługi Gen2.

Upewnij się, że wszystkie konta usługi Azure Data lake Analytics są migrowane do usługi Azure Synapse Analytics lub innej obsługiwanej platformy obliczeniowej. Po przeprowadzeniu migracji kont usługi Azure Data Lake Analytics spróbuj ponownie wyrazić zgodę. Jeśli problem zostanie wyświetlony dalej i masz plan pomocy technicznej, możesz zgłosić wniosek o pomoc techniczną. Możesz również uzyskać odpowiedzi od ekspertów społeczności w witrynie Microsoft Q&A.

Czy po zakończeniu migracji mogę wrócić do korzystania z konta gen1?

Jeśli użyto opcji 1: Skopiuj dane z generacji 1 do generacji2 wymienionej powyżej, zarówno konta Gen1, jak i Gen2 są dostępne dla operacji odczytu i zapisu po migracji. Jeśli jednak użyto opcji 2: przeprowadzenie pełnej migracji, powrót do konta Gen1 nie jest obsługiwany. W opcji 2 po zakończeniu migracji dane na koncie Gen1 nie będą dostępne i zostaną usunięte po upływie 30 dni. Możesz nadal wyświetlać konto gen1 w witrynie Azure Portal, a gdy wszystko będzie gotowe, możesz usunąć konto usługi Gen1.

Chcę włączyć magazyn geograficznie nadmiarowy (GRS) na koncie obsługującym usługę Gen2. Jak mogę to zrobić?

Po zakończeniu migracji zarówno w opcjach kopiowania danych, jak i "Ukończ migrację", możesz przejść do przodu i zmienić opcję nadmiarowości na GRS, o ile nie planujesz korzystać z warstwy zgodności aplikacji. Zgodność aplikacji nie będzie działać na kontach korzystających z nadmiarowości GRS.

Usługa Gen1 nie ma kontenerów, a usługa Gen2 ma je — czego należy się spodziewać?

Gdy skopiujemy dane do konta z włączoną obsługą usługi Gen2, automatycznie utworzymy kontener o nazwie "Gen1". Nie można zmienić nazwy kontenerów w usłudze Gen2 i dlatego w razie potrzeby można skopiować dane po migracji do nowego kontenera w usłudze Gen2.

Co należy wziąć pod uwagę pod względem wydajności migracji?

Podczas kopiowania danych na konto z włączoną obsługą gen2 dwa czynniki, które mogą mieć wpływ na wydajność, to liczba plików i ilość posiadanych metadanych. Na przykład wiele małych plików może mieć wpływ na wydajność migracji.

Czy interfejsy API systemu plików WebHDFS będą obsługiwane po migracji na koncie gen2?

Interfejsy API systemu plików WebHDFS gen1 będą obsługiwane w usłudze Gen2, ale z pewnymi odchyleniami, a tylko ograniczona funkcjonalność jest obsługiwana za pośrednictwem warstwy zgodności. Klienci powinni planować wykorzystanie interfejsów API specyficznych dla generacji w celu uzyskania lepszej wydajności i funkcji.

Co się stanie z moim kontem Gen1 po dacie wycofania?

Konto staje się niedostępne. Nie będzie można wykonywać następującej liczby:

  • Zarządzanie kontem

  • Uzyskiwanie dostępu do danych na koncie

  • Otrzymywanie aktualizacji usługi do interfejsów API Gen1 lub Gen1, zestawów SDK lub narzędzi klienckich

  • Uzyskiwanie dostępu do działu pomocy technicznej 1. generacji w trybie online, przez telefon lub pocztę e-mail

Zobacz Wymagane działanie: Przełącz się do usługi Azure Data Lake Storage Gen2 do 29 lutego 2024 r.

Następne kroki