Faza 3. Magazyn metadanych Hive i migracja danych

Ten artykuł to Faza 3 z 4 w serii najlepszych praktyk migracji z Azure Synapse Spark do Microsoft Fabric.

Użyj tego artykułu, gdy będziesz gotowy do migracji katalogu metadanych Hive i planowania dostępu do danych w Fabric. Ten artykuł koncentruje się na dwóch decyzjach: migracji metadanych tabeli oraz tego, czy używać skrótów OneLake (zero-copy) lub przenieść dane do dostępnej pamięci masowej.

W tym artykule dowiesz się, jak:

Ocenianie tabel zarządzanych i zewnętrznych w celu określenia podejścia do migracji.
Eksportowanie i importowanie metadanych Hive Metastore przy użyciu przepływów pracy notebook.
Utwórz skróty OneLake w celu uzyskania dostępu bez kopiowania do istniejących źródeł danych.
Wybierz między skrótami, potokami kopiowania i narzędziami transferu zbiorczego na potrzeby przenoszenia danych.

Tip

Utwórz docelowy Lakehouse z włączonymi schematami. Schematy Lakehouse umożliwiają organizowanie tabel w nazwanych kolekcjach (na przykład sprzedaż, marketing, HR). Zestaw Spark Asystent migracji mapuje domyślną bazę danych Synapse na schemat dbo i dodatkowe bazy danych na dodatkowe schematy w tej samej usłudze Lakehouse. Schematy są domyślnie aktywowane podczas tworzenia nowego Lakehouse w portalu Fabric.

Aby zapoznać się z pełnym przewodnikiem migracji HMS, zobacz Migrowanie metadanych magazynu metadanych Hive.

Ocena tabel zarządzanych a zewnętrznych

Krytycznym pierwszym krokiem jest rozróżnienie tabel zarządzanych i zewnętrznych w Synapse Hive Metastore.

Tabele zewnętrzne: Jeśli dane są w usłudze ADLS Gen2 w formacie delta, utwórz skróty OneLake bezpośrednio do ścieżek usługi ADLS Gen2. Żadne przenoszenie danych nie jest potrzebne.
Tabele zarządzane: Dane są przechowywane w wewnętrznym katalogu przechowywania usługi Synapse. Należy utworzyć skróty OneLake do tej ścieżki lub skopiować dane do dostępnej lokalizacji ADLS Gen2.

Ścieżka katalogu zarządzanego magazynu tabel usługi Synapse:

abfss://<container>@<storage>.dfs.core.windows.net/synapse/workspaces/<workspace>/warehouse

Przepływ migracji pracy

Microsoft udostępnia notesy eksportu/importu na potrzeby migracji magazynu metadanych Hive. Proces ma dwie fazy.

Aby zapoznać się z pełnym przewodnikiem migracji HMS, zobacz Migrowanie metadanych Hive Metastore.

Faza 1. Eksportowanie metadanych z usługi Synapse

Importuj eksportowany notes HMS do obszaru roboczego Azure Synapse. Ten notatnik wykonuje zapytania i eksportuje metadane HMS baz danych, tabel i partycji do katalogu tymczasowego w OneLake.
Konfigurowanie parametrów. Ustaw nazwę obszaru roboczego usługi Synapse, nazwy baz danych do wyeksportowania i docelową usługę OneLake Lakehouse na potrzeby przemieszczania. API wewnętrznego katalogu Spark jest używane do odczytywania obiektów katalogu.
Uruchom eksport. Wykonaj wszystkie komórki notatnika. Metadane są zapisywane do sekcji Pliki w Fabric Lakehouse w uporządkowanej hierarchii folderów.

Faza 2. Importowanie metadanych do usługi Fabric Lakehouse

Tworzenie skrótów na potrzeby dostępu do danych. Utwórz skrót w sekcji Files w Lakehouse wskazujący katalog magazynu Synapse Spark. Dzięki temu zarządzane dane tabeli są dostępne dla Fabric.
Konfigurowanie mapowań magazynu. W przypadku tabel zarządzanych podaj WarehouseMappings w celu zastąpienia starych ścieżek katalogów magazynu Synapse ścieżkami skrótów w Fabric. Podczas importowania wszystkie tabele zarządzane są konwertowane na tabele zewnętrzne.
Uruchom notatnik importu w Fabric, aby utworzyć obiekty katalogu (bazy danych, tabele, partycje) w Lakehouse, używając wewnętrznego katalogu API Spark.
Sprawdź. Sprawdź, czy wszystkie zaimportowane tabele są widoczne w sekcji Tabele interfejsu użytkownika eksploratora usługi Lakehouse.

Ograniczenia i zagadnienia

Skrypty migracji używają wewnętrznego API katalogu Spark, a nie bezpośrednich połączeń z bazą danych HMS. Może to nie być dobrze skalowane w przypadku bardzo dużych katalogów — w przypadku dużych środowisk należy rozważyć zmodyfikowanie logiki eksportu w celu bezpośredniego wysyłania zapytań do bazy danych HMS.
Podczas eksportu nie ma żadnej gwarancji izolacji. Jeśli środowisko obliczeniowe usługi Synapse Spark modyfikuje magazyn metadanych jednocześnie, mogą zostać wprowadzone niespójne dane. Zaplanuj migrację podczas okienka konserwacyjnego.
Funkcje nie są uwzględniane w bieżących skryptach migracji.
Po migracji skróty OneLake zapewniają ciągły dostęp do danych. Jeśli Synapse kontynuuje zapisywanie w tych samych ścieżkach ADLS Gen2, Fabric automatycznie widzi zaktualizowane dane dzięki skrótom (synchronizacja na poziomie danych). Jednak nowe tabele lub zmiany schematu w usłudze Synapse HMS nie będą propagowane automatycznie — należy ponownie uruchomić skrypty migracji lub ręcznie utworzyć nowe tabele w usłudze Fabric Lakehouse.
External Hive Metastore (Azure SQL DB/MySQL): Niektóre obszary robocze usługi Synapse używają zewnętrznego systemu HMS wspieranego przez Azure SQL Database lub Azure Database for MySQL do utrwalania metadanych katalogu poza obszarem roboczym i udostępniania ich w usłudze HDInsight lub Databricks. Fabric nie obsługuje łączenia się z zewnętrznym magazynem metadanych Hive — używa wyłącznie katalogu Lakehouse. Jeśli używasz zewnętrznego systemu HMS, musisz przeprowadzić migrację metadanych do katalogu usługi Fabric Lakehouse. Można to zrobić, wysyłając zapytanie do zewnętrznej bazy danych HMS bezpośrednio (za pośrednictwem JDBC), aby wyeksportować definicje tabel, a następnie ponownie utworzyć je w Fabric przy użyciu usługi Spark SQL lub notesów importu HMS. Należy pamiętać, że zewnętrzne wsparcie dla HMS w Synapse jest uznane za przestarzałe po wydaniu Spark 3.4.

Tip

W przypadku trwającej synchronizacji, gdy zarówno usługa Synapse, jak i Fabric są aktywne: użyj skrótów OneLake do synchronizacji na poziomie danych (automatycznej) i zaplanuj okresowe ponowne uruchomienia notesów eksportu/importu HMS lub skompiluj notes uzgodnień w celu wykrywania i synchronizowania nowych tabel.

Opcje migracji danych

Masz dane w usłudze ADLS Gen2 połączone z obszarem roboczym usługi Synapse, które należy udostępnić w usłudze Fabric Lakehouse bez niepotrzebnego duplikowania danych. Wybierz jedną z następujących metod.

OneLake Shortcuts (zalecane, zero-copy): Utwórz skróty w Fabric Lakehouse wskazujące na istniejące ścieżki ADLS Gen2. Dane formatu Delta w sekcji Tabele są automatycznie rejestrowane w katalogu Lakehouse. Dane CSV/JSON/Parquet są przechowywane w sekcji Pliki. Nie jest wymagane przenoszenie danych.
mssparkutils fastcp: Do kopiowania danych z usługi ADLS Gen2 do usługi OneLake w notatnikach.
AzCopy: narzędzie wiersza polecenia do zbiorczego kopiowania danych z usługi ADLS Gen2 do usługi OneLake.
Aktywność kopiowania Data Factory: Użyj usługi Fabric Data Factory (lub istniejących potoków ADF/Synapse), aby skopiować dane do Lakehouse.
Eksplorator usługi Azure Storage: Narzędzie wizualne do przenoszenia plików z usługi ADLS Gen2 do usługi OneLake.

Tip

Preferuj skróty zamiast przenoszenia danych, jeśli jest to możliwe. Skróty unikają duplikowania i kosztów magazynowania danych, a tabele różnicowe w sekcji Tabele są automatycznie wykrywalne w punkcie końcowym analizy SQL i Power BI.

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-28