Udostępnij za pośrednictwem


Tworzenie magazynu metadanych usługi Unity Catalog

W tym artykule pokazano, jak utworzyć magazyn metadanych wykazu aparatu Unity i połączyć go z obszarami roboczymi.

Ważne

W przypadku obszarów roboczych, które zostały włączone dla wykazu aparatu Unity automatycznie, instrukcje zawarte w tym artykule są niepotrzebne. Usługa Databricks zaczęła automatycznie włączać nowe obszary robocze dla wykazu aparatu Unity 9 listopada 2023 r., a wdrożenie przebiega stopniowo między kontami. Musisz postępować zgodnie z instrukcjami w tym artykule tylko wtedy, gdy masz obszar roboczy i nie masz jeszcze magazynu metadanych w regionie obszaru roboczego. Aby określić, czy magazyn metadanych już istnieje w Twoim regionie, zobacz Automatyczne włączanie wykazu aparatu Unity.

Magazyn metadanych jest kontenerem najwyższego poziomu dla danych w wykazie aparatu Unity. Magazyny metadanych wykazu aparatu Unity rejestrują metadane dotyczące zabezpieczanych obiektów (takich jak tabele, woluminy, lokalizacje zewnętrzne i udziały) oraz uprawnienia, które zarządzają dostępem do nich. Każdy magazyn metadanych uwidacznia trzy-poziomową przestrzeń nazw (catalog.schema.),table za pomocą której można organizować dane. Musisz mieć jeden magazyn metadanych dla każdego regionu, w którym działa organizacja. Aby pracować z wykazem aparatu Unity, użytkownicy muszą znajdować się w obszarze roboczym dołączonym do magazynu metadanych w ich regionie.

Aby utworzyć magazyn metadanych, wykonaj następujące czynności:

  1. Na koncie platformy Azure opcjonalnie utwórz lokalizację magazynu dla magazynu metadanych magazynu zarządzanych tabel i woluminów.

    Aby uzyskać informacje ułatwiające określenie, czy potrzebujesz magazynu metadanych, zobacz (Opcjonalnie) Tworzenie magazynu metadanych na poziomie magazynu metadanych, a dane są fizycznie oddzielone w magazynie.

  2. Na koncie platformy Azure utwórz tożsamość zarządzaną platformy Azure lub jednostkę usługi, która zapewnia dostęp do tej lokalizacji magazynu.

  3. W usłudze Azure Databricks utwórz magazyn metadanych, dołącz lokalizację magazynu i przypisz obszary robocze do magazynu metadanych.

Uwaga

Oprócz metod opisanych w tym artykule można również utworzyć magazyn metadanych przy użyciu dostawcy narzędzia Terraform usługi Databricks, w szczególności zasobu databricks_metastore . Aby umożliwić katalogowi aparatu Unity dostęp do magazynu metadanych, użyj databricks_metastore_data_access. Aby połączyć obszary robocze z magazynem metadanych, użyj databricks_metastore_assignment.

Zanim rozpoczniesz

Przed rozpoczęciem zapoznaj się z podstawowymi pojęciami dotyczącymi wykazu aparatu Unity, w tym magazynami metadanych i magazynem zarządzanym. Sprawdź temat Co to jest wykaz Unity?.

Należy również potwierdzić, że spełniasz następujące wymagania dotyczące wszystkich kroków konfiguracji:

  • Musisz być administratorem konta usługi Azure Databricks.

    Pierwszym administratorem konta usługi Azure Databricks musi być administrator globalny microsoft Entra ID (dawniej Azure Active Directory) podczas pierwszego logowania się do konsoli konta usługi Azure Databricks. Po pierwszym zalogowaniu użytkownik staje się administratorem konta usługi Azure Databricks i nie potrzebuje już roli administratora globalnego microsoft Entra ID, aby uzyskać dostęp do konta usługi Azure Databricks. Pierwszy administrator konta może przypisać użytkowników w dzierżawie Microsoft Entra ID jako dodatkowych administratorów kont (którzy mogą przypisywać więcej administratorów kont). Dodatkowi administratorzy kont nie wymagają określonych ról w identyfikatorze Entra firmy Microsoft.

  • Obszary robocze dołączane do magazynu metadanych muszą znajdować się w planie usługi Azure Databricks Premium.

  • Jeśli chcesz skonfigurować magazyn główny na poziomie magazynu metadanych, musisz mieć uprawnienia do tworzenia następujących elementów w dzierżawie platformy Azure:

Krok 1 (opcjonalnie): Tworzenie kontenera magazynu dla magazynu zarządzanego na poziomie magazynu metadanych

W tym kroku, który jest opcjonalny, utworzysz konto magazynu i kontener do przechowywania zarządzanych danych tabeli i woluminu na poziomie magazynu metadanych. Aby określić, czy potrzebujesz magazynu na poziomie magazynu metadanych, zobacz (Opcjonalnie) Tworzenie magazynu metadanych na poziomie magazynu.

  1. Utwórz konto magazynu dla usługi Azure Data Lake Storage Gen2.

    To konto magazynu będzie zawierać tabele i woluminy zarządzane przez wykaz aparatu Unity. Musi to być konto usługi Azure Data Lake Storage Gen2 w tym samym regionie co obszary robocze usługi Azure Databricks. Zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.

  2. Utwórz kontener magazynu, który będzie przechowywać zarządzane tabele i dane woluminów na poziomie magazynu metadanych.

    Można utworzyć tylko jeden magazyn metadanych na region. Musisz użyć tego samego regionu dla magazynu metadanych i kontenera magazynu.

    Tę lokalizację magazynu na poziomie magazynu metadanych można zastąpić na poziomach wykazu i schematu. Zobacz Określanie lokalizacji magazynu zarządzanego w katalogu aparatu Unity.

    Zanotuj identyfikator URI ADLSv2 dla kontenera, który ma następujący format:

    abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
    

    W kolejnych krokach zastąp <storage-container> ciąg tym identyfikatorem URI.

Krok 2 (opcjonalnie): Tworzenie tożsamości zarządzanej w celu uzyskania dostępu do zarządzanej lokalizacji magazynu

W tym kroku, który jest wymagany tylko w przypadku ukończenia kroku 1, utworzysz łącznik dostępu usługi Azure Databricks, który zawiera tożsamość zarządzaną i przyznasz mu dostęp do kontenera magazynu.

Postępuj zgodnie z instrukcjami w artykule Używanie tożsamości zarządzanych platformy Azure w katalogu aparatu Unity, aby uzyskać dostęp do magazynu.

Uwaga

Tożsamość zarządzana platformy Azure lub jednostka usługi można użyć jako tożsamości, która zapewnia dostęp do kontenera magazynu metadanych. Usługa Databricks zdecydowanie zaleca tożsamości zarządzane, ponieważ nie wymagają one przechowywania poświadczeń ani rotacji wpisów tajnych, a także umożliwiają nawiązywanie połączenia z kontem usługi Azure Data Lake Storage Gen2 chronionym przez zaporę magazynu. Jeśli chcesz użyć jednostki usługi, zobacz Tworzenie magazynu zarządzanego wykazu aparatu Unity przy użyciu jednostki usługi (starsza wersja).

Krok 3. Tworzenie magazynu metadanych i dołączanie obszaru roboczego

Każdy region usługi Azure Databricks wymaga własnego magazynu metadanych wykazu aparatu Unity.

Tworzysz magazyn metadanych dla każdego regionu, w którym działa organizacja. Każdy z tych regionalnych magazynów metadanych można połączyć z dowolną liczbą obszarów roboczych w tym regionie. Każdy połączony obszar roboczy ma ten sam widok danych w magazynie metadanych, a kontrola dostępu do danych może być zarządzana między obszarami roboczymi. Dostęp do danych można uzyskać w innych magazynach metadanych przy użyciu funkcji Udostępniania różnicowego.

Jeśli zdecydujesz się utworzyć magazyn na poziomie magazynu metadanych, magazyn metadanych będzie używać kontenera magazynu i tożsamości zarządzanej platformy Azure utworzonej w poprzednich krokach.

Aby utworzyć magazyn metadanych:

  1. Jeśli wybrano opcję tworzenia magazynu metadanych, upewnij się, że masz ścieżkę do kontenera magazynu i identyfikator zasobu łącznika dostępu usługi Azure Databricks utworzonego w poprzednim zadaniu.

  2. Zaloguj się do obszaru roboczego jako administrator konta.

  3. Kliknij swoją nazwę użytkownika na górnym pasku obszaru roboczego usługi Azure Databricks i wybierz pozycję Zarządzaj kontem.

  4. Zaloguj się do konsoli konta usługi Azure Databricks.

  5. Kliknij pozycję Ikona wykazu Wykaz.

  6. Kliknij pozycję Utwórz magazyn metadanych.

  7. Wprowadź następujące informacje:

    • Nazwa magazynu metadanych.

    • Region , w którym zostanie wdrożony magazyn metadanych.

      Musi to znajdować się w tym samym regionie co obszary robocze, których chcesz użyć do uzyskiwania dostępu do danych. Jeśli zdecydujesz się utworzyć kontener magazynu dla magazynu metadanych, ten region również musi być taki sam.

    • (Opcjonalnie) Ścieżka usługi ADLS Gen 2: wprowadź ścieżkę do kontenera magazynu, który będzie używany jako magazyn główny dla magazynu metadanych.

      Prefiks abfss:// jest dodawany automatycznie.

    • (Opcjonalnie) Identyfikator łącznika dostępu: wprowadź identyfikator zasobu łącznika dostępu usługi Azure Databricks w formacie:

      /subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
      
  8. Kliknij pozycję Utwórz.

  9. Po wyświetleniu monitu wybierz obszary robocze, aby połączyć się z magazynem metadanych.

    Aby uzyskać szczegółowe informacje, zobacz Włączanie obszaru roboczego dla wykazu aparatu Unity.

  10. Przenieś rolę administratora magazynu metadanych do grupy.

    Użytkownik, który tworzy magazyn metadanych, jest jego właścicielem, nazywany również administratorem magazynu metadanych. Administrator magazynu metadanych może tworzyć obiekty najwyższego poziomu w magazynie metadanych, takich jak wykazy, i zarządzać dostępem do tabel i innych obiektów. Usługa Databricks zaleca ponowne przypisanie roli administratora magazynu metadanych do grupy. Zobacz Przypisywanie administratora magazynu metadanych.

  11. Włącz zarządzanie przekazywaniem w usłudze Azure Databricks do woluminów zarządzanych.

    Usługa Azure Databricks używa współużytkowania zasobów między źródłami (CORS) do przekazywania danych do woluminów zarządzanych w wykazie aparatu Unity. Zobacz Konfigurowanie konta magazynu wykazu aparatu Unity dla mechanizmu CORS.

Następne kroki

Dodawanie magazynu zarządzanego do istniejącego magazynu metadanych

Magazyn zarządzany na poziomie magazynu metadanych jest opcjonalny i nie jest uwzględniany w przypadku magazynów metadanych, które zostały utworzone automatycznie. Możesz dodać magazyn na poziomie magazynu metadanych do magazynu metadanych, jeśli wolisz model izolacji danych, który przechowuje dane centralnie dla wielu obszarów roboczych. Potrzebujesz magazynu na poziomie magazynu metadanych, jeśli chcesz udostępniać notesy przy użyciu funkcji Delta Sharing lub jesteś partnerem usługi Azure Databricks, który korzysta z osobistych lokalizacji przejściowych.

Zobacz też Określanie lokalizacji magazynu zarządzanego w katalogu aparatu Unity.

Wymagania

  • Musisz mieć co najmniej jeden obszar roboczy dołączony do magazynu metadanych wykazu aparatu Unity.
  • Wymagane uprawnienia usługi Azure Databricks:
    • Aby utworzyć lokalizację zewnętrzną, musisz być administratorem magazynu metadanych lub użytkownikiem z uprawnieniami CREATE EXTERNAL LOCATION i CREATE STORAGE CREDENTIAL .
    • Aby dodać lokalizację magazynu do definicji magazynu metadanych, musisz być administratorem konta. Aby uzyskać instrukcje dotyczące włączania roli administratora konta na koncie, zobacz Ustanawianie pierwszego administratora konta.
  • Wymagane uprawnienia dzierżawy platformy Azure:
    • Uprawnienie do tworzenia konta magazynu do użycia z usługą Azure Data Lake Storage Gen2. To konto magazynu musi mieć hierarchiczną przestrzeń nazw. Zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.
    • Uprawnienie do tworzenia nowego zasobu do przechowywania tożsamości zarządzanej przypisanej przez system. Wymaga to, aby być współautorem lub właścicielem grupy zasobów w dowolnej subskrypcji w dzierżawie.

Krok 1. Tworzenie lokalizacji przechowywania

Postępuj zgodnie z instrukcjami w kroku 1 (opcjonalnie): Utwórz kontener magazynu dla magazynu zarządzanego na poziomie metadanych i Krok 2 (opcjonalnie): Utwórz tożsamość zarządzaną w celu uzyskania dostępu do lokalizacji magazynu zarządzanego w celu utworzenia kontenera magazynu w usłudze Azure Data Lake Storage Gen2 i łącznika dostępu usługi Azure Databricks, który zawiera tożsamość zarządzaną, która ma dostęp do kontenera magazynu.

Krok 2. Tworzenie lokalizacji zewnętrznej w wykazie aparatu Unity

W tym kroku utworzysz lokalizację zewnętrzną w katalogu aparatu Unity, która odwołuje się do właśnie utworzonej ścieżki usługi ADLS Gen 2.

  1. Utwórz poświadczenia magazynu.

    Poświadczenie magazynu będzie reprezentować tożsamość zarządzaną platformy Azure utworzoną w kroku 1: Tworzenie lokalizacji magazynu.

    Postępuj zgodnie z instrukcjami w temacie Create a storage credential for connecting to Azure Data Lake Storage Gen2 (Tworzenie poświadczeń magazynu na potrzeby nawiązywania połączenia z usługą Azure Data Lake Storage Gen2).

  2. Utwórz lokalizację zewnętrzną, która odwołuje się do poświadczeń magazynu utworzonych w poprzednim kroku oraz kontenera magazynu usługi ADLS Gen 2 utworzonego w kroku 1: Tworzenie lokalizacji magazynu.

    Postępuj zgodnie z instrukcjami w temacie Tworzenie lokalizacji zewnętrznej, aby połączyć magazyn w chmurze z usługą Azure Databricks

  3. Przyznaj CREATE MANAGED STORAGE sobie uprawnienie w lokalizacji zewnętrznej.

    1. Kliknij nazwę lokalizacji zewnętrznej, aby otworzyć okienko szczegółów.
    2. Na karcie Uprawnienia kliknij pozycję Udziel.
    3. W oknie dialogowym Udzielanie na <external location> stronie wybierz siebie w polu Principals (Podmioty zabezpieczeń), a następnie wybierz pozycję CREATE MANAGED STORAGE.
    4. Kliknij pozycję Udziel.

Krok 3. Dodawanie lokalizacji magazynu do magazynu metadanych

Po utworzeniu lokalizacji zewnętrznej reprezentującej zasobnik magazynu metadanych można dodać go do magazynu metadanych.

  1. Jako administrator konta zaloguj się do konsoli konta.

  2. Kliknij pozycję Ikona wykazu Wykaz.

  3. Kliknij nazwę magazynu metadanych.

  4. Upewnij się, że jesteś administratorem magazynu metadanych.

    Jeśli tak nie jest, kliknij pozycję Edytuj i przypisz siebie jako administrator magazynu metadanych. Możesz cofnąć przypisanie siebie po wykonaniu tej procedury.

  5. Na karcie Konfiguracja obok ścieżki usługi ADLS Gen 2 kliknij pozycję Ustaw.

  6. W oknie dialogowym Ustawianie katalogu głównego magazynu metadanych wprowadź ścieżkę usługi ADLS Gen 2 użytą do utworzenia lokalizacji zewnętrznej, a następnie kliknij przycisk Aktualizuj.

    Nie można zmodyfikować tej ścieżki po jej ustawieniu.

Usuwanie magazynu metadanych

Jeśli zamykasz konto usługi Azure Databricks lub masz inny powód usunięcia dostępu do danych zarządzanych przez magazyn metadanych wykazu aparatu Unity, możesz usunąć magazyn metadanych.

Ostrzeżenie

Wszystkie obiekty zarządzane przez magazyn metadanych staną się niedostępne przy użyciu obszarów roboczych usługi Azure Databricks. Nie można tego cofnąć.

Dane i metadane zarządzanej tabeli zostaną automatycznie usunięte po upływie 30 dni. Usunięcie magazynu metadanych nie ma wpływu na dane tabeli zewnętrznej w magazynie w chmurze.

Aby usunąć magazyn metadanych:

  1. Jako administrator magazynu metadanych zaloguj się do konsoli konta.
  2. Kliknij pozycję Ikona wykazu Wykaz.
  3. Kliknij nazwę magazynu metadanych.
  4. Na karcie Konfiguracja kliknij menu z trzema przyciskami w prawym górnym rogu i wybierz pozycję Usuń.
  5. W oknie dialogowym potwierdzenia wprowadź nazwę magazynu metadanych i kliknij przycisk Usuń.