Połączenie do magazynu obiektów w chmurze przy użyciu wykazu aparatu Unity

Ten artykuł zawiera omówienie konfiguracji połączeń magazynu w chmurze, które są wymagane do pracy z danymi przy użyciu wykazu aparatu Unity.

Usługa Databricks zaleca używanie wykazu aparatu Unity do zarządzania dostępem do wszystkich danych przechowywanych w magazynie obiektów w chmurze. Wykaz aparatu Unity udostępnia zestaw narzędzi do konfigurowania bezpiecznych połączeń z magazynem obiektów w chmurze. Te połączenia zapewniają dostęp do wykonania następujących akcji:

  • Pozyskiwanie danych pierwotnych do magazynu lakehouse.
  • Tworzenie i odczytywanie tabel zarządzanych w bezpiecznym magazynie w chmurze.
  • Zarejestruj lub utwórz tabele zewnętrzne zawierające dane tabelaryczne.
  • Odczytywanie i zapisywanie danych bez struktury.

Ostrzeżenie

Nie należy udzielać użytkownikom końcowym dostępu na poziomie magazynu do zarządzanych tabel lub woluminów wykazu aparatu Unity. To zagraża bezpieczeństwu danych i ładowi.

Udzielanie użytkownikom bezpośredniego dostępu na poziomie magazynu do magazynu lokalizacji zewnętrznej w usłudze Azure Data Lake Storage Gen2 nie przyznaje żadnych uprawnień ani inspekcji obsługiwanych przez wykaz aparatu Unity. Bezpośredni dostęp spowoduje obejście inspekcji, pochodzenia i innych funkcji zabezpieczeń i monitorowania wykazu aparatu Unity, w tym kontroli dostępu i uprawnień. Odpowiadasz za zarządzanie bezpośrednim dostępem do magazynu za pośrednictwem usługi Azure Data Lake Storage Gen2 i zapewnienie, że użytkownicy mają odpowiednie uprawnienia przyznane za pośrednictwem sieci szkieletowej.

Unikaj wszystkich scenariuszy, które zapewniają bezpośredni dostęp do zapisu na poziomie magazynu dla zasobników, które przechowują tabele zarządzane przez usługę Databricks. Modyfikowanie, usuwanie lub rozwijanie dowolnych obiektów bezpośrednio za pośrednictwem magazynu, które zostały pierwotnie zarządzane przez wykaz aparatu Unity, może spowodować uszkodzenie danych.

Uwaga

Jeśli obszar roboczy został utworzony przed 9 listopada 2023 r., może nie być włączony dla wykazu aparatu Unity. Administrator konta musi włączyć wykaz aparatu Unity dla obszaru roboczego. Zobacz Włączanie obszaru roboczego dla wykazu aparatu Unity.

Jak wykaz aparatu Unity łączy magazyn obiektów z usługą Azure Databricks?

Usługa Azure Databricks obsługuje zarówno kontenery usługi Azure Data Lake Storage Gen2, jak i zasobniki cloudflare R2 (publiczna wersja zapoznawcza) jako lokalizacje magazynu w chmurze dla danych i zasobów sztucznej inteligencji zarejestrowanych w wykazie aparatu Unity. R2 jest przeznaczony głównie dla przypadków użycia, w których chcesz uniknąć opłat za ruch wychodzący danych, takich jak udostępnianie różnicowe w chmurach i regionach. Aby uzyskać więcej informacji, zobacz Use Cloudflare R2 replicas or migrate storage to R2 (Używanie replik cloudflare R2 lub migrowanie magazynu do wersji R2).

Aby zarządzać dostępem do bazowego magazynu w chmurze zawierającego tabele i woluminy, wykaz aparatu Unity używa następujących typów obiektów:

  • Poświadczenie magazynu reprezentuje mechanizm uwierzytelniania i autoryzacji na potrzeby uzyskiwania dostępu do danych przechowywanych w dzierżawie chmury przy użyciu tożsamości zarządzanej platformy Azure lub jednostki usługi dla kontenerów usługi Azure Data Lake Storage Gen2 lub tokenu interfejsu API R2 dla zasobników cloudflare R2. Każde poświadczenie magazynu podlega zasadom kontroli dostępu wykazu aparatu Unity, które kontrolują, którzy użytkownicy i grupy mogą uzyskiwać dostęp do poświadczeń. Jeśli użytkownik nie ma dostępu do poświadczeń magazynu w katalogu aparatu Unity, żądanie zakończy się niepowodzeniem, a wykaz aparatu Unity nie podejmie próby uwierzytelnienia w dzierżawie chmury w imieniu użytkownika. Uprawnienia do tworzenia poświadczeń magazynu powinny być przyznawane tylko użytkownikom, którzy muszą definiować lokalizacje zewnętrzne. Zobacz Tworzenie poświadczeń magazynu na potrzeby nawiązywania połączenia z usługą Azure Data Lake Storage Gen2 i Tworzenie poświadczeń magazynu na potrzeby nawiązywania połączenia z usługą Cloudflare R2.

  • Lokalizacja zewnętrzna to obiekt, który łączy ścieżkę magazynu w chmurze z poświadczeniami magazynu, które autoryzuje dostęp do ścieżki magazynu w chmurze. Każda lokalizacja magazynu podlega zasadom kontroli dostępu wykazu aparatu Unity, które kontrolują, którzy użytkownicy i grupy mogą uzyskiwać dostęp do poświadczeń. Jeśli użytkownik nie ma dostępu do lokalizacji magazynu w katalogu aparatu Unity, żądanie zakończy się niepowodzeniem, a wykaz aparatu Unity nie podejmie próby uwierzytelnienia w dzierżawie chmury w imieniu użytkownika. Uprawnienia do tworzenia i używania lokalizacji zewnętrznych powinny być przyznawane tylko użytkownikom, którzy muszą tworzyć tabele zewnętrzne, woluminy zewnętrzne lub zarządzane lokalizacje magazynu. Zobacz Tworzenie lokalizacji zewnętrznej w celu połączenia magazynu w chmurze z usługą Azure Databricks.

    Lokalizacje zewnętrzne są używane zarówno w przypadku zasobów danych zewnętrznych, jak tabel zewnętrznych i woluminów zewnętrznych, jak i zarządzanych zasobów danych, takich jak tabele zarządzane i woluminy zarządzane. Aby uzyskać więcej informacji na temat różnicy, zobacz Tabele i woluminy.

    Gdy lokalizacja zewnętrzna jest używana do przechowywania zarządzanych tabel i woluminów zarządzanych, jest nazywana zarządzaną lokalizacją magazynu. Zarządzane lokalizacje magazynu mogą istnieć na poziomie magazynu metadanych, katalogu lub schematu. Usługa Databricks zaleca skonfigurowanie zarządzanych lokalizacji magazynu na poziomie wykazu. Jeśli potrzebujesz bardziej szczegółowej izolacji, możesz określić zarządzane lokalizacje magazynu na poziomie schematu. Obszary robocze, które są włączone dla wykazu aparatu Unity, domyślnie nie mają magazynu metadanych, ale można określić zarządzaną lokalizację magazynu na poziomie magazynu metadanych, aby zapewnić domyślny magazyn, gdy nie zdefiniowano magazynu na poziomie wykazu. Obszary robocze, które są włączone dla wykazu aparatu Unity, domyślnie otrzymują lokalizację magazynu zarządzanego na poziomie magazynu metadanych. Zobacz Określanie lokalizacji magazynu zarządzanego w katalogu aparatu Unity i najlepszych rozwiązaniach dotyczących wykazu aparatu Unity.

Woluminy to zabezpieczany obiekt, którego większość użytkowników usługi Azure Databricks powinna używać do bezpośredniej interakcji z danymi nie tabelarycznymi w magazynie obiektów w chmurze. Zobacz Tworzenie woluminów i praca z nimi.

Uwaga

Chociaż katalog aparatu Unity obsługuje dostęp oparty na ścieżkach do tabel zewnętrznych i woluminów zewnętrznych przy użyciu identyfikatorów URI magazynu w chmurze, usługa Databricks zaleca użytkownikom odczytywanie i zapisywanie wszystkich tabel wykazu aparatu Unity przy użyciu nazw tabel i uzyskiwania dostępu do danych w woluminach przy użyciu /Volumes ścieżek.

Następne kroki

Jeśli dopiero zaczynasz korzystać z wykazu aparatu Unity jako administrator, zobacz Konfigurowanie wykazu aparatu Unity i zarządzanie nim.

Jeśli jesteś nowym użytkownikiem i obszar roboczy jest już włączony dla wykazu aparatu Unity, zobacz Samouczek: tworzenie tabel i przyznawanie uprawnień w wykazie aparatu Unity.