Udostępnij przez


Łączenie ze źródłami danych i usługami zewnętrznymi

Ta strona zawiera zalecenia dla administratorów i użytkowników, którzy konfigurują połączenia między usługą Azure Databricks i zewnętrznymi źródłami danych i usługami.

Konto usługi Azure Databricks można połączyć ze źródłami danych, takimi jak magazyn obiektów w chmurze, systemy zarządzania relacyjnymi bazami danych, usługi przesyłania strumieniowego i platformy przedsiębiorstwa, takie jak CRMs. Możesz również połączyć konto usługi Azure Databricks z usługami zewnętrznymi, które nie są magazynem.

Konfigurowanie połączeń z magazynem obiektów

Większość danych używanych przez obciążenia usługi Azure Databricks jest przechowywana w magazynie obiektów w chmurze, takim jak Azure Data Lake Storage lub AWS S3. Dostęp do magazynu obiektów w chmurze można zarządzać przy użyciu jednej z następujących opcji:

Konfigurowanie połączeń z zewnętrznymi systemami danych

Usługa Databricks oferuje kilka opcji konfigurowania połączeń z zewnętrznymi systemami danych. Poniższa tabela zawiera ogólne omówienie tych opcji:

Option Description
Łączniki federacyjne zapytań Federacja Lakehouse zapewnia dostęp tylko do odczytu do danych w systemach przedsiębiorstwa. Federacja zapytań używa bezpiecznych połączeń JDBC do federacji z zewnętrznymi systemami danych, takimi jak PostgreSQL i MySQL. Federacja katalogu łączy wykazy zewnętrzne, takie jak magazyn metadanych Hive lub katalog Snowflake Horizon, w celu wykonywania zapytań dotyczących danych bezpośrednio w magazynie plików.
Łączniki zarządzanego importu danych Program Lakeflow Connect umożliwia administratorom jednoczesne tworzenie połączenia oraz zarządzanego potoku importu danych w interfejsie użytkownika do pozyskiwania danych. Zobacz Managed connectors in Lakeflow Connect.
Jeśli użytkownicy, którzy będą tworzyć potoki, nie posiadają uprawnień administratora lub planują korzystać z interfejsów API Databricks, zestawów SDK Databricks, interfejsu wiersza polecenia Databricks lub pakietów zasobów Databricks, administrator musi najpierw utworzyć połączenie w Eksploratorze katalogu. Te interfejsy wymagają, aby użytkownicy określili istniejące połączenie podczas tworzenia potoku. Zobacz Połączenie z zarządzanymi źródłami pozyskiwania danych.
Łączniki przesyłania strumieniowego Usługa Azure Databricks udostępnia zoptymalizowane łączniki dla wielu systemów danych przesyłanych strumieniowo.
W przypadku wszystkich źródeł danych przesyłanych strumieniowo należy wygenerować poświadczenia, które zapewniają dostęp i ładują te poświadczenia do usługi Azure Databricks. Usługa Databricks zaleca przechowywanie poświadczeń przy użyciu wpisów tajnych, ponieważ można używać wpisów tajnych dla wszystkich opcji konfiguracji i we wszystkich trybach dostępu.
Wszystkie łączniki danych dla źródeł przesyłania strumieniowego obsługują przekazywanie poświadczeń przy użyciu opcji podczas definiowania zapytań przesyłania strumieniowego. Zobacz Łączniki standardowe w programie Lakeflow Connect.
Integracje innych firm Użyj narzędzi innych firm, aby nawiązać połączenie z zewnętrznymi źródłami danych i zautomatyzować pozyskiwanie danych do Lakehouse. Niektóre rozwiązania obejmują również odwrotny proces ETL i bezpośredni dostęp do danych typu lakehouse z systemów zewnętrznych. Zobacz Co to jest program Databricks Partner Connect?.
Drivers Usługa Azure Databricks zawiera sterowniki dla zewnętrznych systemów danych w każdym środowisku Databricks Runtime. Opcjonalnie można zainstalować sterowniki innych firm w celu uzyskania dostępu do danych w innych systemach. Należy skonfigurować połączenia dla każdej tabeli. Niektóre sterowniki obejmują dostęp do zapisu. Zobacz Łączenie z systemami zewnętrznymi.
W przypadku federacji zapytań tylko do odczytu, federacja Lakehouse jest zawsze preferowana nad tymi sterownikami.
JDBC Kilka dołączonych sterowników dla systemów zewnętrznych opiera się na natywnej obsłudze JDBC, a opcja JDBC zapewnia rozszerzalne opcje konfigurowania połączeń z innymi systemami. Należy skonfigurować połączenia dla każdej tabeli. Zobacz Zapytania do baz danych za pomocą JDBC.
W przypadku federacji zapytań tylko do odczytu, federacja Lakehouse jest zawsze preferowana nad tymi sterownikami.

Konfigurowanie połączeń z usługami zewnętrznymi

Unity Catalog zarządza dostępem do usług innych niż magazynowanie przy użyciu obiektu zabezpieczającego o nazwie poświadczenie usługi. Poświadczenie usługi hermetyzuje długoterminowe poświadczenia chmurowe, które zapewniają dostęp do usługi zewnętrznej, do której użytkownicy muszą uzyskać połączenie z Azure Databricks. Zobacz Łączenie z zewnętrznymi usługami w chmurze przy użyciu Unity Catalog

Zarządzanie źródłami danych i usługami zewnętrznymi oraz żądanie dostępu do tych źródeł

Większość metod połączenia wymaga podniesionych uprawnień zarówno w zewnętrznym źródle danych, jak i w obszarze roboczym usługi Azure Databricks. W typowych organizacjach niewielu użytkowników ma wystarczające uprawnienia w usłudze Azure Databricks lub u zewnętrznych dostawców danych i magazynu w celu samodzielnego konfigurowania połączeń danych.

Organizacja mogła już skonfigurować dostęp do źródła danych lub usługi przy użyciu jednego z wzorców opisanych w artykułach połączonych z tej strony. Jeśli Organizacja ma dobrze zdefiniowany proces żądania dostępu do danych i usług innych firm, usługa Databricks zaleca wykonanie tego procesu. Jeśli nie masz pewności, jak uzyskać dostęp do źródła danych, ta procedura może pomóc:

  1. Użyj Eksploratora wykazu, aby wyświetlić tabele i woluminy, do których można uzyskać dostęp. Zobacz Co to jest Eksplorator katalogu?.
  2. Zapytaj członków zespołu lub menedżerów o źródła danych, do których mogą uzyskiwać dostęp.
    • Większość organizacji używa grup synchronizowanych z dostawcą tożsamości (na przykład: Okta lub Microsoft Entra ID), aby zarządzać uprawnieniami użytkowników obszaru roboczego. Jeśli inni członkowie zespołu mogą uzyskiwać dostęp do źródeł danych, do których potrzebujesz dostępu, administrator obszaru roboczego doda Cię do odpowiedniej grupy w celu udzielenia dostępu.
    • Jeśli określona tabela, wolumin lub źródło danych zostało skonfigurowane przez współpracownika, osoba ta powinna mieć możliwość udzielenia dostępu do danych.

Niektóre organizacje dołączają uprawnienia dostępu do danych do określonych klastrów obliczeniowych i magazynów SQL. Jest to starszy model zapewniania ładu, ale jeśli twoja organizacja korzysta z niego i chcesz dowiedzieć się, które źródła danych są dostępne w określonym zasobie obliczeniowym, skontaktuj się z twórcą zasobów obliczeniowych wymienionymi na karcie Obliczenia .