Łączenie ze źródłami danych i usługami zewnętrznymi

Ta strona zawiera zalecenia dla administratorów i użytkowników, którzy konfigurują połączenia między Azure Databricks a zewnętrznymi źródłami danych i usługami.

Konto Azure Databricks można połączyć ze źródłami danych, takimi jak magazyn obiektów w chmurze, systemy zarządzania relacyjnymi bazami danych, usługi przesyłania strumieniowego i platformy przedsiębiorstwa, takie jak CRMs. Możesz również połączyć konto Azure Databricks z zewnętrznymi usługami innymi niż magazynowe.

Konfigurowanie połączeń z magazynem obiektów

Większość danych używanych przez obciążenia Azure Databricks jest przechowywana w magazynie obiektów w chmurze, takim jak Azure Data Lake Storage lub AWS S3. Dostęp do magazynu obiektów w chmurze można zarządzać przy użyciu jednej z następujących opcji:

Unity Catalog (zalecane), który zapewnia zarządzanie strukturalnymi i niestrukturalnymi danymi w chmurowym magazynie obiektów. Zobacz Połączenie z magazynem obiektów w chmurze przy użyciu Unity Catalog.
Starsze łączniki i wzorce połączeń. Zobacz Konfiguracja dostępu do magazynu obiektów w chmurze dla Azure Databricks przy użyciu starszych wzorców.

Połączenia katalogu Unity

Połączenie Unity Catalog to obiekt zabezpieczany, który przechowuje punkt końcowy i wymagane poświadczenia do uzyskania dostępu do systemu zewnętrznego. Połączenia zapewniają zarządzany sposób zarządzania uwierzytelnianiem i konfiguracją dla zewnętrznych systemów danych, w tym federacji, zarządzanego pozyskiwania, JDBC i HTTP. Aby zapoznać się z omówieniem wszystkich typów połączeń i sposobu ich wyboru, zobacz Połączenia Unity Catalog.

Konfigurowanie połączeń z zewnętrznymi systemami danych

Usługa Databricks oferuje kilka opcji konfigurowania połączeń z zewnętrznymi systemami danych. Poniższa tabela zawiera ogólne omówienie tych opcji:

Option	Description
Łączniki federacyjne zapytań	Federacja Lakehouse zapewnia dostęp tylko do odczytu do danych w systemach przedsiębiorstwa. Federacja zapytań używa bezpiecznych połączeń JDBC do federacji z zewnętrznymi systemami danych, takimi jak PostgreSQL i MySQL. Federacja katalogu łączy wykazy zewnętrzne, takie jak magazyn metadanych Hive lub katalog Snowflake Horizon, w celu wykonywania zapytań dotyczących danych bezpośrednio w magazynie plików.
Łączniki zarządzanego importu danych	Program Lakeflow Connect umożliwia administratorom jednoczesne tworzenie połączenia oraz zarządzanego potoku importu danych w interfejsie użytkownika do pozyskiwania danych. Zobacz Managed connectors in Lakeflow Connect. Jeśli użytkownicy, którzy będą tworzyć potoki, są użytkownikami niebędącymi administratorami lub planują korzystanie z interfejsów API usługi Databricks, zestawów SDK usługi Databricks, interfejsu wiersza polecenia usługi Databricks lub pakietów deklaratywnej automatyzacji, administrator musi najpierw utworzyć połączenie w Eksploratorze wykazu. Te interfejsy wymagają, aby użytkownicy określili istniejące połączenie podczas tworzenia potoku. Zobacz Połączenie z zarządzanymi źródłami pozyskiwania danych.
Łączniki przesyłania strumieniowego	Azure Databricks zapewnia zoptymalizowane łączniki dla wielu systemów danych przesyłanych strumieniowo. Dla wszystkich źródeł danych przesyłanych strumieniowo należy wygenerować poświadczenia, które zapewniają dostęp i ładują te poświadczenia do Azure Databricks. Usługa Databricks zaleca przechowywanie poświadczeń przy użyciu wpisów tajnych, ponieważ można używać wpisów tajnych dla wszystkich opcji konfiguracji i we wszystkich trybach dostępu. Wszystkie łączniki danych dla źródeł przesyłania strumieniowego obsługują przekazywanie poświadczeń przy użyciu opcji podczas definiowania zapytań przesyłania strumieniowego. Zobacz Łączniki standardowe w programie Lakeflow Connect.
Integracje innych firm	Użyj narzędzi innych firm, aby nawiązać połączenie z zewnętrznymi źródłami danych i zautomatyzować pozyskiwanie danych do Lakehouse. Niektóre rozwiązania obejmują również odwrotny proces ETL i bezpośredni dostęp do danych typu lakehouse z systemów zewnętrznych. Zobacz Co to jest program Databricks Partner Connect?.
Drivers	Azure Databricks zawiera sterowniki dla zewnętrznych systemów danych w każdym środowisku Databricks Runtime. Opcjonalnie można zainstalować sterowniki innych firm w celu uzyskania dostępu do danych w innych systemach. Należy skonfigurować połączenia dla każdej tabeli. Niektóre sterowniki obejmują dostęp do zapisu. Zobacz Łączenie z systemami zewnętrznymi. W przypadku federacji zapytań tylko do odczytu, federacja Lakehouse jest zawsze preferowana nad tymi sterownikami.
JDBC	Nawiąż połączenie z zewnętrznymi bazami danych używając JDBC poprzez połączenie z Unity Catalog, aby zapewnić uregulowany dostęp, izolację poświadczeń i obsługę procesów międzyobliczeniowych. Zobacz Połączenie JDBC. Aby uzyskać informacje o starszych konfiguracjach JDBC bez zarządzania przez Unity Catalog, zobacz Zapytania do baz danych za pomocą JDBC. W przypadku federacji zapytań tylko do odczytu, Lakehouse Federation jest zawsze preferowana.

Konfigurowanie połączeń z usługami zewnętrznymi

Unity Catalog zarządza dostępem do usług innych niż magazynowanie przy użyciu obiektu zabezpieczającego o nazwie poświadczenie usługi. Poświadczenie usługi obejmuje długoterminowe poświadczenie w chmurze, które zapewnia dostęp do usługi zewnętrznej, z którą użytkownicy muszą nawiązać połączenie z Azure Databricks. Zobacz Łączenie z zewnętrznymi usługami w chmurze przy użyciu Unity Catalog

Zarządzanie źródłami danych i usługami zewnętrznymi oraz żądanie dostępu do tych źródeł

Większość metod połączenia wymaga podniesionych uprawnień zarówno w zewnętrznym źródle danych, jak i w obszarze roboczym Azure Databricks. W typowych organizacjach niewielu użytkowników ma wystarczające uprawnienia w Azure Databricks lub u zewnętrznych dostawców danych i magazynu w celu samodzielnego konfigurowania połączeń danych.

Organizacja mogła już skonfigurować dostęp do źródła danych lub usługi przy użyciu jednego z wzorców opisanych w artykułach połączonych z tej strony. Jeśli Organizacja ma dobrze zdefiniowany proces żądania dostępu do danych i usług innych firm, usługa Databricks zaleca wykonanie tego procesu. Jeśli nie masz pewności, jak uzyskać dostęp do źródła danych, ta procedura może pomóc:

Użyj Eksploratora wykazu, aby wyświetlić tabele i woluminy, do których można uzyskać dostęp. Zobacz Co to jest Eksplorator katalogu?.
Zapytaj członków zespołu lub menedżerów o źródła danych, do których mogą uzyskiwać dostęp.
- Większość organizacji używa grup synchronizowanych z dostawcą tożsamości (na przykład: Okta lub Microsoft Entra ID), aby zarządzać uprawnieniami użytkowników obszaru roboczego. Jeśli inni członkowie zespołu mogą uzyskiwać dostęp do źródeł danych, do których potrzebujesz dostępu, administrator obszaru roboczego doda Cię do odpowiedniej grupy w celu udzielenia dostępu.
- Jeśli określona tabela, wolumin lub źródło danych zostało skonfigurowane przez współpracownika, osoba ta powinna mieć możliwość udzielenia dostępu do danych.

Niektóre organizacje dołączają uprawnienia dostępu do danych do określonych klastrów obliczeniowych i magazynów SQL. Jest to starszy model zapewniania ładu, ale jeśli twoja organizacja korzysta z niego i chcesz dowiedzieć się, które źródła danych są dostępne w określonym zasobie obliczeniowym, skontaktuj się z twórcą zasobów obliczeniowych wymienionymi na karcie Obliczenia .

Opinia

Czy ta strona była pomocna?

Last updated on 2026-04-19