Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka obsahuje doporučení pro správce a výkonné uživatele, kteří konfigurují připojení mezi Azure Databricks a externími zdroji dat a službami.
Svůj účet Azure Databricks můžete připojit ke zdrojům dat, jako je cloudové úložiště objektů, systémy pro správu relačních databází, streamované datové služby a podnikové platformy, jako jsou CRM. Svůj účet Azure Databricks můžete také připojit k externím službám, které nejsou úložištěm.
Konfigurace připojení k úložišti objektů
Většina dat používaných úlohami Azure Databricks se ukládá do cloudového úložiště objektů, jako je Azure Data Lake Storage nebo AWS S3. Přístup ke cloudovému úložišti objektů můžete spravovat pomocí některého z následujících způsobů:
Unity Catalog (doporučeno), který poskytuje zásady správného řízení dat pro strukturovaná i nestrukturovaná data v cloudovém úložišti objektů. Viz Připojení ke cloudovému úložišti objektů pomocí katalogu Unity.
Starší konektory a vzory připojení Viz Konfigurace přístupu ke cloudovému úložišti objektů pro Azure Databricks pomocí starších vzorů.
Konfigurace připojení k externím datovým systémům
Databricks nabízí několik možností konfigurace připojení k externím datovým systémům. Následující tabulka obsahuje základní přehled těchto možností:
| Option | Description |
|---|---|
| Dotazování federačních konektorů | Federace Lakehouse poskytuje přístup k datům jen pro čtení v podnikových datových systémech. Federace dotazů používá zabezpečená připojení JDBC k federování k externím datovým systémům, jako jsou PostgreSQL a MySQL. Federace katalogu propojuje externí katalogy, jako je metastore Hive nebo Snowflake Horizon Catalog, k dotazování dat přímo v úložišti souborů. |
| Konektory pro spravovaný příjem dat | Lakeflow Connect umožňuje správcům vytvořit připojení a spravovaný kanál příjmu dat současně v uživatelském rozhraní pro příjem dat. Viz Spravované konektory v Lakeflow Connect. Pokud uživatelé, kteří budou vytvářet kanály, nejsou správci nebo plánují používat rozhraní API Databricks, sady SDK Databricks, rozhraní příkazového řádku Databricks nebo sady prostředků Databricks, musí správce nejprve vytvořit připojení v Průzkumníku katalogu. Tato rozhraní vyžadují, aby uživatelé při vytváření kanálu zadali existující připojení. Viz Připojení ke spravovaným zdrojům příjmu dat. |
| Konektory streamování | Azure Databricks poskytuje optimalizované konektory pro mnoho streamovaných datových systémů. Pro všechny streamované zdroje dat musíte vygenerovat přihlašovací údaje, které poskytují přístup a načítají tyto přihlašovací údaje do Azure Databricks. Databricks doporučuje ukládat přihlašovací údaje pomocí tajných kódů, protože tajné kódy můžete používat pro všechny možnosti konfigurace a ve všech režimech přístupu. Všechny datové konektory pro zdroje streamování podporují předávání přihlašovacích údajů pomocí možností při definování dotazů streamování. Viz standardní konektory v Lakeflow Connect. |
| Integrace třetích stran | Pomocí nástrojů třetích stran se připojte k externím zdrojům dat a automatizujte příjem dat do jezera. Některá řešení také zahrnují reverzní ETL a přímý přístup k datům lakehouse z externích systémů. Podívejte se na Co je Databricks Partner Connect? |
| Drivers | Azure Databricks zahrnuje ovladače pro externí datové systémy v jednotlivých modulech Databricks Runtime. Volitelně můžete nainstalovat ovladače třetích stran pro přístup k datům v jiných systémech. Musíte nakonfigurovat připojení pro každou tabulku. Některé ovladače obsahují přístup pro zápis. Viz Připojení k externím systémům. Pro dotazy určené pouze pro čtení se vždy upřednostňuje Lakehouse Federation před těmito ovladači. |
| JDBC | Několik zahrnutých ovladačů pro externí systémy vychází z nativní podpory JDBC a možnost JDBC poskytuje rozšiřitelné možnosti konfigurace připojení k jiným systémům. Musíte nakonfigurovat připojení pro každou tabulku. Viz Dotazování databází pomocí JDBC. Pro dotazy určené pouze pro čtení se vždy upřednostňuje Lakehouse Federation před těmito ovladači. |
Konfigurace připojení k externím službám
Katalog Unity řídí přístup ke službám, které nejsou úložištěm, pomocí zabezpečitelného objektu označovaného jako přihlašovací údaje služby. Přihlašovací údaje služby zapouzdřují dlouhodobé cloudové přihlašovací údaje, které poskytují přístup k externí službě, ke které se uživatelé potřebují připojit z Azure Databricks. Viz Připojení k externím cloudovým službám pomocí katalogu Unity
Správa a vyžádání přístupu ke zdrojům dat a externím službám
Většina metod připojení vyžaduje zvýšená oprávnění pro externí zdroj dat nebo službu i pracovní prostor Azure Databricks. V typických organizacích má málo uživatelů dostatečná oprávnění v Azure Databricks nebo ve vnějších poskytovatelích dat a úložišť, aby mohli sami nakonfigurovat datová připojení.
Vaše organizace už možná nakonfigurovala přístup ke zdroji dat nebo službě pomocí některého ze vzorů popsaných v článcích propojených z této stránky. Pokud má vaše organizace dobře definovaný proces pro vyžádání přístupu k datům a službám třetích stran, doporučuje Databricks tento proces sledovat. Pokud si nejste jistí, jak získat přístup ke zdroji dat, může vám tento postup pomoct:
- Pomocí Průzkumníka katalogu můžete zobrazit tabulky a svazky, ke kterým máte přístup. Viz Co je Průzkumník katalogu?
- Zeptejte se členů týmu nebo manažerů na zdroje dat, ke kterým mají přístup.
- Většina organizací používá skupiny synchronizované ze svého zprostředkovatele identity (například Okta nebo Microsoft Entra ID) ke správě oprávnění pro uživatele pracovního prostoru. Pokud mají ostatní členové vašeho týmu přístup ke zdrojům dat, ke kterým potřebujete přístup, požádejte správce pracovního prostoru, aby vám udělil přístup do správné skupiny.
- Pokud určitou tabulku, svazek nebo zdroj dat nakonfiguroval spolupracovník, měl by vám tento jednotlivec udělit přístup k datům.
Některé organizace připojují přístupová oprávnění k datům ke konkrétním výpočetním clusterům a skladům SQL. Jedná se o starší model zásad správného řízení, ale pokud ho vaše organizace používá a chcete zjistit, které zdroje dat jsou dostupné pro konkrétní výpočetní prostředek, obraťte se na tvůrce výpočetních prostředků uvedený na kartě Compute .