此頁面提供系統管理員和進階使用者的建議,這些使用者正在設定 Azure Databricks 與外部數據源和服務之間的連線。
您可以將 Azure Databricks 帳戶連線到數據源,例如雲端物件記憶體、關係資料庫管理系統、串流數據服務和企業平臺,例如 CRM。 您也可以將 Azure Databricks 帳戶連線到非記憶體外部服務。
設定物件存儲的連線
Azure Databricks 工作負載所使用的大部分數據都會儲存在雲端物件記憶體中,例如 Azure Data Lake Storage 或 AWS S3。 您可以使用下列任一項來管理雲端物件記憶體的存取:
Unity 目錄(建議使用),可為雲端物件記憶體中的結構化和非結構化數據提供數據控管。 請參閱 使用 Unity Catalog 連接到雲端物件存儲。
舊版連接器和連線模式。 請參閱 使用舊版模式設定 Azure Databricks 雲端物件記憶體的存取權。
設定外部數據系統的連線
Databricks 提供數個選項來設定外部數據系統的連線。 下表提供這些選項的高階概觀:
| Option | Description |
|---|---|
| 查詢同盟連接器 | Lakehouse 同盟提供企業數據系統中數據的唯讀存取權。 查詢同盟 會使用安全的 JDBC 連線來同盟至外部數據系統,例如 PostgreSQL 和 MySQL。 目錄聯合 會連線外部目錄,例如 Hive 中繼存放區或 Snowflake Horizon 目錄,以直接在檔案儲存中查詢資料。 |
| 受控導入連接器 | Lakeflow Connect 可讓系統管理員用戶在數據擷取 UI 中同時建立連線和受控擷取管線。 請參閱 Lakeflow Connect 中的受控連接器。 如果建立管線的使用者不是系統管理員使用者,或計劃使用 Databricks API、Databricks SDK、Databricks CLI 或 Databricks 資產組合,系統管理員必須先在目錄總管中建立連線。 這些介面要求使用者在建立管線時指定現有的連線。 請參閱 連線到受控擷取來源。 |
| 串流連接器 | Azure Databricks 為許多串流數據系統提供優化的連接器。 針對所有串流數據源,您必須產生認證,以提供存取權,並將這些認證載入 Azure Databricks。 Databricks 建議使用秘密儲存認證,因為您可以針對所有組態選項和所有存取模式使用秘密。 串流來源的所有資料連接器都支援在定義串流查詢時,使用選項傳遞認證。 請參閱 Lakeflow Connect 中的標準連接器。 |
| 第三方集成 | 使用第三方工具來連線到外部資料來源,並自動化地將數據引入至 Lakehouse。 某些解決方案也包括反向 ETL,以及從外部系統直接存取 Lakehouse 數據。 請參閱 什麼是 Databricks Partner Connect?。 |
| Drivers | Azure Databricks 包含每個 Databricks Runtime 中外部數據系統的驅動程式。 您可以選擇性地安裝第三方驅動程式,以存取其他系統中的數據。 您必須為每個資料表設定連線。 某些驅動程式包括寫入存取權。 請參閱 連線到外部系統。 對於唯讀查詢同盟,Lakehouse 同盟一律優先於這些驅動程式。 |
| JDBC | 數個外部系統的驅動程式是以原生 JDBC 支援為基礎所建置,而 JDBC 選項提供可延伸的選項來設定與其他系統的連線。 您必須為每個資料表設定連線。 請參閱 使用 JDBC 查詢資料庫。 對於唯讀查詢同盟,Lakehouse 同盟一律優先於這些驅動程式。 |
設定外部服務的連線
Unity 目錄會使用稱為 服務認證的安全性實體物件,管理對非記憶體服務的存取。 服務認證會封裝長期雲端認證,以存取使用者需要從 Azure Databricks 連線的外部服務。 請參閱 使用 Unity 目錄連線到外部雲端服務
管理和要求存取數據源和外部服務
大部分的連線方法都需要外部數據源或服務與 Azure Databricks 工作區的更高許可權。 在一般組織中,很少有使用者在 Azure Databricks 或外部數據和記憶體提供者中擁有足夠的許可權,可自行設定數據連線。
您的組織可能已經使用此頁面連結文章中所述的其中一種模式,設定數據源或服務的存取權。 如果您的組織有定義完善的程式來要求存取數據和第三方服務,Databricks 建議遵循該程式。 如果您不確定如何取得資料來源的存取權,此程序可能會對您有所幫助:
- 使用目錄總管來檢視您可以存取的數據表和磁碟區。 請參閱 什麼是目錄總管?。
- 詢問您的小組成員或經理他們可存取的數據源。
- 大部分的組織都會使用從其識別提供者同步的群組(例如:Okta 或 Microsoft Entra ID)來管理工作區用戶的許可權。 如果小組的其他成員可以存取您需要存取的數據源,請讓工作區管理員將您新增至正確的群組以授與存取權。
- 如果特定數據表、磁碟區或數據源是由同事設定的,該個人應該能夠授與您數據的存取權。
某些組織會將數據訪問許可權附加至特定的計算叢集和 SQL 倉儲。 這是舊版治理模型,但如果您的組織使用它,而且您想要瞭解特定計算資源上可用的數據源,請連絡 [計算] 索引卷標上所列的 計算 建立者。