共用方式為


連接至資料來源與外部服務

此頁面提供系統管理員和進階使用者的建議,這些使用者正在設定 Azure Databricks 與外部數據源和服務之間的連線。

您可以將 Azure Databricks 帳戶連線到數據源,例如雲端物件記憶體、關係資料庫管理系統、串流數據服務和企業平臺,例如 CRM。 您也可以將 Azure Databricks 帳戶連線到非記憶體外部服務。

設定物件存儲的連線

Azure Databricks 工作負載所使用的大部分數據都會儲存在雲端物件記憶體中,例如 Azure Data Lake Storage 或 AWS S3。 您可以使用下列任一項來管理雲端物件記憶體的存取:

設定外部數據系統的連線

Databricks 提供數個選項來設定外部數據系統的連線。 下表提供這些選項的高階概觀:

Option Description
查詢同盟連接器 Lakehouse 同盟提供企業數據系統中數據的唯讀存取權。 查詢同盟 會使用安全的 JDBC 連線來同盟至外部數據系統,例如 PostgreSQL 和 MySQL。 目錄聯合 會連線外部目錄,例如 Hive 中繼存放區或 Snowflake Horizon 目錄,以直接在檔案儲存中查詢資料。
受控導入連接器 Lakeflow Connect 可讓系統管理員用戶在數據擷取 UI 中同時建立連線和受控擷取管線。 請參閱 Lakeflow Connect 中的受控連接器
如果建立管線的使用者不是系統管理員使用者,或計劃使用 Databricks API、Databricks SDK、Databricks CLI 或 Databricks 資產組合,系統管理員必須先在目錄總管中建立連線。 這些介面要求使用者在建立管線時指定現有的連線。 請參閱 連線到受控擷取來源
串流連接器 Azure Databricks 為許多串流數據系統提供優化的連接器。
針對所有串流數據源,您必須產生認證,以提供存取權,並將這些認證載入 Azure Databricks。 Databricks 建議使用秘密儲存認證,因為您可以針對所有組態選項和所有存取模式使用秘密。
串流來源的所有資料連接器都支援在定義串流查詢時,使用選項傳遞認證。 請參閱 Lakeflow Connect 中的標準連接器
第三方集成 使用第三方工具來連線到外部資料來源,並自動化地將數據引入至 Lakehouse。 某些解決方案也包括反向 ETL,以及從外部系統直接存取 Lakehouse 數據。 請參閱 什麼是 Databricks Partner Connect?
Drivers Azure Databricks 包含每個 Databricks Runtime 中外部數據系統的驅動程式。 您可以選擇性地安裝第三方驅動程式,以存取其他系統中的數據。 您必須為每個資料表設定連線。 某些驅動程式包括寫入存取權。 請參閱 連線到外部系統
對於唯讀查詢同盟,Lakehouse 同盟一律優先於這些驅動程式。
JDBC 數個外部系統的驅動程式是以原生 JDBC 支援為基礎所建置,而 JDBC 選項提供可延伸的選項來設定與其他系統的連線。 您必須為每個資料表設定連線。 請參閱 使用 JDBC 查詢資料庫
對於唯讀查詢同盟,Lakehouse 同盟一律優先於這些驅動程式。

設定外部服務的連線

Unity 目錄會使用稱為 服務認證的安全性實體物件,管理對非記憶體服務的存取。 服務認證會封裝長期雲端認證,以存取使用者需要從 Azure Databricks 連線的外部服務。 請參閱 使用 Unity 目錄連線到外部雲端服務

管理和要求存取數據源和外部服務

大部分的連線方法都需要外部數據源或服務與 Azure Databricks 工作區的更高許可權。 在一般組織中,很少有使用者在 Azure Databricks 或外部數據和記憶體提供者中擁有足夠的許可權,可自行設定數據連線。

您的組織可能已經使用此頁面連結文章中所述的其中一種模式,設定數據源或服務的存取權。 如果您的組織有定義完善的程式來要求存取數據和第三方服務,Databricks 建議遵循該程式。 如果您不確定如何取得資料來源的存取權,此程序可能會對您有所幫助:

  1. 使用目錄總管來檢視您可以存取的數據表和磁碟區。 請參閱 什麼是目錄總管?
  2. 詢問您的小組成員或經理他們可存取的數據源。
    • 大部分的組織都會使用從其識別提供者同步的群組(例如:Okta 或 Microsoft Entra ID)來管理工作區用戶的許可權。 如果小組的其他成員可以存取您需要存取的數據源,請讓工作區管理員將您新增至正確的群組以授與存取權。
    • 如果特定數據表、磁碟區或數據源是由同事設定的,該個人應該能夠授與您數據的存取權。

某些組織會將數據訪問許可權附加至特定的計算叢集和 SQL 倉儲。 這是舊版治理模型,但如果您的組織使用它,而且您想要瞭解特定計算資源上可用的數據源,請連絡 [計算] 索引卷標上所列的 計算 建立者。