連線到資料來源

本文提供系統管理員和其他進階使用者如何設定 Azure Databricks 與數據源之間的連線的建議。 如果您嘗試判斷您是否有權從外部系統讀取數據,請先檢閱您在工作區中有權存取的數據。 請參閱 探索數據

您可以將 Azure Databricks 帳戶連線到數據源,例如雲端物件記憶體、關係資料庫管理系統、串流數據服務和企業平臺,例如 CRM。 設定連線所需的特定許可權取決於數據源、如何設定 Azure Databricks 工作區中的許可權、與來源中的數據互動所需的許可權、您的數據控管模型,以及聯機的慣用方法。

大部分的方法都需要在數據源和 Azure Databricks 工作區上提高許可權,才能設定整合系統的必要許可權。 沒有這些許可權的用戶應該要求協助。 請參閱 要求存取數據源

設定物件記憶體連線

雲端物件記憶體提供在 Azure Databricks 上儲存大部分數據的基礎。 若要深入瞭解雲端物件記憶體和 Azure Databricks 儲存數據的位置,請參閱 Azure Databricks 寫入數據的位置?

Databricks 建議使用 Unity 目錄來設定雲端物件記憶體的存取權。 Unity 目錄可為雲端物件記憶體中的結構化和非結構化數據提供數據控管。 請參閱使用 Unity 目錄將 連線 至雲端物件記憶體。

不使用 Unity 目錄的客戶必須使用舊版方法設定連線。 請參閱 設定 Azure Databricks 雲端物件記憶體的存取。

若要將網路設定為雲端物件記憶體,請參閱 網路功能。

設定外部數據系統的連線

Databricks 建議根據需求來設定外部數據系統的連線數個選項。 下表提供這些選項的高階概觀:

選項 描述
Lakehouse 同盟 提供企業數據系統中數據的唯讀存取權。 連線 會透過目錄或架構層級的 Unity 目錄來設定,以單一設定同步多個資料表。 請參閱 什麼是 Lakehouse 同盟
合作夥伴 連線 利用技術合作夥伴解決方案來連線到外部數據源,並將內嵌數據自動化至 Lakehouse。 某些解決方案也包括反向 ETL,以及從外部系統直接存取 Lakehouse 數據。 請參閱什麼是 Databricks 合作夥伴 連線?
驅動程式 Azure Databricks 包含每個 Databricks Runtime 中外部數據系統的驅動程式。 您可以選擇性地安裝第三方驅動程式,以存取其他系統中的數據。 您必須為每個資料表設定連線。 某些驅動程式包括寫入存取權。 請參閱外部系統的 連線。
JDBC 數個外部系統的驅動程式是以原生 JDBC 支援為基礎所建置,而 JDBC 選項提供可延伸的選項來設定與其他系統的連線。 您必須為每個資料表設定連線。 請參閱 使用 JDBC 查詢資料庫。

連線 串流數據源

Azure Databricks 為許多串流數據系統提供優化的連接器。

針對所有串流數據源,您必須產生認證,以提供存取權,並將這些認證載入 Azure Databricks。 Databricks 建議使用秘密儲存認證,因為您可以針對所有組態選項和所有存取模式使用秘密。

串流來源的所有資料連接器都支援在定義串流查詢時,使用選項傳遞認證。 請參閱 設定串流數據源

要求存取數據源

在許多組織中,大部分的使用者在 Azure Databricks 或外部數據源上都沒有足夠的許可權來設定數據連線。

您的組織可能已經使用此頁面連結文章中所述的其中一種模式,設定數據源的存取權。 如果您的組織有定義完善的程式來要求存取數據,Databricks 建議遵循該程式。

如果您不確定如何取得資料來源的存取權,此程式可能會協助您:

  1. 使用目錄總管來檢視您可以存取的數據表和磁碟區。 請參閱 什麼是目錄總管?
  2. 詢問您的小組成員或經理他們可存取的數據源。
    • 大部分的組織會使用從其識別提供者同步的群組(例如:Okta 或 Microsoft Entra ID (先前稱為 Azure Active Directory))來管理工作區用戶的許可權。 如果小組的其他成員可以存取您需要存取的數據源,請讓工作區管理員將您新增至正確的群組,以授與您存取權。
    • 如果特定數據表、磁碟區或數據源是由同事設定的,該個人應該具有授與數據存取權的許可權。
  3. 某些組織透過計算叢集和 SQL 倉儲上的設定來設定數據訪問許可權。
    • 對數據源的存取可能會因計算而異。
    • 您可以在 [計算] 索引標籤上檢視計算建立者。請連絡建立者,詢問應該可存取的數據源。