共用方式為


數據指南

Databricks Data Intelligence Platform 可讓整個組織的數據從業者使用共用、安全控管的數據資產和工具,共同作業及生產數據解決方案。

本文會尋求協助您識別使用案例的正確起點。

Azure Databricks 上的許多工作都需要更高的許可權。 許多組織會將這些提高的許可權限制為少數使用者或小組。 本文會釐清大部分工作區使用者可完成的動作,以及受限於特殊許可權用戶的動作。

工作區系統管理員可協助您判斷是否應該要求資產的存取權,或要求提高的許可權。

尋找和存取數據

本節提供工作的簡短概觀,可協助您探索可供您使用的數據資產。 這些工作大多假設系統管理員已設定數據資產的許可權。 請參閱 設定資料存取

特色區域 資源
數據探索 如需數據探索工作的詳細概觀,請參閱 探索數據
目錄 目錄是 Unity 目錄數據控管模型中的最上層物件。 使用 目錄總管 來尋找數據表、檢視和其他數據資產。 請參閱 探索資料庫物件
連接的儲存裝置 如果您有計算資源的存取權,您可以使用內建命令來探索連線記憶體中的檔案。 請參閱 探索記憶體並尋找數據檔
上傳本機檔案 根據預設,用戶有權從本機計算機上傳小型數據檔,例如 CSV。 請參閱 使用檔案上傳建立或修改數據表。

與數據一起工作

本節提供一般數據工作的概觀,以及用來執行這些工作的工具。

針對所述的所有工作,用戶必須具有工具、計算資源、數據和其他工作區成品的適當許可權。 請參閱 設定資料存取設定工作區和基礎結構

特色區域 資源
資料庫物件 除了數據表和檢視之外,Azure Databricks 也會使用其他安全性資料庫物件,例如磁碟區來安全地控管數據。 請參閱 Azure Databricks 中的Database 物件。
數據許可權 Unity 目錄會控管已啟用工作區中的所有讀取和寫入作業。 您必須有足夠的許可權才能完成這些作業。 請參閱 Unity 目錄中的 可保護的物件
ETL 擷取、轉換和載入 (ETL) 工作負載是 Apache Spark 和 Azure Databricks 最常見的用途之一,而大部分平臺都有針對 ETL 建置和優化的功能。 請參閱 教學課程:使用 Lakeflow 宣告式管線建置 ETL 管線
查詢
  • 所有轉換、報表、分析或模型定型都會從針對數據表、檢視或數據文件的查詢開始。 您可以使用批次或串流處理來查詢數據。 請參閱 查詢資料
  • 使用 SQL 查詢編輯器或筆記本執行臨機作查詢,以查詢數據表、檢視和其他數據資產。 請參閱在新的 SQL 編輯器和 Databricks 筆記本中撰寫查詢和探索數據
儀表板與洞察
  • AI/BI 儀錶板可讓您輕鬆地在 UI 中擷取和可視化見解。 請參閱 儀錶板
  • Genie 空間會使用文字提示來回答問題,並提供數據所告知的深入分析。 請參閱 什麼是 AI/BI 精靈空間
攝入
  • Lakeflow Connect 會從熱門的外部系統內嵌數據。 請參見Lakeflow Connect中的受控連接器
  • 自動載入器可以與 Lakeflow 宣告式管線或結構化串流作業搭配使用,以累加方式從雲端物件記憶體內嵌數據。 請參閱 什麼是自動載入器?
  • 您可以使用 Lakeflow 宣告式管線或結構化串流,從訊息佇列內嵌數據,包括 Kafka。 請參閱 查詢串流資料
轉型 Azure Databricks 會使用常見的語法和工具進行從 SQL CTAS 語句到近乎即時串流應用程式的轉換。
  • 若要瞭解如何使用 DDL 和 DML 的 SQL 查詢,請參閱 Access 和管理儲存的查詢
  • 如需 PySpark 的概觀,請參閱 Azure Databricks 上的 PySpark
  • 如需結構化串流的詳細資訊,請參閱 結構化串流概念。
AI 和機器學習 Databricks Data Intelligence Platform 提供一套適用於數據科學、機器學習和 AI 應用程式的工具。 請參閱 Databricks 上的AI 和機器學習。

:::

設定數據存取

大部分的 Azure Databricks 工作區都依賴工作區管理員或其他 Power 用戶來設定外部數據源的連線,並根據小組成員資格、區域或角色強制執行數據資產的許可權。 本節提供設定及控制需要更高許可權的數據訪問的常見工作概述。

注意

在申請較高級別的權限以設定資料來源的新連線之前,請確認您是否只是缺少現有連線、目錄或資料表的權限。 如果資料來源無法使用,請洽詢您的組織,了解將新資料新增至工作區的政策。

特色區域 資源
Unity 目錄
  • Unity 目錄提供 Databricks Data Intelligence Platform 內建的數據控管功能。 請參閱 什麼是 Unity 目錄?
  • Databricks 帳戶管理員、工作區管理員和中繼存放區管理員具有管理使用者 Unity 目錄數據許可權的默認許可權。 請參閱 在 Unity 目錄中管理許可權。
連接與存取
分享
  • Delta Sharing 是 Azure Databricks 安全數據共享平臺的核心,其中包括 Databricks Marketplace 和 Clean Rooms。 請參閱 與其他組織中使用者安全地共享資料和 AI 資產
  • 系統管理員可以建立新的目錄。 目錄提供數據隔離的高階抽象概念,而且可以系結至個別工作區,或跨帳戶中的所有工作區共用。 請參閱 建立目錄。- AI/BI 儀表板鼓勵擁有者在發佈時內嵌其認證,確保檢視者可以從共享結果中取得見解。 如需詳細資訊,請參閱 共用儀錶板

設定工作區和基礎結構

本節提供與管理工作區資產和基礎結構相關聯的常見工作概觀。 廣泛定義的工作區資產包括以下內容:

  • 計算資源:計算資源包括所有用途的互動式叢集、SQL 倉儲、作業叢集和管線計算。 使用者或工作負載必須具有連線到執行計算資源的許可權,才能處理指定的邏輯。

    注意

    無法存取任何計算資源的使用者在 Azure Databricks 上具有非常有限的功能。

  • 平臺工具:Databricks Data Intelligence Platform 提供專為不同使用案例和角色量身打造的工具套件,例如筆記本、Databricks SQL 和馬賽克 AI。 系統管理員可以自定義設定,包括預設行為、選擇性功能,以及許多這些工具的使用者存取權。

  • 工件:工件包括筆記本、儀錶板、查詢、檔案、函式庫、管線和任務。 工件包含使用者撰寫的代碼和配置,以便對其數據執行所需的動作。

重要

建立工作區資產的用戶預設會獲指派 擁有者 角色。 對於大部分的資產,擁有者可以將許可權授與工作區中的任何其他使用者或群組。

為了確保數據和程序代碼安全,Databricks 建議針對部署到生產工作區的所有成品和計算資源設定擁有者角色。

特色區域 資源
工作區使用權 工作區權利包括基本工作區存取權、Databricks SQL 的存取權,以及不受限制的叢集建立。 請參閱 權限管理
計算資源存取 & 原則
  • Azure Databricks 上的大部分成本適用於計算資源。 控制哪些用戶能夠設定、部署、啟動和使用各種資源,對於控制成本至關重要。 請參閱 連線到通用運算及工作計算
  • 計算原則會與工作區計算權利搭配運作,以確保授權的使用者只會遵循指定的設定規則來部署計算資源。 請參閱 建立和管理計算原則
  • 系統管理員可以設定預設行為、數據存取原則,以及使用者對 SQL 倉儲的存取。 請參閱 SQL 倉儲管理員設定
平臺工具 使用管理主控台來設定行為,範圍從自定義工作區外觀到啟用或停用產品與功能。 請參閱 管理工作區
工作區存取控制列表 工作區訪問控制清單 (ACL) 會控管使用者和群組如何與工作區資產互動,包括計算資源、程序代碼成品和作業。 請參閱 存取控制清單

將工作負載生產化

所有 Azure Databricks 產品都是為了加速開發到生產,以及規模和穩定性而建置。 本節提供將工作負載放入生產環境時建議的工具套件簡介。

特色區域 資源
ETL 管線 Lakeflow 宣告式管線提供宣告式語法,用於建置和生產化 ETL 管線。 請參閱 Lakeflow 宣告式管線
編排 作業可讓您使用相依性、觸發條件和排程來定義複雜的流程。 請參閱 Lakeflow 職位
CI/CD Databricks 資產組合可讓您輕鬆地跨工作區管理和部署數據、資產和成品。 請參閱 什麼是 Databricks 資產套件組合?