Databricks Data Intelligence Platform 可讓整個組織的數據從業者使用共用、安全控管的數據資產和工具,共同作業及生產數據解決方案。
本文會尋求協助您識別使用案例的正確起點。
Azure Databricks 上的許多工作都需要更高的許可權。 許多組織會將這些提高的許可權限制為少數使用者或小組。 本文會釐清大部分工作區使用者可完成的動作,以及受限於特殊許可權用戶的動作。
工作區系統管理員可協助您判斷是否應該要求資產的存取權,或要求提高的許可權。
尋找和存取數據
本節提供工作的簡短概觀,可協助您探索可供您使用的數據資產。 這些工作大多假設系統管理員已設定數據資產的許可權。 請參閱 設定資料存取。
特色區域 | 資源 |
---|---|
數據探索 | 如需數據探索工作的詳細概觀,請參閱 探索數據。 |
目錄 | 目錄是 Unity 目錄數據控管模型中的最上層物件。 使用 目錄總管 來尋找數據表、檢視和其他數據資產。 請參閱 探索資料庫物件。
|
連接的儲存裝置 | 如果您有計算資源的存取權,您可以使用內建命令來探索連線記憶體中的檔案。 請參閱 探索記憶體並尋找數據檔。 |
上傳本機檔案 | 根據預設,用戶有權從本機計算機上傳小型數據檔,例如 CSV。 請參閱 使用檔案上傳建立或修改數據表。 |
與數據一起工作
本節提供一般數據工作的概觀,以及用來執行這些工作的工具。
針對所述的所有工作,用戶必須具有工具、計算資源、數據和其他工作區成品的適當許可權。 請參閱 設定資料存取 和 設定工作區和基礎結構。
特色區域 | 資源 |
---|---|
資料庫物件 | 除了數據表和檢視之外,Azure Databricks 也會使用其他安全性資料庫物件,例如磁碟區來安全地控管數據。 請參閱 Azure Databricks 中的Database 物件。 |
數據許可權 | Unity 目錄會控管已啟用工作區中的所有讀取和寫入作業。 您必須有足夠的許可權才能完成這些作業。 請參閱 Unity 目錄中的 可保護的物件。 |
ETL | 擷取、轉換和載入 (ETL) 工作負載是 Apache Spark 和 Azure Databricks 最常見的用途之一,而大部分平臺都有針對 ETL 建置和優化的功能。 請參閱 教學課程:使用 Lakeflow 宣告式管線建置 ETL 管線。 |
查詢 |
|
儀表板與洞察 |
|
攝入 |
|
轉型 | Azure Databricks 會使用常見的語法和工具進行從 SQL CTAS 語句到近乎即時串流應用程式的轉換。
|
AI 和機器學習 | Databricks Data Intelligence Platform 提供一套適用於數據科學、機器學習和 AI 應用程式的工具。 請參閱 Databricks 上的AI 和機器學習。 |
:::
設定數據存取
大部分的 Azure Databricks 工作區都依賴工作區管理員或其他 Power 用戶來設定外部數據源的連線,並根據小組成員資格、區域或角色強制執行數據資產的許可權。 本節提供設定及控制需要更高許可權的數據訪問的常見工作概述。
注意
在申請較高級別的權限以設定資料來源的新連線之前,請確認您是否只是缺少現有連線、目錄或資料表的權限。 如果資料來源無法使用,請洽詢您的組織,了解將新資料新增至工作區的政策。
特色區域 | 資源 |
---|---|
Unity 目錄 |
|
連接與存取 |
|
分享 |
|
設定工作區和基礎結構
本節提供與管理工作區資產和基礎結構相關聯的常見工作概觀。 廣泛定義的工作區資產包括以下內容:
計算資源:計算資源包括所有用途的互動式叢集、SQL 倉儲、作業叢集和管線計算。 使用者或工作負載必須具有連線到執行計算資源的許可權,才能處理指定的邏輯。
注意
無法存取任何計算資源的使用者在 Azure Databricks 上具有非常有限的功能。
平臺工具:Databricks Data Intelligence Platform 提供專為不同使用案例和角色量身打造的工具套件,例如筆記本、Databricks SQL 和馬賽克 AI。 系統管理員可以自定義設定,包括預設行為、選擇性功能,以及許多這些工具的使用者存取權。
工件:工件包括筆記本、儀錶板、查詢、檔案、函式庫、管線和任務。 工件包含使用者撰寫的代碼和配置,以便對其數據執行所需的動作。
重要
建立工作區資產的用戶預設會獲指派 擁有者 角色。 對於大部分的資產,擁有者可以將許可權授與工作區中的任何其他使用者或群組。
為了確保數據和程序代碼安全,Databricks 建議針對部署到生產工作區的所有成品和計算資源設定擁有者角色。
特色區域 | 資源 |
---|---|
工作區使用權 | 工作區權利包括基本工作區存取權、Databricks SQL 的存取權,以及不受限制的叢集建立。 請參閱 權限管理。 |
計算資源存取 & 原則 |
|
平臺工具 | 使用管理主控台來設定行為,範圍從自定義工作區外觀到啟用或停用產品與功能。 請參閱 管理工作區。 |
工作區存取控制列表 | 工作區訪問控制清單 (ACL) 會控管使用者和群組如何與工作區資產互動,包括計算資源、程序代碼成品和作業。 請參閱 存取控制清單。 |
將工作負載生產化
所有 Azure Databricks 產品都是為了加速開發到生產,以及規模和穩定性而建置。 本節提供將工作負載放入生產環境時建議的工具套件簡介。
特色區域 | 資源 |
---|---|
ETL 管線 | Lakeflow 宣告式管線提供宣告式語法,用於建置和生產化 ETL 管線。 請參閱 Lakeflow 宣告式管線。 |
編排 | 作業可讓您使用相依性、觸發條件和排程來定義複雜的流程。 請參閱 Lakeflow 職位。 |
CI/CD | Databricks 資產組合可讓您輕鬆地跨工作區管理和部署數據、資產和成品。 請參閱 什麼是 Databricks 資產套件組合?。 |