了解重要概念

已完成

Azure Databricks 是多項技術的合併,可讓您處理大規模的資料。 使用 Azure Databricks 之前,您應該瞭解一些重要概念。

此圖表顯示 Databricks 解決方案的重要元素。

  1. Apache Spark 叢集 - Spark 是分散式資料處理解決方案,利用叢集來調整多個計算節點上的處理。 每個 Spark 叢集都有一個驅動程式節點可協調處理作業,以及處理所在位置的一或多個背景工作角色節點。 此分散式模型可讓每個節點以平行方式在作業子集上運作,縮短作業完成的整體時間。 若要深入瞭解 Azure Databricks 中的叢集,請參閱 Azure Databricks 說明文件中的叢集
  2. 資料湖儲存體 - 雖然每個叢集節點都有自己的本機檔案系統 (作業系統和其他節點特定檔案的儲存位置),但叢集中的節點也可以存取共用的分散式檔案系統,在其中存取及操作資料檔案。 此共用資料儲存體稱為資料湖,可讓您掛接雲端儲存體,例如 Azure Data Lake Storage 或 Microsoft OneLake 資料存放區,並將其用於以任何格式處理和保存檔案型資料。
  3. 中繼存放區 - Azure Databricks 會使用中繼存放區,透過檔案型資料定義資料表的關係架構。 資料表是以資料湖格式為基礎, 而且可以使用 SQL 語法來存取基礎檔案中的資料。 資料表定義和其所依據檔案系統位置的詳細資料會儲存在中繼存放區中,擷取可用來分析的資料物件,並從儲存資料檔案的實體記憶體進行資料處理。 Azure Databricks 中繼存放區會在 Unity 目錄中管理,其提供集中式資料儲存體、存取管理和控管 (雖然會依 Azure Databricks 工作區的設定方式而定,但您也可以使用舊版 Hive 中繼存放區並搭配儲存在 Databricks 檔案系統 (DBFS) 資料湖中的資料檔案)。
  4. 筆記本 - 資料分析師、資料科學家、資料工程師和開發人員使用 Spark 最常見的方式之一,就是在筆記本中撰寫程式碼。 筆記本提供互動式環境,您可以在其中結合 Markdown 格式的文字、圖形以及資料格 (包含您在筆記本工作階段中以互動方式執行的程式碼)。 若要深入瞭解筆記本,請參閱 Azure Databricks 說明文件中的 Notebooks
  5. SQL 倉儲 - SQL 倉儲是具有端點的關聯式計算資源,可讓用戶端應用程式連線到 Azure Databricks 工作區,並使用 SQL 來處理資料表中的資料。 SQL 查詢的結果可用來建立資料視覺效果和儀表板,以支援商務分析和決策制定。 SQL 倉儲僅適用於「進階」層級的 Azure Databricks 工作區。 若要深入瞭解 SQL 倉儲,請參閱 Azure Databricks 說明文件中的 SQL 倉儲