Share via


Azure Databricks 上的探勘數據分析:工具和技術

本文說明 Azure Databricks 上探勘數據分析 (EDA) 的工具和技術。

什麼是 EDA,以及它為何有用?

探勘數據分析 (EDA) 包含探索數據集的方法,以摘要其主要特性,並識別數據的任何問題。 您可以使用統計方法和視覺效果,了解數據集以判斷其分析整備程度,並通知要套用哪些技術來進行數據準備。 EDA 也可以影響您選擇要套用定型 ML 模型的演算法。

Azure Databricks 中的 EDA 工具是什麼?

Azure Databricks 在 Databricks SQL 和 Databricks Runtime 中都有內建分析和視覺效果工具。 如需 Azure Databricks 中可用視覺效果類型的說明清單,請參閱 視覺效果類型

Databricks SQL 中的 EDA

以下是 Databricks SQL 中有關數據視覺效果和探索工具的一些實用文章:

Databricks Runtime 中的 EDA

Databricks Runtime 提供已安裝熱門數據探索連結庫的預先建置環境。 您可以在版本資訊中看到內建連結庫的清單。

此外,下列文章顯示 Databricks Runtime 中的視覺效果工具範例:

在 Databricks Python 筆記本中,您可以結合 SQL 和 Python 來探索數據。 當您在 Python 筆記本的 SQL 語言數據格中執行程式碼時,數據表結果會自動以 Python DataFrame 的形式提供。 如需詳細資訊,請參閱 探索 Python 筆記本中的 SQL 數據格結果。