範例資料集
Azure Databricks 提供的各種範例數據集,並可供第三方使用,您可以在 Azure Databricks 工作區中使用。
Unity 目錄數據集
Unity 目錄 可讓您存取目錄中的一些範例數據集 samples
。 您可以在目錄總管 UI 中檢閱這些數據集,並使用 模式直接在筆記本或 SQL 編輯器<catalog-name>.<schema-name>.<table-name>
中參考這些數據集。
架構 nyctaxi
(也稱為資料庫)包含數據表 trips
,其中包含紐約市計程車車程的詳細數據。 下列語句會傳回此資料表中的前 10 筆記錄:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
架構tpch
包含來自 TPC-H 基準檢驗的數據。 若要列出此架構中的數據表,請執行:
SHOW TABLES IN samples.tpch
CSV 格式的第三方範例數據集
Azure Databricks 有內建工具,可將第三方範例數據集快速上傳為逗號分隔值 (CSV) 檔案至 Azure Databricks 工作區。 CSV 格式提供的一些熱門第三方範例數據集:
範例資料集 | 若要將範例數據集下載為 CSV 檔案... |
---|---|
松鼠人口普查 | 在 [數據] 網頁上,按兩下 [駐留數據] 松鼠數據或 劇本。 |
OWID 數據集集合 | 在 GitHub 存放庫中,按兩下 資料資料資料夾 。 按兩下包含目標資料集的子資料夾,然後按兩下資料集的 CSV 檔案。 |
Data.gov CSV 數據集 | 在搜尋結果網頁上,按兩下目標搜尋結果,然後在 CSV 圖示旁,按兩下 [下載]。 |
鑽石 (需要 卡格爾 帳戶) | 在數據集的網頁上,在 [數據] 索引標籤的 [數據] 索引標籤上,按兩下 [diamonds.csv] 旁的 [下載] 圖示。 |
NYC 計程車車程持續時間 (需要 Kaggle 帳戶) | 在數據集的網頁上,按兩下 [資料] 索引標籤上的 [sample_submission.zip] 旁的 下載 圖示。 若要尋找數據集的 CSV 檔案,請擷取所下載 ZIP 檔案的內容。 |
若要在 Azure Databricks 工作區中使用第三方範例數據集,請執行下列動作:
- 依照第三方指示,將數據集下載為 CSV 檔案至本機計算機。
- 將 CSV 檔案 從本機電腦上傳至 Azure Databricks 工作區。
- 若要使用匯入的數據,請使用 Databricks SQL 來 查詢數據。 或者, 您可以使用筆記本 將數據 載入為 DataFrame。
連結庫內的第三方範例數據集
某些第三方在連結庫中包含範例數據集,例如 Python 套件索引 (PyPI) 套件或完整的 R 封存網路 (CRAN) 套件。 如需詳細資訊,請參閱連結庫提供者的檔。
- 若要使用叢集使用者介面在 Azure Databricks 叢集 上安裝連結庫,請參閱 叢集連結庫。
- 若要使用 Azure Databricks Notebook 安裝 Python 連結庫,請參閱 筆記本範圍的 Python 連結庫。
- 若要使用 Azure Databricks Notebook 安裝 R 連結庫,請參閱 筆記本範圍的 R 連結庫。
掛接至 DBFS 的 Databricks 數據集 (databricks-datasets)
Azure Databricks 建議在已啟用 Unity 目錄的 Databricks 工作區中,針對大部分使用案例使用 DBFS 和掛接的雲端物件記憶體。 Azure Databricks 中有一些掛接至 DBFS 的範例數據集可供使用
注意
Databricks 數據集的可用性和位置可能會變更,而不需通知。
流覽 DBFS 掛接的 Databricks 數據集
若要從 Python、Scala 或 R 筆記本瀏覽這些檔案,您可以使用 Databricks 公用程式 (dbutils) 參考。 下列程式代碼會列出所有可用的 Databricks 數據集。
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"