分享方式:


範例資料集

Azure Databricks 提供的各種範例數據集,並可供第三方使用,您可以在 Azure Databricks 工作區中使用。

Unity 目錄數據集

Unity 目錄 可讓您存取目錄中的一些範例數據集 samples 。 您可以在目錄總管 UI 中檢閱這些數據集,並使用 模式直接在筆記本或 SQL 編輯器<catalog-name>.<schema-name>.<table-name>參考這些數據集。

架構 nyctaxi (也稱為資料庫)包含數據表 trips,其中包含紐約市計程車車程的詳細數據。 下列語句會傳回此資料表中的前 10 筆記錄:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

架構tpch包含來自 TPC-H 基準檢驗的數據。 若要列出此架構中的數據表,請執行:

SHOW TABLES IN samples.tpch

CSV 格式的第三方範例數據集

Azure Databricks 有內建工具,可將第三方範例數據集快速上傳為逗號分隔值 (CSV) 檔案至 Azure Databricks 工作區。 CSV 格式提供的一些熱門第三方範例數據集:

範例資料集 若要將範例數據集下載為 CSV 檔案...
松鼠人口普查 在 [數據] 網頁上,按兩下 [駐留數據]
松鼠數據劇本
OWID 數據集集合 在 GitHub 存放庫中,按兩下 資料資料資料夾 。 按兩下包含目標資料集的子資料夾,然後按兩下資料集的 CSV 檔案。
Data.gov CSV 數據集 在搜尋結果網頁上,按兩下目標搜尋結果,然後在 CSV 圖示旁,按兩下 [下載]。
鑽石 (需要 卡格爾 帳戶) 在數據集的網頁上,在 [數據] 索引標籤的 [數據] 索引標籤上,按兩下 [diamonds.csv] 旁[下載] 圖示。
NYC 計程車車程持續時間 (需要 Kaggle 帳戶) 在數據集的網頁上,按兩下 [資料] 索引標籤上的 [sample_submission.zip] 旁的
下載 圖示。 若要尋找數據集的 CSV 檔案,請擷取所下載 ZIP 檔案的內容。

若要在 Azure Databricks 工作區中使用第三方範例數據集,請執行下列動作:

  1. 依照第三方指示,將數據集下載為 CSV 檔案至本機計算機。
  2. 將 CSV 檔案 從本機電腦上傳至 Azure Databricks 工作區。
  3. 若要使用匯入的數據,請使用 Databricks SQL 來 查詢數據。 或者, 您可以使用筆記本 將數據 載入為 DataFrame

連結庫內的第三方範例數據集

某些第三方在連結庫中包含範例數據集,例如 Python 套件索引 (PyPI) 套件或完整的 R 封存網路 (CRAN) 套件。 如需詳細資訊,請參閱連結庫提供者的檔。

掛接至 DBFS 的 Databricks 數據集 (databricks-datasets)

Azure Databricks 建議在已啟用 Unity 目錄的 Databricks 工作區中,針對大部分使用案例使用 DBFS 和掛接的雲端物件記憶體。 Azure Databricks 中有一些掛接至 DBFS 的範例數據集可供使用

注意

Databricks 數據集的可用性和位置可能會變更,而不需通知。

流覽 DBFS 掛接的 Databricks 數據集

若要從 Python、Scala 或 R 筆記本瀏覽這些檔案,您可以使用 Databricks 公用程式 (dbutils) 參考。 下列程式代碼會列出所有可用的 Databricks 數據集。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"