示例数据集
Azure Databricks 提供各种示例数据集,这些数据集由第三方提供给用户在 Azure Databricks 工作区中使用。
Unity Catalog 数据集
Unity Catalog 提供对 samples
目录中的许多示例数据集的访问。 可以在目录资源管理器 UI 中查看这些数据集,并使用 <catalog-name>.<schema-name>.<table-name>
模式在笔记本或 SQL 编辑器中直接引用它们。
nyctaxi
架构(也称为数据库)包含表 trips
,其中包含有关如何在纽约市乘坐出租车的详细信息。 以下语句返回此表中的前 10 条记录:
SELECT * FROM samples.nyctaxi.trips LIMIT 10
tpch
架构包含 TPC-H 基准中的数据。 若要列出此架构中的表,请运行:
SHOW TABLES IN samples.tpch
CSV 格式的第三方示例数据集
Azure Databricks 的内置工具可将第三方示例数据集作为逗号分隔值 (CSV) 文件快速上传到 Azure Databricks 工作区。 一些常用的第三方示例数据集以 CSV 格式提供:
示例数据集 | 将示例数据集下载为 CSV 文件… |
---|---|
Squirrel Census | 在 Data 网页中,单击 Park Data、 Squirrel Data 或 Stories 。 |
OWID 数据集集合 | 在 GitHub 存储库中,单击“数据集”文件夹。 单击包含目标数据集的子文件夹,然后单击数据集的 CSV 文件。 |
Data.gov CSV 数据集 | 在搜索结果网页上,单击目标搜索结果,然后在 CSV 图标旁边单击“下载”。 |
Diamonds(需要 Kaggle 帐户) | 在数据集网页的 Data 选项卡中,单击 diamonds.csv 旁边的下载图标。 |
NYC Taxi Trip Duration(需要 Kaggle 帐户) | 在数据集网页的 Data 选项卡中,单击 sample_submission.zip 旁边的 下载图标。 若要查找数据集的 CSV 文件,请提取下载的 ZIP 文件的内容。 |
若要在 Azure Databricks 工作区中使用第三方示例数据集,请执行以下操作:
- 按照第三方的说明将数据集(以 CSV 文件格式)下载到本地计算机。
- 从本地计算机将 CSV 文件上传到 Azure Databricks 工作区。
- 若要处理导入的数据,请使用 Databricks SQL 查询数据。 或者,可以使用笔记本将数据加载为数据帧。
库中的第三方示例数据集
一些第三方在库中包含示例数据集,例如 Python 包索引 (PyPI) 包或综合 R 存档网络 (CRAN) 包。 有关详细信息,请参阅库提供商的文档。
- 若要使用群集用户界面在 Azure Databricks 群集 上安装库,请参阅群集库。
- 若要使用 Azure Databricks 笔记本安装 Python 库,请参阅笔记本范围的 Python 库。
- 若要使用 Azure Databricks 笔记本安装 R 库,请参阅笔记本范围的 R 库。
装载到 DBFS 的 Databricks 数据集 (databricks-datasets)
Azure Databricks 建议不要在已启用 Unity Catalog 的 Databricks 工作区中的大多数用例中使用 DBFS 和已装载云对象存储。 Azure Databricks 中提供了一些装载到 DBFS 的示例数据集
注意
Databricks 数据集的可用性和位置随时可能会更改,恕不另行通知。
浏览已装载到 DBFS 的 Databricks 数据集
要通过 Python、Scala 或 R 笔记本浏览这些文件,可以使用 Databricks Utilities (dbutils) 参考。 以下代码列出了所有可用的 Databricks 数据集。
Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"