管理卷中的文件
本文提供了管理 Unity Catalog 卷中各种用户界面、工具、库和语言的文件的示例。
Databricks 建议使用卷来管理对云对象存储中非表格数据的所有访问。 非表格数据的示例包括:
- 用于引入的数据文件,例如 CSV、JSON 和 Parquet。
- 用于数据科学、ML 和 AI 工作负载的文本、图像和音频文件。
- Azure Databricks 为与外部系统集成而编写的 CSV 或 JSON 项目。
可以使用卷来存储库、初始化脚本和生成项目等文件。 请参阅有关卷中文件和工作区文件的建议。
目录资源管理器为使用 Unity Catalog 卷存储的文件提供用于常见文件管理任务的选项。
若要与卷中的文件交互,请执行以下操作:
- 在 Azure Databricks 工作区中,单击“ 目录”。
- 搜索或浏览要使用的卷并将其选中。
有关创建和管理卷的详细信息,请参阅创建和管理卷。
“上传到此卷”按钮将打开一个对话框来上传文件。 请参阅将文件上传到 Unity Catalog 卷。
上传的文件不能超过 5 GB。
若要从卷下载文件,请执行以下操作:
- 选择一个或多个文件。
- 单击“下载”以下载这些文件。
若要删除卷中的文件,请执行以下操作:
- 选择一个或多个文件。
- 单击 “删除” 。
- 单击“删除”,在出现的对话框中确认删除。
若要在卷中创建新目录,请执行以下操作:
- 单击卷名右侧的 。
- 选择“创建目录”。
- 输入目录名称。
- 单击 “创建” 。
若要从卷中删除目录,请执行以下操作:
- 选择一个或多个目录。
- 单击 “删除” 。
- 单击“删除”,在出现的对话框中确认删除。
单击文件名旁边的 kebab 菜单 来执行以下操作:
- 复制路径
- 下载文件
- 删除文件
- 创建表
Azure Databricks 提供了一个 UI,用于从存储在 Unity Catalog 卷中的文件或文件目录创建 Unity Catalog 托管表。
必须在目标架构中具有 CREATE TABLE
权限,并且有权访问正在运行的 SQL 仓库。
选择一个或多个文件或一个目录。 文件应该具有相同的数据布局。
单击“创建表”。 此时会显示“从卷创建表”对话框。
使用提供的对话框查看数据预览并完成以下配置:
- 选择“创建新表”或“覆盖现有表”
- 选择目标目录和架构。
- 指定表名称。
- (可选)替代默认列名和类型,或选择排除列。
备注
单击“高级属性”可查看其他选项。
单击“创建表”以创建具有指定属性的表。 完成后,目录资源管理器会显示表详细信息。
可以使用以下格式从所有受支持的语言和工作区编辑器在卷中读取和写入文件:
/Volumes/catalog_name/schema_name/volume_name/path/to/files
与卷中的文件交互的方式与任何云对象存储位置中的文件进行交互的方式相同。 这意味着,如果当前管理使用云 URI、DBFS 装载路径或 DBFS 根路径来与数据或文件交互的代码,则可以更新代码以改用卷。
备注
卷仅用于非表格数据。 Databricks 建议使用 Unity Catalog 表注册表格数据,然后使用表名读取和写入数据。
可以使用 Apache Spark、Pandas、Spark SQL 和其他 OSS 库来在卷中读取和写入数据文件。
以下示例演示如何读取存储在卷中的 CSV 文件:
df = spark.read.format("csv").load("/Volumes/catalog_name/schema_name/volume_name/data.csv")
display(df)
import pandas as pd
df = pd.read_csv('/Volumes/catalog_name/schema_name/volume_name/data.csv')
display(df)
SELECT * FROM csv.`/Volumes/catalog_name/schema_name/volume_name/data.csv`
Databricks 提供以下工具来管理卷中的文件:
- Databricks 实用程序中的
dbutils.fs
子模块。 请参阅文件系统实用工具 (dbutils.fs)。 %fs
magic,这是dbutils.fs
的别名。%sh
magic,它允许针对卷执行 bash 命令。
有关使用这些工具从 Internet 下载文件、解压缩文件和将文件从临时块存储移动到卷的示例,请参阅从 Internet 下载数据。
还可以对文件实用工具命令(如 Python os
模块)使用 OSS 包,如以下示例所示:
import os
os.mkdir('/Volumes/catalog_name/schema_name/volume_name/directory_name')
Databricks 提供了一套工具,用于从本地环境或集成系统以编程方式管理卷中的文件。
Azure Databricks 支持以下 SQL 关键字用于与卷中的文件交互:
备注
Databricks 笔记本或查询编辑器仅支持 LIST
命令。
以下 Databricks SQL 连接器和驱动程序支持管理卷中的文件:
- 适用于 Python 的 Databricks SQL 连接器。 请参阅管理 Unity Catalog 卷中的文件。
- 适用于 Go 的 Databricks SQL 驱动程序。 请参阅管理 Unity Catalog 卷中的文件。
- 适用于 Node.js 的 Databricks SQL 驱动程序。 请参阅管理 Unity Catalog 卷中的文件。
- Databricks JDBC 驱动程序。 请参阅使用 Databricks JDBC 驱动程序管理 Unity Catalog 卷中的文件。
- Databricks ODBC 驱动程序。 请参阅使用 Databricks ODBC 驱动程序管理 Unity Catalog 卷中的文件。
在 databricks fs
中使用子命令。 请参阅 fs 命令组。
备注
Databricks CLI 要求方案 dbfs:/
位于所有卷路径之前。 例如 dbfs:/Volumes/catalog_name/schema_name/volume_name/path/to/data
。
以下 SDK 支持管理卷中的文件:
- 适用于 Python 的 Databricks SDK。 使用 WorkspaceClient.files 中的可用方法。 有关示例,请参阅管理 Unity Catalog 卷中的文件。
- 适用于 Java 的 Databricks SDK。 使用 WorkspaceClient.files 中的可用方法。 有关示例,请参阅管理 Unity Catalog 卷中的文件。
- 适用于 Go 的 Databricks SDK。 使用 WorkspaceClient.files 中的可用方法。 有关示例,请参阅管理 Unity Catalog 卷中的文件。
使用 文件 API 管理卷中的文件。
以下示例使用 curl
和 Databricks REST API 在卷中执行文件管理任务。
以下示例在指定卷中创建名为 my-folder
的空文件夹。
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
以下示例创建一个名为 data.csv
的文件,其中包含卷中指定路径中的指定数据。
curl --request PUT "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv?overwrite=true" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--header "Content-Type: application/octet-stream" \
--data-binary $'id,Text\n1,Hello World!'
以下示例列出指定路径中卷的内容。 此示例使用 jq 设置响应正文的 JSON 的格式,以便于阅读。
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .
以下示例列出卷的指定路径中文件夹的内容。 此示例使用 jq 设置响应正文的 JSON 的格式,以便于阅读。
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" | jq .
以下示例打印卷的指定路径中文件的内容。
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
以下示例删除卷的指定路径中的文件。
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/files/Volumes/main/default/my-volume/my-folder/data.csv" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"
以下示例删除指定卷中的文件夹。
curl --request DELETE "https://${DATABRICKS_HOST}/api/2.0/fs/directories/Volumes/main/default/my-volume/my-folder/" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}"