将文件上传到 Unity Catalog 卷

“上传到卷”UI 允许你将任何格式的文件上传到 Unity Catalog 卷,包括结构化、半结构化和非结构化数据。 请参阅什么是 Unity Catalog 卷?

上传的文件不能超过 5 GB。

  • 在 Databricks Runtime 13.3 LTS 及更高版本中,Databricks 建议使用卷来存储具有分配或共享访问模式的计算库 .whl
  • 在 Databricks Runtime 13.3 LTS 及更高版本中,Databricks 建议使用卷来存储 JAR 和初始化脚本,以便通过分配或共享访问模式进行计算。

可以从上传的文件创建 Unity Catalog 托管表。 请参阅从卷中的数据创建表

还可以对上传到卷的文件运行各种机器学习和数据科学工作负载。 此外,可以上传任意格式的库、证书和其他配置文件(如 .whl 或 .txt),用于配置群集库、笔记本范围的库或作业依赖项。

可在何处访问 UI 以将文件上传到卷?

可通过以下方式访问此 UI:

  • 在边栏中,单击“新建”>“添加数据”>“将文件上传到卷”
  • 在目录资源管理器中,单击“添加”>“上传到卷”。 在目录资源管理器中浏览卷时,还可以将文件直接上传到卷或卷中的目录。
  • 在笔记本中,单击“文件”>“将文件上传到卷”

注意

仅在 Databricks Runtime 13.3 LTS 及更高版本上支持卷。 在 Databricks Runtime 12.2 LTS 及更低版本中,针对 /Volumes 路径的操作可能会成功,但可能将数据写入附加到计算群集的临时存储磁盘,而不是按预期将数据保存到 Unity Catalog 卷。

开始之前

在将文件上传到 Unity Catalog 卷之前,必须具备以下各项:

  • 一个启用了 Unity Catalog 的工作区。 有关详细信息,请参阅设置和管理 Unity Catalog
  • 要将文件上传到的卷的 WRITE VOLUME 特权。
  • 父架构上的 USE SCHEMA 特权。
  • 对父目录的 USE CATALOG 特权。

有关详细信息,请参阅 Unity Catalog 权限和安全对象

将文件上传到卷的步骤

若要将文件上传到 Unity Catalog 卷,请执行以下操作:

  1. 单击“新建>添加数据”。
  2. 单击“将文件上传到卷”
  3. 选择卷或卷中的目录,或粘贴卷路径。
    • 如果目标架构中不存在卷,则可以使用对话框创建新卷。
    • (可选)可以通过指定目标目录的完整路径,在目标卷中创建新目录。
  4. 请单击浏览按钮或,直接在放置区域中拖放文件。

有关将文件上传到 Unity Catalog 的其他方法的信息,请参阅使用 Unity Catalog 卷中的文件