工作区库(旧版)
重要
本文档已过时,将来可能不会更新。 本内容中提及的产品、服务或技术不再受支持。 请参阅群集库。
注意
工作区库已被弃用,不得使用。 但是,将库存储为工作区文件与存储为工作区库是不同的,但仍然完全受到支持。 可以将存储为工作区文件的库直接安装到计算或作业任务。
工作区库充当本地存储库,你可以从中创建群集安装库。 工作区库可能是你的组织创建的自定义代码,也可能是你的组织已经标准化的开源库的特定版本。
必须先在群集上安装工作区库,然后才能将其用于笔记本或作业。 请参阅将工作区库安装到群集上。
工作区中的所有用户均可使用共享文件夹中的工作区库,而某个用户文件夹中的工作区库仅该用户可用。
重要
使用 Databricks Runtime 14.3 LTS 及更低版本时,可以从 DBFS 安装库。 但任何工作区用户都可以修改存储在 DBFS 中的库文件。 为了提高 Azure Databricks 工作区中库的安全性,从 Databricks Runtime 15.1 开始,在 DBFS 根目录中存储库文件的功能已被弃用且默认禁用。 请参阅已弃用并已默认禁用在 DBFS 根目录中存储库的功能。
相反,Databricks 建议将所有库(包括 Python 库、JAR 文件和 Spark 连接器)上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。
工作区库与使用工作区文件存储的库有何不同?
术语“工作区库”是指注册到工作区的任何库。 工作区库与笔记本和工作区文件一起显示,并遵循其包含目录的 ACL 规则。
术语“工作区文件”是指工作区中存储的任何任意文件。 可以将 Python .whl 包存储为工作区文件,然后将其注册为工作区库。 请参阅什么是工作区文件?。
可以将库作为工作区文件上传。 请参阅工作区文件基本用法。
虽然可以将多种文件类型上传到工作区文件,但只有 Python .whl 文件可以使用工作区文件进行安装。 请参阅作用域为群集的库。
在 Databricks Runtime 13.3 LTS 及更高版本中,可以使用 %pip
来安装存储为工作区文件的 Python wheel 文件。 请参阅使用 %pip 安装存储为工作区文件的包。
创建工作区库
警告
此功能不再可用。 请参阅工作区库的创建和安装不再可用。
上传 Jar、Python egg 或 Python wheel 文件
注意
“安装 Python egg 文件”已弃用,在未来的 Databricks Runtime 版本中将会删除。
重要
使用 Databricks Runtime 14.3 LTS 及更低版本时,可以从 DBFS 安装库。 但任何工作区用户都可以修改存储在 DBFS 中的库文件。 为了提高 Azure Databricks 工作区中库的安全性,从 Databricks Runtime 15.1 开始,在 DBFS 根目录中存储库文件的功能已被弃用且默认禁用。 请参阅已弃用并已默认禁用在 DBFS 根目录中存储库的功能。
相反,Databricks 建议将所有库(包括 Python 库、JAR 文件和 Spark 连接器)上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。
- 在“库源”按钮列表中,选择“上传”。
- 选择“Jar”、“Python Egg”或“Python Whl” 。
- 选择性地输入库名称。
- 将 Jar、Egg 或 Whl 拖到下拉框中,或单击下拉框,然后导航到文件。 该文件将上传到
dbfs:/FileStore/jars
。 - 单击“创建”。 将显示“库状态”屏幕。
引用已上传的 JAR、Python egg 或 Python wheel 文件
可以通过引用存储在 DBFS 根目录或对象存储中的 JAR、Python egg 或 Python wheel 文件,或者使用工作区文件来创建新的工作区库。 遵循此工作流可注册指向库的指针,而无需上传或移动文件。
使用 Databricks Runtime 13.2 及更高版本,还可以在 Unity Catalog 中引用卷。 此功能现提供公共预览版。
对于共享访问模式,必须将 JAR 添加到allowlist
。 请参阅将共享计算上的库和 init 脚本加入允许列表。
- 在“库源”按钮列表中选择“文件路径/ADLS”。
- 选择“Jar”、“Python Egg”或“Python Whl” 。
- 选择性地输入库名称。
- 指定库的路径,如以下示例所示:
abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl
/Workspace/path/to/library.whl
dbfs:/path/to/library.whl
/Volumes/<catalog>/<schema>/<volume>/<path_to_library_file>
- 单击“创建”。 将显示“库状态”屏幕。
有关在对象存储中使用库的详细信息,请参阅从对象存储安装库。
有关工作区文件的详细信息,请参阅使用 Azure Databricks 中的文件。
将工作区库安装到群集上
注意
Azure Databricks 按照在群集上安装所有工作区库的顺序处理这些工作区库。 如果库之间存在依赖关系,则可能需要注意群集上的安装顺序。
重要
使用 Databricks Runtime 14.3 LTS 及更低版本时,可以从 DBFS 安装库。 但任何工作区用户都可以修改存储在 DBFS 中的库文件。 为了提高 Azure Databricks 工作区中库的安全性,从 Databricks Runtime 15.1 开始,在 DBFS 根目录中存储库文件的功能已被弃用且默认禁用。 请参阅已弃用并已默认禁用在 DBFS 根目录中存储库的功能。
相反,Databricks 建议将所有库(包括 Python 库、JAR 文件和 Spark 连接器)上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。
在单用户访问模式下,使用已分配主体(用户或服务主体)的标识。 在共享访问模式下,库使用安装库的用户的标识。 无隔离共享访问模式不支持卷,但使用与共享访问模式相同的标识分配。
若要查看在群集上安装库的所有选项,请参阅群集库。
若要安装工作区中已存在的库,可以从群集 UI 或库 UI 开始:
群集
- 在边栏中,单击“ 计算”。
- 单击群集名称。
- 单击“库”选项卡。
- 单击“新安装”。
- 在“库源”按钮列表中,选择“工作区库”。
- 选择一个工作区库。
- 单击“安装” 。
库
- 转到包含该库的文件夹。
- 单击库名称。
- 选中要在其上安装该库的群集旁边的复选框,然后单击“安装”。 列表中仅显示正在运行的群集。
查看工作区库详细信息
注意
工作区文件夹为发现工作区库和管理 ACL 提供了便利。
- 转到包含该库的工作区文件夹。
- 单击库名称。
“库详细信息”页面显示该库运行中的群集及其安装状态。 如果已安装库,则页面包含指向包主机的链接。 如果已上传库,则页面将显示指向已上传的包文件的链接。
移动工作区库
注意
工作区文件夹为发现工作区库和管理 ACL 提供了便利。 移动工作区库不会移动文件,但可以修改哪些用户有权访问工作区库。
- 转到包含该库的工作区文件夹。
- 右键单击库名称,然后选择“移动”。 将显示文件夹浏览器。
- 单击目标文件夹。
- 单击“移动”。
删除工作区库
重要
删除工作区库之前,应将其从所有群集中卸载。
若要删除工作区库,请执行以下操作:
- 将库移动到“回收站”文件夹。
- 永久删除“回收站”文件夹中的库,或清空“回收站”文件夹。