安装库

若要使第三方或自定义代码可用于计算资源上运行的笔记本和作业，可以安装库。可以使用 Python、Java、Scala 和 R 编写库。可以上传 Python、Java 和 Scala 库，并指向 PyPI、Maven 和 CRAN 存储库中的外部包。

Azure Databricks Databricks Runtime 中包含许多常见库。若要查看 Databricks Runtime 中包含哪些库，请查看你的 Databricks Runtime 版本的 Databricks Runtime 发行说明中的“系统环境”小节。

注意

Microsoft Support有助于隔离和解决与Azure Databricks安装和维护的库相关的问题。对于第三方组件（包括库）Microsoft提供商业合理的支持，以帮助你进一步排查问题。 Microsoft Support尽最大努力提供帮助，并可能能够解决问题。对于 Github 上托管的open source连接器和项目，我们建议你在 Github 上提出问题并跟进这些问题。标准支持案例提交过程不支持开发工作，例如JAR文件遮罩或构建Python库：这些需要通过咨询服务来更快地解决问题。支持人员可能会邀请你利用其他开源技术渠道，你可以通过这些渠道找到在该技术方面拥有深入专业知识的资源。有几个社区网站，两个示例是Microsoft Q&A Azure Databricks 页面和Stack Overflow。

计算范围的库

可以在计算资源上安装库，以便所有在此计算资源上运行的笔记本和任务都能使用这些库。 Databricks 支持Python、JAR 和 R 库。请参阅计算范围的库。

可以直接从以下源安装计算范围的库：

包存储库，例如 PyPI、Maven 或 CRAN
工作区文件
Unity Catalog 卷
云对象存储位置
本地计算机上的路径

并非所有位置都支持所有类型的库或所有计算配置。参阅针对上传库的建议，了解配置建议。

重要

使用 Databricks Runtime 14.3 LTS 及更低版本时，可以从 DBFS 安装库。但任何工作区用户都可以修改存储在 DBFS 中的库文件。为了提高 Azure Databricks 工作区中库的安全性，在 Databricks Runtime 15.1 及更高版本中，默认情况下在 DBFS 根目录中存储库文件已被弃用和禁用。请参阅已弃用并已默认禁用在 DBFS 根目录中存储库的功能。

相反，Databricks 推荐将所有库，包括 Python 库、JAR 文件和 Spark 连接器，上传到工作区文件或 Unity 目录的卷，或使用库包存储库。如果工作负载不支持这些模式，还可以使用存储在云对象存储中的库。

有关完整的库支持信息，请参阅 Python 库支持、Java和 Scala 库支持和 R 库支持。

有关上传库的建议

Databricks 支持大多数Python、JAR 和 R 库的配置安装，但有些方案不受支持。建议将库上传到支持使用标准访问模式（以前称为共享访问模式）来安装至计算设备的源位置，因为这是所有工作负载推荐的访问模式。请参阅访问模式。使用标准访问模式计划作业时，请使用服务主体运行作业。

重要

仅当标准访问模式不支持所需的功能时，才将计算与专用访问模式（以前是单用户访问模式）一起使用。不推荐在 Databricks 上使用无隔离共享访问模式，因为这是一种遗留配置。

下表提供了按 Databricks Runtime 版本和 Unity Catalog 启用状态组织的建议。

配置	建议
包含 Unity Catalog 的 Databricks Runtime 13.3 LTS 及更高版本	使用标准访问模式在计算设备上从 Unity Catalog 卷安装库，并对所需的用户运行 GRANT READ。如果适用，需要将 Maven 坐标和 JAR 库路径添加到允许列表。
不包含 Unity Catalog 的 Databricks Runtime 11.3 LTS 及更高版本	使用工作区文件安装库。（文件大小限制为 500 MB。）
Databricks Runtime 10.4 LTS 及更低版本	使用云对象存储安装库。

Python库支持

下表显示不同计算访问模式中，与库源位置相关的 Python wheel 文件的 Databricks Runtime 版本兼容性。请参阅 Databricks Runtime 发行说明版本和兼容性与访问模式。

在 Databricks Runtime 15.0 及更高版本中，可以使用 requirements.txt 文件来管理Python依赖项。这些文件可以上传到任何受支持的源位置。

注意

仅 Databricks Runtime 13.3 LTS 及更低版本支持安装 Python egg 文件，仅适用于专用或无隔离共享访问模式。此外，不能在存储卷或工作空间文件上安装 Python egg 文件。请使用 Python wheel 文件或者从 PyPI 安装软件包。

	标准访问模式	专用访问模式	无隔离共享访问模式（旧版）
PyPI	13.3 LTS 及更高版本	所有支持的 Databricks Runtime 版本	所有支持的 Databricks Runtime 版本
工作区文件	13.3 LTS 及更高版本	13.3 LTS 及更高版本	14.1 及更高版本
卷	13.3 LTS 及更高版本	13.3 LTS 及更高版本	不支持
云存储	13.3 LTS 及更高版本	所有支持的 Databricks Runtime 版本	所有支持的 Databricks Runtime 版本
DBFS（不推荐）	不支持	14.3 及更低版本	14.3 及更低版本

Java 和 Scala 库支持

下表指示基于库源位置的不同计算访问模式的 JAR 文件的 Databricks Runtime 版本兼容性。请参阅 Databricks Runtime 发行说明版本和兼容性与访问模式。

有关如何在标准访问模式下在启用了 Unity 目录的群集上部署 Scala JAR 文件的详细信息，请参阅教程：在无服务器计算上运行 Scala 代码。请注意，在 Unity Catalog 标准群集上，JAR 库中的类必须位于命名包中，例如 com.databricks.MyClass，否则在导入库时会发生错误。

注意

标准访问模式要求管理员将 JAR 库的 Maven 坐标和路径添加到 allowlist。请参阅使用标准访问模式（原共享访问模式）的计算上的允许列表库和 init 脚本。

	标准访问模式	专用访问模式	无隔离共享访问模式（旧版）
Maven	13.3 LTS 及更高版本	所有支持的 Databricks Runtime 版本	所有支持的 Databricks Runtime 版本
工作区文件	不支持	不支持	14.1 及更高版本
卷	13.3 LTS 及更高版本	13.3 LTS 及更高版本	不支持
云存储	13.3 LTS 及更高版本	所有支持的 Databricks Runtime 版本	所有支持的 Databricks Runtime 版本
DBFS（不推荐）	不支持	14.3 及更低版本	14.3 及更低版本

R 库支持

下表指示适用于不同计算访问模式的 CRAN 包的 Databricks Runtime 版本兼容性。请参阅 Databricks Runtime 发行说明版本和兼容性与访问模式。

	标准访问模式	专用访问模式	无隔离共享访问模式（旧版）
CRAN	不支持	所有支持的 Databricks Runtime 版本	所有支持的 Databricks Runtime 版本

安装程序标识

从工作区文件或 Unity Catalog 卷中安装库时，可能会根据计算访问模式将某个标识与安装相关联。该标识必须对库文件具有读取访问权限。

标准访问模式	专用访问模式	无隔离共享访问模式（旧版）
安装库的用户的标识	专职负责人的身份	无身份

笔记本范围的库

针对笔记本的库可用于 Python 和 R，允许您安装库并为笔记本会话创建作用域的环境。这些库不会影响在同一计算上运行的其他笔记本。笔记本范围的库不会保留，且必须对每个会话重新安装它们。在需要为特定笔记本配置自定义环境时，请使用笔记本范围内的库。

注意

无法在笔记本级别安装 JAR。

重要

工作区库已弃用，请不要使用。请参阅工作区库（旧版）。但是，将库存储为工作区文件与存储工作区库不同，此操作仍然完全受支持。可以将存储为工作区文件的库直接安装至计算环境或作业任务中。

Python 环境管理

下表概述了可用于在 Azure Databricks 中安装Python库的选项。

注意

使用基于 Conda 的环境的自定义容器与笔记本范围的库以及 Databricks Runtime 10.4 LTS 及更高版本中的计算库不兼容。相反，Azure Databricks 建议直接在映像中安装库或使用 init 脚本。若要在这些方案中继续使用计算库，可以将 Spark 配置spark.databricks.driverNfs.clusterWidePythonLibsEnabled 设置为 false。 2021 年 12 月 31 日及之后将不再提供对 Spark 配置的支持。

Python包源	通过 %pip 使用笔记本范围的库	具有基本环境 YAML 文件的笔记本范围的库	计算范围的库	通过作业 API 使用作业库
PyPI	请使用 `%pip install`。请查看示例。	将 PyPI 包名称添加到基本环境 YAML 文件。请查看示例。	选择 PyPI 作为源。	将新的 `pypi` 对象添加到作业库中，并指定 `package` 字段。
专用 PyPI 镜像，例如 Nexus 或 Artifactory	将 `%pip install` 与 `--index-url` 选项一起使用。可使用机密管理功能。请查看示例。	将文件 `-–index-url` 添加到基本环境 YAML 文件。可使用机密管理功能。请查看示例。	不支持。	不支持。
包含原始代码的 VCS，例如 GitHub	使用 `%pip install` 并指定存储库 URL 作为包名称。请查看示例。	将存储库 URL 作为包名称添加到基本环境 YAML 文件。请查看示例。	选择 PyPI 作为源，并指定存储库 URL 作为包名称。	将新的 `pypi` 对象添加到作业库中，并指定存储库 URL 作为 `package` 字段。
使用原始源的专用 VCS	使用 `%pip install`，并指定具有基本身份验证的存储库 URL 作为包名称。可使用机密管理功能。请查看示例。	将基本身份验证的存储库添加为基本环境 YAML 文件的包名称。请查看示例。	不支持。	不支持。
文件路径	请使用 `%pip install`。请查看示例。	将文件路径作为包名称添加到基本环境 YAML 文件。请查看示例。	选择作为源的文件路径/ADLS。	将新的 `egg` 或 `whl` 对象添加到作业库中，并指定文件路径作为 `package` 字段。
Azure Data Lake Storage	与预签名 URL 一起使用 `%pip install`。不支持使用Azure Data Lake Storage协议的路径`abfss://`。	将预签名的 URL 作为包名称添加到基本环境 YAML 文件。不支持使用Azure Data Lake Storage协议的路径`abfss://`。	选择作为源的文件路径/ADLS。	将新的 `egg` 或 `whl` 对象添加到作业库，并将Azure Data Lake Storage路径指定为 `package` 字段。

Python 库优先级

你可能会遇到以下情况：需要替代内置库的版本，或者一个自定义库的名称与计算资源上安装的另一个库发生冲突。运行 import <library> 时，将导入高优先级的库。

重要

存储在工作区文件中的库具有不同的优先级，具体取决于它们如何添加到 Python sys.path。 Databricks Git 文件夹在所有其他库之前将当前工作目录添加到路径中，而 Git 文件夹之外的笔记本在安装其他库之后将当前工作目录添加到路径中。如果你手动将工作区目录附加到路径中，这些目录的优先级始终最低。

以下列表按优先级从高到低排序。在此列表中，数字越小表示优先级越高。

当前工作目录中的库（仅限 Git 文件夹）。
Git 文件夹根目录中的库（仅限 Git 文件夹）。
笔记本范围内的库（笔记本中的 %pip install）。
计算范围的库（使用 UI、CLI 或 API）。
Databricks Runtime 中包含的库。
- 使用 init 脚本安装的库可能会在内置库之前或之后解析，具体取决于它们的安装方式。 Databricks 不建议使用 init 脚本安装库。
当前工作目录中的库（不在 Git 文件夹中）。
已附加到 sys.path 的工作区文件。

反馈

此页面是否有帮助？

Last updated on 2026-04-11