Compartir a través de


Instalar bibliotecas desde un repositorio de paquetes

Azure Databricks proporciona herramientas para instalar bibliotecas desde repositorios de paquetes PyPI, Maven y CRAN. Consulte Bibliotecas con ámbito de clúster para obtener detalles de compatibilidad de bibliotecas completas.

Importante

Las bibliotecas se pueden instalar desde DBFS cuando se usa Databricks Runtime 14.3 LTS y versiones anteriores. Sin embargo, cualquier usuario del área de trabajo puede modificar los archivos de biblioteca almacenados en DBFS. Para mejorar la seguridad de las bibliotecas en un área de trabajo de Azure Databricks, el almacenamiento de archivos de biblioteca en la raíz de DBFS está en desuso y deshabilitado de forma predeterminada en Databricks Runtime 15.1 y versiones posteriores. Consulte El almacenamiento de bibliotecas en la raíz de DBFS está en desuso y deshabilitado de manera predeterminada.

En su lugar, Databricks recomienda cargar todas las bibliotecas, incluidas las bibliotecas de Python, los archivos JAR y los conectores de Spark, en archivos de área de trabajo o volúmenes de Unity Catalog, o mediante repositorios de paquetes de biblioteca. Si la carga de trabajo no admite estos patrones, también puede usar bibliotecas almacenadas en el almacenamiento de objetos en la nube.

Paquete PyPi

  1. En la lista del botón del origen de la biblioteca, seleccione PyPI.

  2. Escriba un nombre de paquete PyPI. Para instalar una versión específica de una biblioteca, use este formato para la biblioteca: <library>==<version>. Por ejemplo, scikit-learn==0.19.1.

    Nota:

    En el caso de los trabajos, Databricks recomienda especificar una versión de biblioteca para garantizar un entorno reproducible. Si la versión de la biblioteca no se especifica por completo, Databricks usa la versión coincidente más reciente. Esto significa que diferentes ejecuciones del mismo trabajo pueden usar versiones de biblioteca diferentes a medida que se publican nuevas versiones. Si se especifica la versión de la biblioteca, se impide que los cambios importantes en las bibliotecas interrumpan los trabajos.

  3. (Opcional) En el campo Dirección URL del índice, escriba una dirección URL de índice PyPI.

  4. Haga clic en Instalar.

Paquete Maven o Spark

Importante

Para instalar bibliotecas de Maven en el proceso configurado con el modo de acceso compartido, debe agregar las coordenadas a la lista de permitidos. Consulte Agregar a la lista de permitidos bibliotecas y scripts de inicialización en proceso compartido.

Importante

Para DBR 14.3 LTS y versiones posteriores, Databricks usa Apache Ivy 2.4.0 para resolver paquetes de Maven. Para DBR 15.0 y versiones posteriores, Databricks usa Ivy 2.5.1 o versiones posterior y la versión específica de Ivy se muestra en Versiones y compatibilidad de las notas de la versión de Databricks Runtime.

El orden de instalación de los paquetes de Maven puede afectar al árbol de dependencias final, lo que puede afectar al orden en que se cargan las bibliotecas.

  1. En la lista del botón del origen de la biblioteca, seleccione Maven.

  2. Especifique una coordenada de Maven. Realice una de las siguientes acciones:

    • En el campo Coordenada, escriba la coordenada de Maven de la biblioteca que se va a instalar. Las coordenadas de Maven tienen el formato groupId:artifactId:version; por ejemplo, com.databricks:spark-avro_2.10:1.0.0.
    • Si no conoce la coordenada exacta, escriba el nombre de la biblioteca y haga clic en Buscar paquetes. Se muestra una lista de paquetes coincidentes. Para mostrar detalles sobre un paquete, haga clic en su nombre. Puede ordenar los paquetes por nombre, organización y clasificación. También puede filtrar los resultados si escribe una consulta en la barra de búsqueda. Los resultados se actualizan automáticamente.
      1. Seleccione Maven Central o Spark Packages en la lista desplegable de la parte superior izquierda.
      2. Opcionalmente, seleccione la versión del paquete en la columna Versiones.
      3. Haga clic en + Seleccionar junto a un paquete. El campo Coordenada se rellena con el paquete y la versión seleccionados.
  3. (Opcional) En el campo Repositorio puede escribir una dirección URL del repositorio Maven.

    Nota:

    No se admiten repositorios internos de Maven.

  4. En el campo Exclusiones, proporcione opcionalmente los elementos groupId y artifactId de las dependencias que quiere excluir (por ejemplo, log4j:log4j).

    Nota:

    Maven funciona utilizando la versión más cercana a la raíz, y en el caso de dos paquetes que compiten por versiones con dependencias diferentes, el orden importa, por lo que puede fallar cuando el paquete con una dependencia más antigua se carga primero.

    Para solucionar esto, excluya la biblioteca en conflicto. Por ejemplo, al instalar el paquete con la coordenada com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, establezca el campo Exclusiones en com.nimbusds:oauth2-oidc-sdk:RELEASE para que se cargue la versión más reciente de eventhubs desde MSAL4J y se cumpla la dependencia eventhubs.

  5. Haga clic en Instalar.

Paquete CRAN

  1. En la lista del botón del origen de la biblioteca, seleccione CRAN.
  2. En el campo Paquete, escriba el nombre del paquete.
  3. (Opcional) En el campo Repositorio puede escribir una dirección URL del repositorio CRAN.
  4. Haga clic en Instalar.

Nota:

Los reflejos CRAN atienden a la versión más reciente de una biblioteca. Como resultado, puede acabar con diferentes versiones de un paquete de R si asocia la biblioteca a clústeres diferentes en distintos momentos. Para aprender a administrar y corregir versiones de paquetes de R en Databricks, vea Knowledge Base.