Compartir a través de


Administración de dependencias de Python para canalizaciones

Las canalizaciones declarativas de Lakeflow Spark permiten incluir dependencias externas en tus canalizaciones. Databricks recomienda usar uno de los dos patrones para instalar paquetes de Python:

  1. Use la configuración del entorno para agregar paquetes al entorno de canalización para todos los archivos de origen de una canalización.
  2. Importe módulos o bibliotecas del código fuente almacenado en archivos del área de trabajo. Consulte Importación de módulos de Python desde carpetas de Git o archivos de área de trabajo.

Las canalizaciones también admiten el uso de scripts de inicialización globales y de ámbito de clúster. Sin embargo, estas dependencias externas, especialmente los scripts de inicialización, aumentan el riesgo de problemas con las actualizaciones en entorno de ejecución. Para mitigar estos riesgos, minimice el uso de scripts de inicialización en las canalizaciones. Si el procesamiento requiere scripts de inicialización, automatice las pruebas de la canalización para detectar problemas al principio. Si usa scripts de inicialización, Databricks recomienda aumentar la frecuencia de las pruebas.

Importante

Dado que las bibliotecas de JVM no se admiten en canalizaciones, no use un script de inicialización para instalar bibliotecas de JVM. Sin embargo, puede instalar otros tipos de biblioteca, como bibliotecas de Python, con un script de inicialización.

Bibliotecas de Python

Para especificar bibliotecas externas de Python, edite el entorno de la canalización.

  1. En el editor de canalización, haga clic en Configuración.
  2. En Entorno de canalización, seleccione Icono de lápiz.Editar entorno.
  3. Haga clic en el icono Más.Agregar dependencia.
  4. Escriba el nombre de la dependencia. Databricks recomienda fijar la versión de la librería. Por ejemplo, para agregar una dependencia de la simplejson versión 3.19, escriba simplejson==3.19.*.

También puede instalar un paquete de ruedas de Python desde un volumen de catálogo de Unity especificando su ruta de acceso, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

¿Puedo usar bibliotecas de Scala o Java en canalizaciones?

No, las canalizaciones solo admiten SQL y Python. No se pueden usar bibliotecas JVM en una canalización. La instalación de bibliotecas de la Máquina Virtual de Java (JVM) provocará un comportamiento impredecible y puede romperse con futuras versiones de Lakeflow Spark Declarative Pipelines. Si la canalización usa un script de inicialización, también debe asegurarse de que el script no instala las bibliotecas de JVM.