Compartilhar via


Gerenciar dependências do Python para pipelines

O Lakeflow Spark Declarative Pipelines oferece suporte a dependências externas em seus pipelines. O Databricks recomenda usar um dos dois padrões para instalar pacotes do Python:

  1. Use as configurações de ambiente para adicionar pacotes ao ambiente de pipeline para todos os arquivos de origem em um pipeline.
  2. Importar módulos ou bibliotecas do código-fonte armazenado em arquivos de workspace. Consulte Importar módulos Python de pastas Git ou arquivos de espaço de trabalho.

Os pipelines também dão suporte ao uso de scripts de inicialização globais e com escopo de cluster. No entanto, essas dependências externas, principalmente os scripts de inicialização, aumentam o risco de problemas com atualizações de runtime. Para mitigar esses riscos, minimize o uso de scripts de inicialização em seus pipelines. Se o processamento exigir scripts de inicialização, automatize o teste do pipeline para detectar problemas antecipadamente. Se você usa scripts de inicialização, a Databricks recomenda aumentar sua frequência de teste.

Importante

Como as bibliotecas JVM não têm suporte em pipelines, não use um script de inicialização para instalar bibliotecas JVM. No entanto, você pode instalar outros tipos de biblioteca, como bibliotecas python, com um script de inicialização.

Bibliotecas do Python

Para especificar bibliotecas externas em Python, edite o ambiente do seu pipeline.

  1. No editor de pipeline, clique em Configurações.
  2. No ambiente de pipeline, selecione o ícone do lápis.Editar ambiente.
  3. Clique no ícone Plus.Adicionar dependência.
  4. Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na simplejson versão 3.19, digite simplejson==3.19.*.

Você também pode instalar um pacote wheel do Python a partir de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Posso usar bibliotecas Scala ou Java em pipelines?

Não, os pipelines dão suporte apenas a SQL e Python. Você não pode usar bibliotecas JVM em um pipeline. A instalação de bibliotecas JVM resultará em um comportamento imprevisível e poderá falhar com versões futuras do Lakeflow Spark Declarative Pipelines. Se o pipeline usar um script de inicialização, você também deverá garantir que as bibliotecas JVM não sejam instaladas pelo script.