Compartilhar via


Instalar as bibliotecas de um repositório de pacotes

O Azure Databricks fornece ferramentas para instalar bibliotecas dos repositórios de pacotes PyPI, Maven e CRAN. Consulte Bibliotecas com escopo de cluster para obter detalhes completos de compatibilidade da biblioteca.

Importante

As bibliotecas podem ser instaladas a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e inferior. Porém, qualquer usuário do espaço de trabalho pode modificar os arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um workspace do Azure Databricks, o armazenamento de arquivos de biblioteca na raiz do DBFS foi preterido e desabilitado por padrão no Databricks Runtime 15.1 e em versões posteriores. Consulte O armazenamento de bibliotecas na raiz do DBFS é preterido e desabilitado por padrão.

Em vez disso, o Databricks recomenda carregar todas as bibliotecas, incluindo bibliotecas python, arquivos JAR e conectores Spark, para arquivos de workspace ou volumes do Catálogo do Unity ou usando repositórios de pacotes de biblioteca. Se sua carga de trabalho não der suporte a esses padrões, você também poderá usar bibliotecas armazenadas no armazenamento de objetos de nuvem.

Pacote PyPi

  1. Na lista do botão Fonte da Biblioteca, selecione PyPI.

  2. Insira um nome de pacote PyPI. Para instalar uma versão específica de uma biblioteca, use este formato para a biblioteca: <library>==<version>. Por exemplo, scikit-learn==0.19.1.

    Observação

    Para trabalhos, o Databricks recomenda que você especifique uma versão de biblioteca para garantir um ambiente reproduzível. Se a versão da biblioteca não for totalmente especificada, o Databricks usará a versão correspondente mais recente. Isso significa que diferentes execuções do mesmo trabalho podem usar versões de biblioteca diferentes à medida que novas versões são publicadas. Especificar a versão da biblioteca impede que alterações novas e interruptivas nas bibliotecas interrompam seus trabalhos.

  3. (Opcional) No campo URL de Índice, insira uma URL de índice do PyPI.

  4. Clique em Instalar.

Pacote Maven ou Spark

Importante

Para instalar as bibliotecas Maven na computação configurada com o modo de acesso compartilhado, você deve adicionar as coordenadas à lista de permissões. Consulte Bibliotecas de lista de permitidos e scripts de inicialização na computação compartilhada.

Importante

Para DBR 14.3 LTS e versões anteriores, o Databricks usa o Apache Ivy 2.4.0 para resolver pacotes Maven. Para DBR 15.0 e versões posteriores, o Databricks usa o Ivy 2.5.1 ou versões posteriores e a versão específica do Ivy está listada em Notas sobre a versão e compatibilidade do Databricks Runtime.

A ordem de instalação dos pacotes Maven pode afetar a árvore de dependência final, o que pode afetar a ordem na qual as bibliotecas são carregadas.

  1. Na lista de botões Fonte da biblioteca, selecione Maven.

  2. Especifique uma coordenada do Maven. Realize um dos seguintes procedimentos:

    • No campo Coordenadas, insira a coordenada do Maven da biblioteca a ser instalada. As coordenadas do Maven estão no formato groupId:artifactId:version; por exemplo, com.databricks:spark-avro_2.10:1.0.0.
    • Se você não souber a coordenada exata, insira o nome da biblioteca e clique em Pesquisar pacotes. Uma lista de pacotes correspondentes é exibida. Para exibir detalhes sobre um pacote, clique em seu nome. Você pode classificar pacotes por nome, organização e classificação. Você também pode filtrar os resultados escrevendo uma consulta na barra de pesquisa. Os resultados são atualizados automaticamente.
      1. Selecione Maven central ou Pacotes do Spark na lista suspensa na parte superior esquerda.
      2. Opcionalmente, selecione a versão do pacote na coluna Versões.
      3. Clique em + Selecionar ao lado de um pacote. O campo Coordenadas é preenchido com o pacote e a versão selecionados.
  3. (Opcional) No campo Repositório, você pode inserir uma URL do repositório Maven.

    Observação

    Não há suporte para repositórios Maven internos.

  4. No campo Exclusões, forneça opcionalmente o groupId e o artifactId das dependências que você deseja excluir (por exemplo, log4j:log4j).

    Observação

    O Maven funciona usando a versão mais próxima à raiz e, no caso de dois pacotes disputando versões com dependências diferentes, a ordem é importante e, portanto, pode falhar quando o pacote com uma dependência mais antiga for carregado primeiro.

    Para contornar isso, exclua a biblioteca conflitante. Por exemplo, ao instalar o pacote com a coordenada com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22, defina o campo Exclusões como com.nimbusds:oauth2-oidc-sdk:RELEASE para que a versão mais recente de eventhubs da MSAL4J seja carregada e a dependência de eventhubs seja satisfeita.

  5. Clique em Instalar.

Pacote CRAN

  1. Na lista do botão Fonte da Biblioteca, selecione CRAN.
  2. No campo Pacote, insira o nome do pacote.
  3. (Opcional) No campo Repositório, você pode inserir a URL do repositório CRAN.
  4. Clique em Instalar.

Observação

Os espelhos do CRAN servem para a versão mais recente de uma biblioteca. Como resultado, você poderá acabar com versões diferentes de um pacote do R se anexar a biblioteca a diferentes clusters em momentos diferentes. Para saber como gerenciar e corrigir versões de pacote do R no Databricks, consulte a Base de dados de conhecimento.