Share via


Pacotes do espaço de trabalho

Os pacotes de workspace podem ser arquivos personalizados ou privados (Python), jar (Scala/Java) ou tar.gz (R). Você pode carregar esses pacotes em seu espaço de trabalho e, posteriormente, atribui-los a um pool do Spark específico.

Para adicionar pacotes de espaço de trabalho:

  1. Navegue até a guia Gerenciar>pacotes de espaço de trabalho.
  2. Carregue seus arquivos wheel usando o seletor de arquivo.
  3. Depois que os arquivos tiverem sido carregados no espaço de trabalho do Azure Synapse, você poderá adicionar esses pacotes a um determinado pool do Apache Spark.

Captura de tela que realça os pacotes de espaço de trabalho.

Aviso

  • No Azure Synapse, um pool do Apache Spark pode aproveitar as bibliotecas personalizadas que são carregadas como pacotes de workspace ou carregadas em um caminho conhecido do Azure Data Lake Storage. No entanto, essas duas opções não podem ser usadas simultaneamente no mesmo pool do Apache Spark. Se os pacotes forem fornecidos usando os dois métodos, somente os arquivos wheel especificados na lista Pacotes de espaço de trabalho serão instalados.

  • Depois que os pacotes de espaço de trabalho são usados para instalar pacotes em um determinado pool do Apache Spark, há uma limitação de que você não pode mais especificar pacotes usando o caminho da conta de armazenamento no mesmo pool.

Observação

É recomendável que você não tenha vários pacotes de roda com o mesmo nome em um workspace. Se você quiser usar uma versão diferente do mesmo pacote de roda, será necessário excluir a versão existente e carregar a nova.

Conta de armazenamento

Os pacotes wheel personalizados podem ser instalados no pool do Apache Spark carregando todos os arquivos de roda na conta Azure Data Lake Storage (Gen2) que está vinculada ao espaço de trabalho do Synapse.

Os arquivos devem ser carregados no seguinte caminho no contêiner padrão da conta de armazenamento:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Aviso

  • Em alguns casos, talvez seja necessário criar o caminho do arquivo com base na estrutura acima, caso ele ainda não exista. Por exemplo, talvez seja necessário adicionar a python pasta dentro da libraries pasta, caso ela ainda não exista.
  • Esse método de gerenciamento de arquivos de roda personalizados não terá suporte no tempo de execução do Azure Synapse para o Apache Spark 3.0. Consulte o recurso Pacotes de espaço de trabalho para gerenciar arquivos de roda personalizados.

Importante

Para instalar bibliotecas personalizadas usando o método de armazenamento do Azure DataLake, você deve ter as permissões de colaborador de dados de armazenamento de blob ou de proprietário da conta de armazenamento de blob do Gen2 primário que está vinculada ao espaço de trabalho do Azure Synapse Analytics.

Próximas etapas