Pacotes de espaço de trabalho

Artigo
18/12/2024

Os pacotes de espaço de trabalho podem ser arquivos personalizados ou de roda privada (Python), jar (Scala/Java) ou tar.gz (R). Você pode carregar esses pacotes em seu espaço de trabalho e, posteriormente, atribuí-los a um pool específico do Spark.

Para adicionar pacotes de espaço de trabalho:

Navegue até a guia Gerenciar>pacotes de espaço de trabalho.
Carregue os seus ficheiros utilizando o seletor de ficheiros.
Depois que os arquivos tiverem sido carregados no espaço de trabalho do Azure Synapse, você poderá adicionar esses pacotes a um pool do Apache Spark.

Aviso

No Azure Synapse, um pool do Apache Spark pode aproveitar bibliotecas personalizadas que são carregadas como Pacotes de Espaço de Trabalho ou carregadas dentro de um caminho de Armazenamento do Azure Data Lake bem conhecido. No entanto, ambas as opções não podem ser usadas simultaneamente dentro do mesmo pool do Apache Spark. Se os pacotes forem fornecidos usando ambos os métodos, somente os arquivos de roda especificados na lista de pacotes de espaço de trabalho serão instalados.
Depois que os Pacotes de Espaço de Trabalho são usados para instalar pacotes em um determinado pool do Apache Spark, há uma limitação de que você não pode mais especificar pacotes usando o caminho da conta de armazenamento no mesmo pool.

Nota

É recomendável que você não tenha vários pacotes com o mesmo nome em um espaço de trabalho. Se você quiser usar uma versão diferente do mesmo pacote, você tem que excluir a versão existente e carregar a nova.

Conta de armazenamento

Os pacotes personalizados podem ser instalados no pool do Apache Spark carregando todos os arquivos na conta do Azure Data Lake Storage (Gen2) vinculada ao espaço de trabalho Synapse.

Os arquivos devem ser carregados para o seguinte caminho no contêiner padrão da conta de armazenamento:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Aviso

Em alguns casos, talvez seja necessário criar o caminho do arquivo com base na estrutura acima, caso ele ainda não exista. Por exemplo, talvez seja necessário adicionar a python pasta dentro da libraries pasta, se ela ainda não existir.
Esse método de gerenciamento de arquivos personalizados não terá suporte no Azure Synapse Runtime for Apache Spark 3.0. Consulte o recurso Pacotes de espaço de trabalho para gerenciar arquivos personalizados.

Importante

Para instalar bibliotecas personalizadas usando o método de Armazenamento do Azure DataLake, você deve ter as permissões de Colaborador de Dados de Blob de Armazenamento ou Proprietário de Dados de Blob de Armazenamento na conta de Armazenamento Gen2 primária vinculada ao espaço de trabalho do Azure Synapse Analytics.

Próximos passos

Veja as bibliotecas padrão: Suporte à versão do Apache Spark
Solucionar erros de instalação de biblioteca: Solucionar erros de biblioteca
Criar um canal Conda privado usando sua Conta de Armazenamento do Azure Data Lake: Canais privados Conda

Partilhar via

Pacotes de espaço de trabalho

Conta de armazenamento

Próximos passos

Comentários

Recursos adicionais