Pacotes do espaço de trabalho

Artigo
03/25/2023

Os pacotes de workspace podem ser arquivos personalizados ou privados (Python), jar (Scala/Java) ou tar.gz (R). Você pode carregar esses pacotes em seu espaço de trabalho e, posteriormente, atribui-los a um pool do Spark específico.

Para adicionar pacotes de espaço de trabalho:

Navegue até a guia Gerenciar>pacotes de espaço de trabalho.
Carregue seus arquivos wheel usando o seletor de arquivo.
Depois que os arquivos tiverem sido carregados no espaço de trabalho do Azure Synapse, você poderá adicionar esses pacotes a um determinado pool do Apache Spark.

Aviso

No Azure Synapse, um pool do Apache Spark pode aproveitar as bibliotecas personalizadas que são carregadas como pacotes de workspace ou carregadas em um caminho conhecido do Azure Data Lake Storage. No entanto, essas duas opções não podem ser usadas simultaneamente no mesmo pool do Apache Spark. Se os pacotes forem fornecidos usando os dois métodos, somente os arquivos wheel especificados na lista Pacotes de espaço de trabalho serão instalados.
Depois que os pacotes de espaço de trabalho são usados para instalar pacotes em um determinado pool do Apache Spark, há uma limitação de que você não pode mais especificar pacotes usando o caminho da conta de armazenamento no mesmo pool.

Observação

É recomendável que você não tenha vários pacotes de roda com o mesmo nome em um workspace. Se você quiser usar uma versão diferente do mesmo pacote de roda, será necessário excluir a versão existente e carregar a nova.

Conta de armazenamento

Os pacotes wheel personalizados podem ser instalados no pool do Apache Spark carregando todos os arquivos de roda na conta Azure Data Lake Storage (Gen2) que está vinculada ao espaço de trabalho do Synapse.

Os arquivos devem ser carregados no seguinte caminho no contêiner padrão da conta de armazenamento:

abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/

Aviso

Em alguns casos, talvez seja necessário criar o caminho do arquivo com base na estrutura acima, caso ele ainda não exista. Por exemplo, talvez seja necessário adicionar a python pasta dentro da libraries pasta, caso ela ainda não exista.
Esse método de gerenciamento de arquivos de roda personalizados não terá suporte no tempo de execução do Azure Synapse para o Apache Spark 3.0. Consulte o recurso Pacotes de espaço de trabalho para gerenciar arquivos de roda personalizados.

Importante

Para instalar bibliotecas personalizadas usando o método de armazenamento do Azure DataLake, você deve ter as permissões de colaborador de dados de armazenamento de blob ou de proprietário da conta de armazenamento de blob do Gen2 primário que está vinculada ao espaço de trabalho do Azure Synapse Analytics.

Próximas etapas

Exibir as bibliotecas padrão: suporte à versão Apache Spark
Solucionar erros de instalação da biblioteca: solucionar erros de biblioteca
Criar um canal Conda privado usando sua conta do Azure Data Lake Storage: canais privados Conda

Share via

Pacotes do espaço de trabalho

Conta de armazenamento

Próximas etapas

Recursos adicionais