Pacotes de áreas de trabalho
Os pacotes de áreas de trabalho podem ser ficheiros personalizados ou privados (Python), jar (Scala/Java) ou tar.gz (R). Pode carregar estes pacotes para a área de trabalho e, posteriormente, atribuí-los a um conjunto específico do Spark.
Para adicionar pacotes de áreas de trabalho:
- Navegue para o separador Gerir>pacotes da Área de Trabalho .
- Carregue os seus ficheiros de roda com o seletor de ficheiros.
- Assim que os ficheiros tiverem sido carregados para a área de trabalho Azure Synapse, pode adicionar estes pacotes a um determinado conjunto do Apache Spark.
Aviso
No Azure Synapse, um conjunto do Apache Spark pode tirar partido de bibliotecas personalizadas que são carregadas como Pacotes de Área de Trabalho ou carregadas num caminho de Azure Data Lake Storage bem conhecido. No entanto, ambas as opções não podem ser utilizadas em simultâneo no mesmo conjunto do Apache Spark. Se os pacotes forem fornecidos através de ambos os métodos, apenas os ficheiros de roda especificados na lista pacotes de Área de Trabalho serão instalados.
Depois de os Pacotes de Área de Trabalho serem utilizados para instalar pacotes num determinado conjunto do Apache Spark, existe uma limitação que já não pode especificar pacotes com o caminho da conta de Armazenamento no mesmo conjunto.
Nota
Recomenda-se que não tenha vários pacotes de roda com o mesmo nome numa área de trabalho. Se quiser utilizar uma versão diferente do mesmo pacote de roda, tem de eliminar a versão existente e carregar a nova.
Conta de armazenamento
Os pacotes de roda personalizados podem ser instalados no conjunto do Apache Spark ao carregar todos os ficheiros de roda para a conta de Azure Data Lake Storage (Gen2) que está ligada à área de trabalho do Synapse.
Os ficheiros devem ser carregados para o seguinte caminho no contentor predefinido da conta de armazenamento:
abfss://<file_system>@<account_name>.dfs.core.windows.net/synapse/workspaces/<workspace_name>/sparkpools/<pool_name>/libraries/python/
Aviso
- Em alguns casos, poderá ter de criar o caminho do ficheiro com base na estrutura acima, caso ainda não exista. Por exemplo, poderá ter de adicionar a
python
pasta nalibraries
pasta se ainda não existir. - Este método de gestão de ficheiros de roda personalizada não será suportado no Azure Synapse Runtime para Apache Spark 3.0. Veja a funcionalidade Pacotes de área de trabalho para gerir ficheiros de roda personalizada.
Importante
Para instalar bibliotecas personalizadas com o método de Armazenamento do Azure DataLake, tem de ter as permissões Contribuidor de Dados de Blobs de Armazenamento ou Proprietário de Dados de Blobs de Armazenamento na conta de Armazenamento gen2 primária que está ligada à área de trabalho do Azure Synapse Analytics.
Passos seguintes
- Ver as bibliotecas predefinidas: suporte da versão do Apache Spark
- Resolver erros de instalação da biblioteca: Resolver erros da biblioteca
- Criar um canal conda privado com a sua Conta Azure Data Lake Storage: Canais privados conda