Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Uma biblioteca é um pacote de código reutilizável — como um pacote Python do PyPI, um pacote R do CRAN ou um Java JAR — que pode importar para os seus cadernos e definições de trabalhos do Spark para adicionar funcionalidades sem o escrever do zero. O Microsoft Fabric fornece vários mecanismos para ajudá-lo a gerenciar e usar bibliotecas.
- Bibliotecas integradas: cada tempo de execução do Fabric Spark fornece um rico conjunto de bibliotecas populares pré-instaladas. Você pode encontrar a lista completa de bibliotecas internas no Fabric Spark Runtime.
- Bibliotecas públicas: As bibliotecas públicas são originárias de repositórios como PyPI e Conda, que atualmente são suportados.
- Bibliotecas personalizadas: bibliotecas personalizadas referem-se ao código que você ou sua organização criam. O Fabric oferece suporte a eles nos formatos .whl, .jar e .tar.gz . O Fabric suporta .tar.gz apenas para o idioma R. Para bibliotecas do Python personalizadas, use o formato .whl.
Resumo das práticas recomendadas de gerenciamento de bibliotecas
Os cenários a seguir descrevem as práticas recomendadas ao usar bibliotecas no Microsoft Fabric.
Cenário 1: O administrador define bibliotecas padrão para o espaço de trabalho
Para definir bibliotecas padrão, você precisa ser o administrador do espaço de trabalho. Como administrador, você pode executar estas tarefas:
- Criar um novo ambiente
- Instalar as bibliotecas necessárias no ambiente
- Anexar este ambiente como o espaço de trabalho padrão
Quando seus blocos de anotações e definições de trabalho do Spark são anexados às configurações do espaço de trabalho, eles iniciam sessões com as bibliotecas instaladas no ambiente padrão do espaço de trabalho.
Cenário 2: Persistir as especificações da biblioteca para um ou vários itens de código
Se tiveres bibliotecas comuns para diferentes itens de código e não precisares de as atualizar frequentemente, instala as bibliotecas num ambiente e anexa-as aos itens de código.
A publicação demora entre 5 a 15 minutos, dependendo da complexidade das bibliotecas. Durante este processo, o sistema resolve potenciais conflitos e descarrega dependências necessárias.
A vantagem desta abordagem é que as bibliotecas instaladas com sucesso estão garantidamente disponíveis quando uma sessão Spark começa com o ambiente ligado. Poupa o esforço de manter bibliotecas comuns para os seus projetos e é recomendado para cenários de pipeline devido à sua estabilidade.
Cenário 3: Instalação em linha em execução interativa
Se estiveres a escrever código de forma interativa num caderno, a instalação inline é a melhor abordagem para adicionar bibliotecas PyPI ou conda ou validar bibliotecas personalizadas para uso único. Os comandos em linha disponibilizam uma biblioteca apenas na sessão Spark do caderno atual — permitem uma instalação rápida, mas a biblioteca instalada não persiste entre sessões.
Como %pip install pode gerar diferentes árvores de dependências de execução para outra, o que pode conduzir a conflitos de biblioteca, os comandos inline são desativados por padrão nas execuções de pipelines e não são recomendados para pipelines.
Resumo dos tipos de biblioteca suportados
| Tipo de biblioteca | Gestão de bibliotecas de ambiente | Instalação em linha |
|---|---|---|
| Python Público (PyPI & Conda) | Suportado | Suportado |
| Python Personalizado (.whl) | Suportado | Suportado |
| R Público (CRAN) | Não suportado | Suportado |
| R personalizado (.tar.gz) | Suportado como biblioteca personalizada | Suportado |
| Frasco | Suportado como biblioteca personalizada | Suportado |
Instalação em linha
Os comandos em linha permitem-te gerir bibliotecas dentro de sessões individuais do caderno.
Instalação em linha do Python
O sistema reinicia o interpretador Python para aplicar alterações na biblioteca. Todas as variáveis definidas antes de executar a célula de comando são perdidas. Coloca todos os comandos para adicionar, eliminar ou atualizar pacotes Python no início do teu caderno.
Os comandos inline para gerir bibliotecas Python são desativados por defeito nas execuções de pipeline do notebook. Para permitir %pip install de um pipeline, adicione _inlineInstallationEnabled como um parâmetro booleano definido como True nos parâmetros de atividade do notebook.
Nota
O %pip install comando pode produzir resultados inconsistentes de execução para execução. Instale bibliotecas num ambiente e utilize o ambiente num pipeline em vez disso.
O %pip install comando não é suportado no modo de Alta Concorrência.
Em execuções de referência em cadernos, comandos inline para gerir bibliotecas Python não são suportados. Remova estes comandos em linha do caderno referenciado para garantir a execução correta.
Use %pip em vez de !pip. O !pip comando é um comando incorporado no shell do IPython, com as seguintes limitações:
-
!pipinstala um pacote apenas no nó do driver, não nos nós dos executores. - Os pacotes instalados através
!pipnão têm em conta conflitos com pacotes incorporados ou com pacotes já importados num caderno.
%pip lida com estes cenários. As bibliotecas instaladas através %pip estão disponíveis tanto nos nós driver como executor e entram em vigor mesmo que a biblioteca já esteja importada.
Gorjeta
O %conda install comando geralmente leva mais tempo do que o %pip install comando para instalar novas bibliotecas Python. Verifica todas as dependências e resolve conflitos.
Use %conda install para maior fiabilidade e estabilidade. Usa %pip install se tiveres a certeza de que a biblioteca que queres instalar não entra em conflito com as bibliotecas pré-instaladas no ambiente de runtime.
Para obter todos os comandos e esclarecimentos em linha Python disponíveis, consulte %pip commands e %conda commands.
Gerencie bibliotecas públicas Python através da instalação em linha
Este exemplo mostra como usar comandos inline para gerir bibliotecas. Suponha que queres usar altair, uma poderosa biblioteca de visualização para Python, para uma exploração de dados única e a biblioteca não está instalada no teu espaço de trabalho. O exemplo a seguir usa comandos conda para ilustrar as etapas.
Você pode usar comandos inline para habilitar altair na sessão do notebook sem afetar outras sessões do notebook ou outros itens.
Execute os seguintes comandos numa célula de código do notebook. O primeiro comando instala a biblioteca altair . Além disso, instale o vega_datasets, que contém um modelo semântico que você pode usar para visualizar.
%conda install altair # install latest version through conda command %conda install vega_datasets # install latest version through conda commandA saída da célula indica o resultado da instalação.
Importe o pacote e o modelo semântico executando o código a seguir em outra célula do bloco de anotações.
import altair as alt from vega_datasets import dataAgora você pode experimentar com a biblioteca altair com escopo de sessão.
# load a simple dataset as a pandas DataFrame cars = data.cars() alt.Chart(cars).mark_point().encode( x='Horsepower', y='Miles_per_Gallon', color='Origin', ).interactive()
Gerencie bibliotecas personalizadas do Python através da instalação em linha
Você pode carregar suas bibliotecas personalizadas Python para a pasta de recursos do seu bloco de anotações ou para o ambiente anexado. A pasta de recursos é um sistema de ficheiros incorporado fornecido por cada caderno e ambiente. Consulte Recursos do bloco de anotações para obter mais detalhes. Depois de carregares uma biblioteca, podes arrastá-la e largá-la numa célula de código para gerar automaticamente o comando de instalação. Ou pode executar o seguinte comando:
# install the .whl through pip command from the notebook built-in folder
%pip install "builtin/wheel_file_name.whl"
Instalação integrada R
Para gerenciar bibliotecas R, o Fabric suporta os install.packages()comandos , remove.packages()e devtools:: . Para todos os comandos e esclarecimentos em linha R disponíveis, consulte o comando install.packages e o comando remove.package.
Gerencie bibliotecas públicas R através da instalação em linha
Siga este exemplo para percorrer as etapas de instalação de uma biblioteca pública R.
Para instalar uma biblioteca de feeds R:
Mude o idioma de trabalho para SparkR (R) no friso do bloco de notas.
Instale a biblioteca caesar executando o seguinte comando em uma célula do notebook.
install.packages("caesar")Agora pode experimentar a biblioteca de sessão do caesar com um trabalho do Spark.
library(SparkR) sparkR.session() hello <- function(x) { library(caesar) caesar(x) } spark.lapply(c("hello world", "good morning", "good evening"), hello)
Gerencie bibliotecas Jar através da instalação em linha
Pode adicionar .jar ficheiros às sessões do caderno com o seguinte comando.
%%configure -f
{
"conf": {
"spark.jars": "abfss://<<Lakehouse prefix>>.dfs.fabric.microsoft.com/<<path to JAR file>>/<<JAR file name>>.jar",
}
}
A célula de código anterior utiliza o armazenamento lakehouse como exemplo. No explorador de cadernos, podes copiar o caminho ABFS completo do ficheiro e substituí-lo no código.