Usar Python para Apache Spark

O Microsoft Fabric fornece suporte Python integrado para o Apache Spark. O suporte inclui o PySpark, que permite que os usuários interajam com o Spark usando interfaces familiares do Spark ou Python.

Você pode analisar dados usando Python por meio de definições de trabalho em lote do Spark ou com blocos de anotações interativos do Fabric. Este artigo fornece uma visão geral do desenvolvimento de aplicativos Spark no Synapse usando a linguagem Python.

Criar e executar sessões de bloco de notas

O bloco de anotações do Microsoft Fabric é uma interface da Web para você criar arquivos que contêm código dinâmico, visualizações e texto narrativo. Os blocos de notas são um bom local para validar ideias e utilizar experiências rápidas para obter informações dos seus dados. Os notebooks também são amplamente utilizados na preparação de dados, visualização de dados, aprendizado de máquina e outros cenários de big data.

Para começar a usar Python em blocos de anotações do Microsoft Fabric, altere o idioma principal na parte superior do bloco de anotações definindo a opção de idioma como PySpark (Python).

%%pyspark
# Enter your Python code here

Você pode usar vários idiomas em um bloco de anotações especificando o comando language magic no início de uma célula.

Para saber mais sobre blocos de anotações no Microsoft Fabric Analytics, consulte Como usar blocos de anotações.

Instalar pacotes

As bibliotecas fornecem código reutilizável que você pode incluir em seus programas ou projetos. Para disponibilizar código de parceiro ou código criado localmente para seus aplicativos, instale uma biblioteca em linha em sua sessão de bloco de anotações. Como alternativa, o administrador do espaço de trabalho pode criar um ambiente, instalar a biblioteca nele e anexar o ambiente como o padrão do espaço de trabalho na configuração do espaço de trabalho.

Para saber mais sobre o gerenciamento de bibliotecas no Microsoft Fabric, consulte Gerenciar bibliotecas do Apache Spark.

Utilitários para notebook

Microsoft Spark Utilities (MSSparkUtils) é um pacote interno para ajudá-lo a executar facilmente tarefas comuns. Você pode usar o MSSparkUtils para trabalhar com sistemas de arquivos, obter variáveis de ambiente, encadear blocos de anotações e trabalhar com segredos. MSSparkUtils é suportado para notebooks PySpark.

Para começar, execute os seguintes comandos:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Para obter mais informações sobre os comandos MSSparkUtils suportados, consulte Usar utilitários Microsoft Spark.

Use Pandas no Spark

A API do Pandas no Spark permite que você dimensione sua carga de trabalho do Pandas para qualquer tamanho, executando-a distribuída em vários nós. Se você já está familiarizado com pandas e quer usar o Spark para big data, a API do pandas no Spark torna você imediatamente produtivo.

Você pode migrar seus aplicativos sem modificar o código. Você pode ter uma única base de código que funcione com pandas, para testes e conjuntos de dados menores, e com o Spark, para produção e conjuntos de dados distribuídos. Você pode alternar entre a API pandas e a API Pandas no Spark facilmente e sem sobrecarga.

Tempo de execução do Python

O Microsoft Fabric Runtime é um ambiente com curadoria otimizado para ciência de dados e aprendizado de máquina. O tempo de execução do Microsoft Fabric oferece uma variedade de bibliotecas populares de código aberto Python, incluindo bibliotecas como Pandas, PyTorch, scikit-learn e XGBoost.

Visualização Python

O ecossistema Python oferece várias bibliotecas gráficas que vêm com muitos recursos diferentes. Por padrão, cada instância do Spark no Microsoft Fabric contém um conjunto de bibliotecas de código aberto selecionadas e populares. Você também pode adicionar ou gerenciar outras bibliotecas ou versões. Para obter mais informações sobre o gerenciamento de bibliotecas, consulte Resumo das práticas recomendadas de gerenciamento de bibliotecas.

Para saber mais sobre como criar visualizações Python, consulte Visualização Python.

Saiba como usar a API Pandas no Apache Spark: API Pandas no Apache Spark
Gerenciar bibliotecas do Apache Spark no Microsoft Fabric
Visualize dados em Python: Visualize dados em Python

Comentários

Esta página foi útil?

Last updated on 2025-07-22