Usar Python para Apache Spark

2024-12-03

O Microsoft Fabric fornece suporte interno do Python para Apache Spark. O suporte incluiPySpark, o que permite que os usuários interajam com o Spark usando interfaces Spark ou Python familiares.

Você pode analisar dados usando Python por meio de definições de trabalho em lote do Spark ou com blocos de anotações interativos do Fabric. Esse artigo fornece uma visão geral do desenvolvimento de aplicativos Spark no Synapse usando a linguagem do Python.

Criar e executar sessões de notebook

O bloco de anotações do Microsoft Fabric é uma interface da Web para você criar arquivos que contêm código ativo, visualizações e texto narrativo. Os notebooks são um bom lugar para validar ideias e fazer experimentos rápidos para obter insights de seus dados. Os notebooks também são amplamente usados na preparação e visualização de dados, no aprendizado de máquina e em outros cenários de Big Data.

Para começar a usar o Python nos notebooks do Microsoft Fabric, altere a Linguagem principal na parte superior do bloco de anotações definindo a opção de Linguagem como PySpark (Python).

%%pyspark
# Enter your Python code here

Use várias linguagens em um notebook especificando o comando magic da linguagem no início de uma célula.

Para saber mais sobre notebooks no Microsoft Fabric Analytics, consulte Como usar notebooks.

Instalar Pacotes

As bibliotecas fornecem código reutilizável que você pode incluir em seus programas ou projetos. Para disponibilizar código de parceiro ou código criado localmente para seus aplicativos, instale uma biblioteca na linha em sua sessão de notebook. Como alternativa, o administrador do espaço de trabalho pode criar um ambiente, instalar a biblioteca nele e anexar o ambiente como o padrão do espaço de trabalho na configuração do espaço de trabalho.

Para saber mais sobre o gerenciamento de bibliotecas no Microsoft Fabric, consulte Gerenciar bibliotecas do Apache Spark.

Utilitários de notebook

Os utilitários do Microsoft Spark (MSSparkUtils) são um pacote interno para ajudar você a executar tarefas comuns com facilidade. Você pode usar o MSSparkUtils para trabalhar com sistemas de arquivos, obter variáveis de ambiente, encadear notebooks e trabalhar com segredos. O MSSparkUtils é compatível com notebooks do PySpark.

Para começar, execute os seguintes comandos:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Para obter mais informações sobre os comandos MSSparkUtils com suporte, consulte Usar Utilitários do Microsoft Spark.

Como usar o Pandas no Spark

A API do Pandas no Spark permite dimensionar sua carga de trabalho do Pandas para qualquer tamanho executando-a distribuída entre vários nós. Se você já está familiarizado com o Pandas e quer usar o Spark para Big Data, a API do Pandas no Spark o torna imediatamente produtivo.

Você poderá migrar seus aplicativos sem modificar o código. Você poderá ter uma única base de código que funciona com o Pandas, para testes e conjuntos de dados menores, e com o Spark, para produção e conjuntos de dados distribuídos. Você poderá alternar entre a API do Pandas e a API do Pandas no Spark facilmente e sem sobrecarga.

Runtime do Python

O Runtime do Microsoft Fabric é um ambiente selecionado otimizado para ciência de dados e aprendizado de máquina. O runtime do Microsoft Fabric oferece uma variedade de bibliotecas de software livre populares do Python, incluindo bibliotecas como Pandas, PyTorch, Scikit-learn e XGBoost.

Visualização do Python

O ecossistema do Python oferece várias bibliotecas de criação de grafo que vêm com muitos recursos diferentes. Por padrão, cada instância do Spark no Microsoft Fabric contém um conjunto de bibliotecas de código aberto populares e selecionadas. Também é possível adicionar ou gerenciar bibliotecas ou outras versões. Para obter mais informações sobre gerenciamento de bibliotecas, consulte Resumo das melhores práticas de gerenciamento de bibliotecas.

Para saber mais sobre como criar visualizações do Python, consulte a visualização do Python.

Saiba como usar a API do Pandas no Apache Spark: API do Pandas no Apache Spark
Gerenciar bibliotecas do Apache Spark no Microsoft Fabric
Visualizar dados no Python: visualizar dados no Python

Compartilhar via