Compartilhar via


API do Pandas no Spark

Observação

Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferiores, use o Koalas.

Geralmente usado por cientistas de dados, o pandas é um pacote do Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação do Python. No entanto, o Pandas não escala horizontalmente para Big Data. A API do Pandas no Spark preenche esse espaço fornecendo APIs equivalentes ao Pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários do pandas, mas também para usuários do PySpark, pois ela oferece suporte a muitas tarefas que são difíceis de realizar com o PySpark, por exemplo, a plotagem de dados diretamente de um Dataframe PySpark.

Requisitos

A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que é incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte instrução import:

import pyspark.pandas as ps

Notebook

O notebook a seguir mostra como migrar do pandas para a API do Pandas no Spark.

API do Pandas para Pandas no Notebook do Spark

Obter notebook

Recursos