Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Nota
Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (EoS) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS ou versões anteriores, use Koalas em vez disso.
Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, pandas não escala para big data. A API do Pandas no Spark preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários de pandas, mas também para usuários do PySpark, porque a API do Pandas no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (EoS)) usando a seguinte import instrução:
import pyspark.pandas as ps
Bloco de Notas
O seguinte notebook mostra como migrar de pandas para a API de pandas no Spark.