API do Pandas no Apache Spark
Nota
Esse recurso está disponível em clusters que executam o Databricks Runtime 10.0 (sem suporte) e superior. Para clusters que executam o Databricks Runtime 9.1 LTS e inferior, use Koalas em vez disso.
Comumente usado por cientistas de dados, pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não se expandem para big data. A API do Pandas no Spark preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. A API do Pandas no Spark é útil não apenas para usuários de pandas, mas também para usuários do PySpark, porque a API do Pandas no Spark suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.
Requisitos
A API do Pandas no Spark está disponível a partir do Apache Spark 3.2 (que está incluído a partir do Databricks Runtime 10.0 (sem suporte)) usando a seguinte import
instrução:
import pyspark.pandas as ps
Bloco de Notas
O bloco de anotações a seguir mostra como migrar da API de pandas para pandas no Spark.
API pandas to pandas no notebook Spark
Recursos
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários