Pandas API on Spark
Kommentar
Den här funktionen är tillgänglig i kluster som kör Databricks Runtime 10.0 (EoS) och senare. För kluster som kör Databricks Runtime 9.1 LTS och nedan använder du Koalas i stället.
Pandas används ofta av dataforskare och är ett Python-paket som tillhandahåller lätthanterade datastrukturer och dataanalysverktyg för programmeringsspråket Python. Pandas skalar dock inte ut till stordata. Pandas API på Spark fyller det här tomrummet genom att tillhandahålla pandas motsvarande API:er som fungerar på Apache Spark. Pandas API på Spark är användbart inte bara för Pandas-användare utan även PySpark-användare, eftersom Pandas API på Spark stöder många uppgifter som är svåra att göra med PySpark, till exempel att rita data direkt från en PySpark DataFrame.
Krav
Pandas API på Spark är tillgängligt från och med Apache Spark 3.2 (som ingår från och med Databricks Runtime 10.0 (EoS)) med hjälp av följande import
instruktion:
import pyspark.pandas as ps
Notebook-fil
Följande notebook-fil visar hur du migrerar från Pandas till Pandas API på Spark.