Pandas API on Spark

Artikel
08/14/2024

Kommentar

Den här funktionen är tillgänglig i kluster som kör Databricks Runtime 10.0 (EoS) och senare. För kluster som kör Databricks Runtime 9.1 LTS och nedan använder du Koalas i stället.

Pandas används ofta av dataforskare och är ett Python-paket som tillhandahåller lätthanterade datastrukturer och dataanalysverktyg för programmeringsspråket Python. Pandas skalar dock inte ut till stordata. Pandas API på Spark fyller det här tomrummet genom att tillhandahålla pandas motsvarande API:er som fungerar på Apache Spark. Pandas API på Spark är användbart inte bara för Pandas-användare utan även PySpark-användare, eftersom Pandas API på Spark stöder många uppgifter som är svåra att göra med PySpark, till exempel att rita data direkt från en PySpark DataFrame.

Krav

Pandas API på Spark är tillgängligt från och med Apache Spark 3.2 (som ingår från och med Databricks Runtime 10.0 (EoS)) med hjälp av följande import instruktion:

import pyspark.pandas as ps

Notebook-fil

Följande notebook-fil visar hur du migrerar från Pandas till Pandas API på Spark.

pandas till Pandas API i Spark Notebook

Hämta notebook-fil

Dela via

Pandas API on Spark

Krav

Notebook-fil

pandas till Pandas API i Spark Notebook

Resurser

Feedback

Ytterligare resurser