Pandas-API in Spark
Hinweis
Dieses Feature ist für Cluster mit Databricks Runtime 10.0 (EoS) und höher verfügbar. Für Cluster mit Databricks Runtime 9.1 LTS und niedriger können Sie stattdessen Koalas verwenden.
Pandas wird häufig von Datenanalysten verwendet und ist ein Python-Paket, das benutzerfreundliche Datenstrukturen und Datenanalysetools für die Python-Programmiersprache bereitstellt. Pandas ist allerdings nicht für Big Data geeignet. Die Pandas-API in Spark schließt diese Lücke durch die Bereitstellung von Pandas-äquivalenten APIs, die mit Apache Spark kompatibel sind. Die Pandas-API in Spark ist nicht nur für Pandas-Benutzer, sondern auch für PySpark-Benutzer nützlich, da die Pandas-API in Spark viele Aufgaben unterstützt, die mit PySpark schwer zu erledigen sind, z. B. das direkte Plotten von Daten aus einem PySpark-Datenrahmen.
Anforderungen
Die Pandas-API in Spark ist ab Apache Spark 3.2 (ab Databricks Runtime 10.0 (EoS) enthalten), indem Sie die folgende import
-Anweisung verwenden:
import pyspark.pandas as ps
Notebook
Das folgende Notebook zeigt, wie Sie von Pandas zur Pandas-API in Spark migrieren können.