Pandas-API in Spark

Artikel
08/16/2024

Hinweis

Dieses Feature ist für Cluster mit Databricks Runtime 10.0 (EoS) und höher verfügbar. Für Cluster mit Databricks Runtime 9.1 LTS und niedriger können Sie stattdessen Koalas verwenden.

Pandas wird häufig von Datenanalysten verwendet und ist ein Python-Paket, das benutzerfreundliche Datenstrukturen und Datenanalysetools für die Python-Programmiersprache bereitstellt. Pandas ist allerdings nicht für Big Data geeignet. Die Pandas-API in Spark schließt diese Lücke durch die Bereitstellung von Pandas-äquivalenten APIs, die mit Apache Spark kompatibel sind. Die Pandas-API in Spark ist nicht nur für Pandas-Benutzer, sondern auch für PySpark-Benutzer nützlich, da die Pandas-API in Spark viele Aufgaben unterstützt, die mit PySpark schwer zu erledigen sind, z. B. das direkte Plotten von Daten aus einem PySpark-Datenrahmen.

Anforderungen

Die Pandas-API in Spark ist ab Apache Spark 3.2 (ab Databricks Runtime 10.0 (EoS) enthalten), indem Sie die folgende import-Anweisung verwenden:

import pyspark.pandas as ps

Notebook

Das folgende Notebook zeigt, wie Sie von Pandas zur Pandas-API in Spark migrieren können.

Von Pandas zur Pandas-API im Spark-Notebook

Notebook abrufen

Freigeben über

Pandas-API in Spark

Anforderungen

Notebook

Von Pandas zur Pandas-API im Spark-Notebook

Ressourcen

Feedback

Zusätzliche Ressourcen