Megosztás a következőn keresztül:


Pandas API a Sparkban

Feljegyzés

Ez a funkció a Databricks Runtime 10.0-s (nem támogatott) és újabb verzióját futtató fürtökön érhető el. A Databricks Runtime 9.1 LTS-t és újabb verziót futtató fürtök esetében használja helyette a Koalast.

Az adattudósok által gyakran használt pandas egy Python-csomag, amely könnyen használható adatstruktúrákat és adatelemzési eszközöket biztosít a Python programozási nyelvhez. A pandas azonban nem méretez big data-ra. A Sparkon futó Pandas API ezt a rést azzal tölti ki, hogy az Apache Sparkon működő pandas-egyenértékű API-kat biztosít. A Sparkon elérhető Pandas API nem csak a pandas, hanem a PySpark felhasználói számára is hasznos, mivel a Sparkon található Pandas API számos olyan feladatot támogat, amelyet nehéz elvégezni a PySparkkal, például közvetlenül a PySpark DataFrame-ből ábrázolja az adatokat.

Követelmények

A Sparkon futó Pandas API az Apache Spark 3.2-ben érhető el (amely a Databricks Runtime 10.0-s verziótól (nem támogatott)) az alábbi import utasítással érhető el:

import pyspark.pandas as ps

Jegyzetfüzet

Az alábbi jegyzetfüzet bemutatja, hogyan migrálhat a pandasból a Pandas API-ba a Sparkon.

pandas to pandas API spark notebookon

Jegyzetfüzet beszerzése

Források