Sdílet prostřednictvím


Rozhraní Pandas API ve Sparku

Poznámka:

Tato funkce je dostupná v clusterech, na kterých běží Databricks Runtime 10.0 (EoS) a vyšší. Pro clustery, na kterých běží Databricks Runtime 9.1 LTS a níže, použijte místo toho Koalas .

Běžně používaný datovými vědci, pandas je balíček pro Python, který poskytuje snadno použitelné datové struktury a nástroje pro analýzu dat v programovacím jazyce Python. Knihovna pandas se ale neškáluje na velké objemy dat. Rozhraní Pandas API ve Sparku tuto mezeru vyplní tím, že poskytuje ekvivalentní rozhraní API pandas, která fungují na Apache Sparku. Rozhraní Pandas API ve Sparku je užitečné nejen pro uživatele pandas, ale také pro uživatele PySpark, protože rozhraní pandas API ve Sparku podporuje mnoho úloh, které se s PySparkem obtížně provádějí, například vykreslování dat přímo z datového rámce PySpark.

Požadavky

Rozhraní Pandas API ve Sparku je k dispozici od Apache Sparku 3.2 (která je součástí Databricks Runtime 10.0 (EoS) pomocí následujícího import příkazu:

import pyspark.pandas as ps

Zápisník

Následující poznámkový blok ukazuje, jak migrovat z pandas na pandas API ve Sparku.

pandas to pandas API na notebooku Spark

Pořiďte si poznámkový blok

Zdroje informací