Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Tato funkce je dostupná v clusterech, na kterých běží Databricks Runtime 10.0 (EoS) a vyšší. Pro clustery, na kterých běží Databricks Runtime 9.1 LTS a níže, použijte místo toho Koalas .
Běžně používaný datovými vědci, pandas je balíček pro Python, který poskytuje snadno použitelné datové struktury a nástroje pro analýzu dat v programovacím jazyce Python. Knihovna pandas se ale neškáluje na velké objemy dat. Rozhraní Pandas API ve Sparku tuto mezeru vyplní tím, že poskytuje ekvivalentní rozhraní API pandas, která fungují na Apache Sparku. Rozhraní Pandas API ve Sparku je užitečné nejen pro uživatele pandas, ale také pro uživatele PySpark, protože rozhraní pandas API ve Sparku podporuje mnoho úloh, které se s PySparkem obtížně provádějí, například vykreslování dat přímo z datového rámce PySpark.
Požadavky
Rozhraní Pandas API ve Sparku je k dispozici od Apache Sparku 3.2 (která je součástí Databricks Runtime 10.0 (EoS) pomocí následujícího import příkazu:
import pyspark.pandas as ps
Zápisník
Následující poznámkový blok ukazuje, jak migrovat z pandas na pandas API ve Sparku.