Spark'ta Pandas API'si
Not
Bu özellik Databricks Runtime 10.0 (EoS) ve üzerini çalıştıran kümelerde kullanılabilir. Databricks Runtime 9.1 LTS ve altında çalışan kümeler için bunun yerine Koalas kullanın.
Veri bilimcileri tarafından yaygın olarak kullanılan pandas, Python programlama dili için kullanımı kolay veri yapıları ve veri çözümleme araçları sağlayan bir Python paketidir. Ancak pandas büyük veri ölçeğini genişletmez. Spark üzerinde Pandas API'si, Apache Spark üzerinde çalışan pandas eşdeğer API'leri sağlayarak bu boşluğu doldurur. Spark'ta Pandas API'leri yalnızca pandas kullanıcıları için değil PySpark kullanıcıları için de yararlıdır çünkü Spark'ta pandas API'si PySpark ile yapılması zor olan birçok görevi destekler; örneğin doğrudan PySpark DataFrame'den veri çizme.
Gereksinimler
Spark üzerinde Pandas API'sini Apache Spark 3.2'den başlayarak (Databricks Runtime 10.0'da (EoS) başlayarak bulunur) aşağıdaki import
deyimi kullanarak kullanabilirsiniz:
import pyspark.pandas as ps
Not Defteri
Aşağıdaki not defteri, Spark üzerinde pandas'tan pandas API'sine nasıl geçiş yapılacağını gösterir.