Aracılığıyla paylaş


Spark'ta Pandas API'si

Not

Bu özellik Databricks Runtime 10.0 (EoS) ve üzerini çalıştıran kümelerde kullanılabilir. Databricks Runtime 9.1 LTS ve altında çalışan kümeler için bunun yerine Koalas kullanın.

Veri bilimcileri tarafından yaygın olarak kullanılan pandas, Python programlama dili için kullanımı kolay veri yapıları ve veri çözümleme araçları sağlayan bir Python paketidir. Ancak pandas büyük veri ölçeğini genişletmez. Spark üzerinde Pandas API'si, Apache Spark üzerinde çalışan pandas eşdeğer API'leri sağlayarak bu boşluğu doldurur. Spark'ta Pandas API'leri yalnızca pandas kullanıcıları için değil PySpark kullanıcıları için de yararlıdır çünkü Spark'ta pandas API'si PySpark ile yapılması zor olan birçok görevi destekler; örneğin doğrudan PySpark DataFrame'den veri çizme.

Gereksinimler

Spark üzerinde Pandas API'sini Apache Spark 3.2'den başlayarak (Databricks Runtime 10.0'da (EoS) başlayarak bulunur) aşağıdaki import deyimi kullanarak kullanabilirsiniz:

import pyspark.pandas as ps

Not Defteri

Aşağıdaki not defteri, Spark üzerinde pandas'tan pandas API'sine nasıl geçiş yapılacağını gösterir.

Spark not defterinde pandas-pandas API

Not defterini alma

Kaynaklar