واجهة برمجة تطبيقات Pandas على Spark
ملاحظه
تتوفر هذه الميزة على المجموعات التي تقوم بتشغيل Databricks Runtime 10.0 (غير مدعوم) وما فوق. بالنسبة للمجموعات التي تقوم بتشغيل Databricks Runtime 9.1 LTS وما دونه، استخدم Koalas بدلا من ذلك.
تستخدم بانداز عادة من قبل علماء البيانات، وهي حزمة Python توفر هياكل بيانات سهلة الاستخدام وأدوات تحليل البيانات للغة برمجة Python. ومع ذلك، لا يتم توسيع نطاق الباندا إلى البيانات الضخمة. تملأ واجهة برمجة تطبيقات Pandas على Spark هذه الفجوة من خلال توفير واجهات برمجة التطبيقات المكافئة ل pandas التي تعمل على Apache Spark. تعد واجهة برمجة تطبيقات Pandas على Spark مفيدة ليس فقط لمستخدمي pandas ولكن أيضا لمستخدمي PySpark، لأن Pandas API على Spark تدعم العديد من المهام التي يصعب القيام بها مع PySpark، على سبيل المثال رسم البيانات مباشرة من PySpark DataFrame.
الاحتياجات
تتوفر واجهة برمجة تطبيقات Pandas على Spark بدءا من Apache Spark 3.2 (الذي يتم تضمينه بدءا من Databricks Runtime 10.0 (غير مدعوم)) باستخدام العبارة التالية import
:
import pyspark.pandas as ps
دفتر الملاحظات
يوضح دفتر الملاحظات التالي كيفية الترحيل من pandas إلى pandas API على Spark.
pandas إلى Pandas API على دفتر ملاحظات Spark
الموارد
- Pandas API على دليل مستخدم Spark على موقع Apache Spark على الويب
- الترحيل من Koalas إلى Pandas API على Spark على موقع Apache Spark على الويب
- Pandas API على مرجع Spark