واجهة برمجة تطبيقات Pandas على Spark

مقالة
05/03/2024

إشعار

تتوفر هذه الميزة على المجموعات التي تقوم بتشغيل Databricks Runtime 10.0 (غير مدعوم) وما فوق. بالنسبة للمجموعات التي تقوم بتشغيل Databricks Runtime 9.1 LTS والإصدارات أدناه، استخدم Koalas بدلا من ذلك.

تستخدم بانداز عادة من قبل علماء البيانات، وهي حزمة Python توفر هياكل بيانات سهلة الاستخدام وأدوات تحليل البيانات للغة برمجة Python. ومع ذلك، لا يتم توسيع نطاق الباندا إلى البيانات الضخمة. تملأ واجهة برمجة تطبيقات Pandas على Spark هذه الفجوة من خلال توفير واجهات برمجة التطبيقات المكافئة ل Pandas التي تعمل على Apache Spark. Pandas API على Spark مفيد ليس فقط لمستخدمي Pandas ولكن أيضا مستخدمي PySpark، لأن Pandas API على Spark يدعم العديد من المهام التي يصعب القيام بها مع PySpark، على سبيل المثال رسم البيانات مباشرة من PySpark DataFrame.

المتطلبات

تتوفر واجهة برمجة تطبيقات Pandas على Spark بدءا من Apache Spark 3.2 (الذي يتم تضمينه بدءا من Databricks Runtime 10.0 (غير مدعوم)) باستخدام العبارة التالية import :

import pyspark.pandas as ps

دفتر الملاحظات

يوضح دفتر الملاحظات التالي كيفية الترحيل من Pandas إلى Pandas API على Spark.

pandas إلى Pandas API على دفتر ملاحظات Spark

الحصول على دفتر الملاحظات

واجهة برمجة تطبيقات Pandas على Spark

المتطلبات

دفتر الملاحظات

pandas إلى Pandas API على دفتر ملاحظات Spark

الموارد

الملاحظات

الملاحظات

الموارد الإضافية