يتضمن Apache Spark تنفيذا محسنا للسهم لمنطق Python في شكل واجهات برمجة التطبيقات لوظيفة Pandas، والتي تسمح للمستخدمين بتطبيق تحويلات pandas مباشرة على PySpark DataFrames. يدعم Apache Spark أيضا Pandas UDFs، والتي تستخدم تحسينات الأسهم المماثلة لوظائف المستخدم العشوائية المحددة في Python.
أين تخزن Pandas البيانات على Azure Databricks؟
يمكنك استخدام pandas لتخزين البيانات في العديد من المواقع المختلفة على Azure Databricks. تعتمد قدرتك على تخزين البيانات وتحميلها من بعض المواقع على التكوينات التي تم تعيينها من قبل مسؤولي مساحة العمل.
يمكنك استكشاف الملفات المكتوبة إلى DBFS باستخدام %fs الأمر السحري، كما في المثال التالي. لاحظ أن /dbfs الدليل هو المسار الجذر لهذه الأوامر.
%fs ls
عند الحفظ إلى مسار نسبي، يعتمد موقع الملف على مكان تنفيذ التعليمات البرمجية الخاصة بك. إذا كنت تستخدم دفتر ملاحظات Databricks، يحفظ ملف البيانات الخاص بك في وحدة التخزين المرفقة بمحرك نظام المجموعة. يتم حذف البيانات المخزنة في هذا الموقع بشكل دائم عند إنهاء المجموعة. إذا كنت تستخدم مجلدات Databricks Git مع تمكين دعم الملفات العشوائي، فستحفظ بياناتك في جذر مشروعك الحالي. في كلتا الحالتين، يمكنك استكشاف الملفات المكتوبة باستخدام %sh الأمر السحري، والذي يسمح بعمليات bash بسيطة بالنسبة إلى الدليل الجذر الحالي، كما في المثال التالي:
كيف يمكنك تحميل البيانات باستخدام pandas على Azure Databricks؟
يوفر Azure Databricks عددا من الخيارات لتسهيل تحميل البيانات إلى مساحة العمل للاستكشاف. تختلف الطريقة المفضلة لتحميل البيانات باستخدام pandas اعتمادا على كيفية تحميل بياناتك إلى مساحة العمل.
إذا كانت لديك ملفات بيانات صغيرة مخزنة جنبا إلى جنب مع دفاتر الملاحظات على جهازك المحلي، يمكنك تحميل بياناتك ورمزك مع مجلدات Git. يمكنك بعد ذلك استخدام المسارات النسبية لتحميل ملفات البيانات.
إذا قمت بحفظ ملفات البيانات باستخدام DBFS أو المسارات النسبية، يمكنك استخدام DBFS أو المسارات النسبية لإعادة تحميل ملفات البيانات هذه. توفر التعليمات البرمجية التالية مثالا:
import pandas as pd
df = pd.read_csv("./relative_path_test.csv")
df = pd.read_csv("/dbfs/dbfs_test.csv")
يمكنك تحميل البيانات مباشرة من Azure Data Lake Storage Gen2 باستخدام pandas وعنوان URL مؤهل بالكامل. تحتاج إلى توفير بيانات اعتماد السحابة للوصول إلى بيانات السحابة. حزم fsspecadlfs Python ويجب أيضا تثبيتها.