أدوات استكشاف البيانات في Azure Databricks

8 دقائق

بعد استيعاب البيانات من مصادرك، يمكنك استخدام النظام الأساسي Azure Databricks لاستكشاف بياناتك وتحليلها بشكل تعاوني.

دعونا نستكشف الأدوات التي تستخدمها عند العمل مع البيانات في Azure Databricks.

التعاون في العمل وتشغيل التعليمات البرمجية باستخدام دفاتر الملاحظات

يمكنك استخدام دفاتر الملاحظات في Azure Databricks لكتابة التعليمات البرمجية Python أو SQL أو Scala أو R لاستكشاف البيانات وتصورها. تدعم دفاتر الملاحظات استكشاف البيانات التفاعلي ويمكن مشاركتها بين أعضاء الفريق. كما أنه يدعم قدرات جمع معلومات البيانات لعلماء البيانات لفهم شكل البيانات ومحتواها.

يمكنك استخدام المرئيات المضمنة لفهم توزيعات البيانات والاتجاهات والأنماط بسرعة. إلى جانب الميزات المضمنة، يسمح لك Azure Databricks بالتكامل مع المكتبات مفتوحة المصدر شائعة الاستخدام مثل Matplotlib أو Seaborn أو D3.js للحصول على مرئيات أكثر تعقيدا.

لقطة شاشة لمخطط دفتر ملاحظات Azure Databricks.

مساعد Databricks هو رفيق برمجي مدعوم بالذكاء الاصطناعي مدمج مباشرة في دفاتر الملاحظات، ومحرر SQL، والملفات. يساعدك على الكتابة والفهم وتحسين الكود بشكل أكثر كفاءة. يمكنك كتابة تنبيهات لغة طبيعية لإنشاء كود جديد، أو استخدام أوامر slash مثل /explain، /fix، وللعمل /optimize على كود محدد. المساعد واع بالسياق: عندما يكون في مساحة العمل لديك فهرس Unity، يستخدم أسماء الجداول، وأسماء الأعمدة، وبيانات المخطط لإنتاج اقتراحات مصممة خصيصا لبياناتك الفعلية. وهذا يجعله مفيدا بشكل خاص لتحليل البيانات الاستكشافي، حيث يمكنك طلب من المساعد الاستعلام عن جدول، أو تصفية النتائج، أو تلخيص مجموعة بيانات دون استدعاء كل توقيع دالة من الذاكرة.

العمل مع Spark DataFrames

عند العمل مع البيانات في دفاتر الملاحظات، يمكنك الاستفادة من Spark DataFrames التي تم إنشاؤها على Apache Spark. تسمح لك DataFrames بمعالجة مجموعات البيانات الكبيرة بكفاءة.

على سبيل المثال، لإنشاء DataFrame بسيط، يمكنك تشغيل التعليمات البرمجية التالية:

data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)

تدعم DataFrames عمليات مثل التصفية والتجميع والانضمام، وهي مهمة لاستكشاف البيانات.

على سبيل المثال، يمكنك تصفية DataFrame:

filtered_df = df.filter(df["Age"] > 30)

يدعم Azure Databricks أيضا SQL من خلال السماح بالتبديل بين عمليات DataFrame واستعلامات SQL للتفاعل مع البيانات بطريقة تبدو طبيعية.

لتصفية DataFrame باستخدام استعلام SQL، يمكنك أولا إنشاء طريقة عرض مؤقتة:

df.createOrReplaceTempView("people")

sql_df = spark.sql("SELECT Name, Age FROM people WHERE Age > 30")

تلميح

لمزيد من المعلومات حول إطارات البيانات، راجع البرنامج التعليمي: تحميل البيانات وتحويلها باستخدام Apache Spark DataFrames.

استكشاف البيانات باستخدام المكتبات وواجهات برمجة التطبيقات

اعتمادا على ما تريد القيام به ببياناتك، تحتاج إلى استخدام مكتبات وواجهات برمجة تطبيقات معينة لتزويدك بالوظائف لتنفيذ خطوات معالجة البيانات المطلوبة.

تثبيت مكتبات مفتوحة المصدر

بصفتك محلل بيانات أو مهندس بيانات أو عالم بيانات، يمكنك استخدام مكتباتك المفضلة مفتوحة المصدر لاستكشاف البيانات ومعالجتها. يسمح لك Azure Databricks بتثبيت مكتبات Python مثل Pandas أو NumPy أو Scikit-learn للحصول على قدرات إضافية لتحليل البيانات.

تلميح

لمزيد من المعلومات حول العمل مع المكتبات في Azure Databricks، راجع المكتبات.

استخدام MLlib لأحمال عمل التعلم الآلي

يمكنك تدريب نماذج التعلم الآلي لمساعدتك على استكشاف بياناتك ومعالجتها. باستخدام Spark's MLlib، يمكنك الاستفادة المثلى من مجموعات الحوسبة الموزعة المرفقة بدفاتر الملاحظات. باستخدام مكتبة MLlib، يمكنك تطبيق تقنيات التعلم الآلي مثل التجميع والانحدار والتصنيف، مما يساعدك على الكشف عن الأنماط المخفية والمعقدة في بياناتك.

تصور البيانات باستخدام أدوات المرئيات الخارجية

إلى جانب خيارات المخطط المضمنة، يتكامل Azure Databricks مع أدوات التصور الخارجية مثل Tableau أو Power BI لتحسين إمكانات لوحة المعلومات.

يمكنك توصيل Power BI Desktop بمجموعات Azure Databricks ومستودعات Databricks SQL. يمكنك أيضا نشر تقارير Power BI إلى خدمة Power BI وتمكين المستخدمين من الوصول إلى بيانات Azure Databricks الأساسية باستخدام تسجيل الدخول الأحادي (SSO)، وتمرير نفس بيانات اعتماد معرف Microsoft Entra التي يستخدمونها للوصول إلى التقرير.

هناك عدة طرق لتوصيل Azure Databricks من Power BI Desktop:

الاتصال ب Azure Databricks باستخدام Partner Connect: إعداد موجه في Databricks يقوم تلقائيا بتكوين Power BI للاتصال بمستودع Databricks SQL الخاص بك بأقل خطوات يدوية.
الاتصال ب Azure Databricks يدويا: عملية يدوية حيث تستخدم موصل Power BI Databricks، وإدخال نقطة نهاية مستودع SQL لمساحة العمل، والمصادقة لإنشاء الاتصال.
موصل مشاركة Power BI Delta: موصل يسمح ل Power BI بالاستعلام عن جداول دلتا المشتركة عبر مشاركة دلتا، دون الحاجة إلى الوصول المباشر إلى مساحة عمل Databricks أو نظام المجموعة.

استكشاف البيانات في محرر SQL

محرر SQL في Azure Databricks عبارة عن مساحة عمل حيث يمكنك كتابة استعلامات SQL وتشغيلها مقابل البيانات الموجودة في البحيرة الخاصة بك. وهو يدعم أوامر SQL القياسية ويتضمن ميزات مفيدة مثل تمييز بناء الجملة والإكمال التلقائي وسجل استعلامات السابقة. هذا يجعل من السهل تجربة الاستعلامات وتحسينها وتتبع ما استكشفته بالفعل.

لبدء الاستكشاف، يمكنك استخدام جزء مستكشف الكتالوج لرؤية قواعد البيانات والمخططات والجداول المتوفرة. يؤدي تحديد جدول إلى عرض الأعمدة وأنواع البيانات الخاصة به حتى تتمكن من فهم البنية قبل تشغيل الاستعلامات. من هناك، يمكنك كتابة استعلامات لعرض صفوف العينة، أو تصفية النتائج، أو تطبيق التجميعات للحصول على فكرة سريعة عن محتويات البيانات وجودتها. تظهر النتائج بتنسيق جدول افتراضيا، ولكن يمكنك أيضا عرضها كمخططات بسيطة لتحديد الأنماط أو الاتجاهات.

يتيح لك محرر SQL أيضا حفظ الاستعلامات لاستخدامها لاحقا وتنظيمها للاستكشاف القابل للتكرار. يمكنك تكييف الاستعلامات المحفوظة عن طريق إضافة معلمات ، أو مشاركتها مع زملائك في الفريق الذين يعملون على نفس البيانات. إذا كنت بحاجة إلى نتائج بانتظام، فيمكنك جدولة الاستعلامات أو إضافتها إلى لوحات المعلومات لتسهيل الوصول إليها. باستخدام هذه الإمكانات ، يوفر محرر SQL طريقة عملية لفحص بياناتك والاستعلام عنها وتحليلها دون مغادرة Databricks.

تجعل هذه الأدوات Azure Databricks منصة مرنة لاستكشاف البيانات، والتعامل مع كل شيء بدءا من تنظيف البيانات الأساسية إلى مشاريع التعلم الآلي المتقدمة.

الملاحظات

هل كانت هذه الصفحة مفيدة؟