بدء الاستخدام: استيراد بيانات CSV وتصورها من دفتر ملاحظات
مقالة
ترشدك هذه المقالة خلال استخدام دفتر ملاحظات Azure Databricks لاستيراد البيانات من ملف CSV يحتوي على بيانات اسم الطفل من health.data.ny.gov إلى وحدة تخزين كتالوج Unity باستخدام Python وSc scala وR. ستتعلم أيضا تعديل اسم عمود، وتصور البيانات، والحفظ في جدول.
المتطلبات
لإكمال المهام في هذه المقالة، يجب أن تفي بالمتطلبات التالية:
يجب تمكين كتالوج Unity لمساحة العمل الخاصة بك. للحصول على معلومات حول بدء استخدام كتالوج Unity، راجع إعداد كتالوج Unity وإدارته.
يجب أن يكون لديك الامتياز على WRITE VOLUME وحدة تخزين، USE SCHEMA والامتياز على المخطط الأصل، والامتياز USE CATALOG على الكتالوج الأصل.
يجب أن يكون لديك إذن لاستخدام مورد حساب موجود أو إنشاء مورد حساب جديد. راجع بدء الاستخدام: إعداد الحساب ومساحة العمل أو راجع مسؤول Databricks.
في هذه الخطوة، يمكنك تعريف المتغيرات لاستخدامها في مثال دفتر الملاحظات الذي تقوم بإنشائه في هذه المقالة.
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر الملاحظات الفارغة الجديدة. استبدل <catalog-name>و <schema-name>و <volume-name> بأسماء الكتالوج والمخطط ووحدات التخزين لوحدة تخزين كتالوج Unity. استبدل table_name القيمة اختياريا باسم جدول من اختيارك. ستحفظ بيانات اسم الطفل في هذا الجدول لاحقا في هذه المقالة.
اضغط Shift+Enter لتشغيل الخلية وإنشاء خلية فارغة جديدة.
في هذه الخطوة، يمكنك استيراد ملف CSV يحتوي على بيانات اسم الطفل من health.data.ny.gov إلى وحدة تخزين كتالوج Unity.
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر الملاحظات الفارغة الجديدة. تنسخ هذه التعليمة البرمجية rows.csv الملف من health.data.ny.gov إلى وحدة تخزين كتالوج Unity باستخدام الأمر Databricks dbutuils .
اضغط Shift+Enter لتشغيل الخلية ثم انتقل إلى الخلية التالية.
في هذه الخطوة، يمكنك إنشاء DataFrame باسم df من ملف CSV الذي قمت بتحميله مسبقا في وحدة تخزين كتالوج Unity باستخدام أسلوب spark.read.csv .
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر الملاحظات الفارغة الجديدة. تحمل هذه التعليمة البرمجية بيانات اسم الطفل في DataFrame df من ملف CSV.
اضغط Shift+Enter لتشغيل الخلية ثم انتقل إلى الخلية التالية.
في هذه الخطوة، يمكنك استخدام display() الأسلوب لعرض محتويات DataFrame في جدول في دفتر الملاحظات، ثم تصور البيانات في مخطط سحابي للكلمة في دفتر الملاحظات.
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر الملاحظات الفارغة الجديدة، ثم انقر فوق تشغيل الخلية لعرض البيانات في جدول.
Python
Python
display(df)
Scala
Scala
display(df)
R
R
display(df)
راجع النتائج في الجدول.
إلى جانب علامة التبويب جدول، انقر فوق + مرئيات ثم انقر فوقها.
في محرر المرئيات، انقر فوق نوع المرئيات، وتحقق من تحديد سحابة Word.
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر ملاحظات فارغة. تحل هذه التعليمة البرمجية محل مسافة في اسم العمود. الأحرف الخاصة، مثل المسافات غير مسموح بها في أسماء الأعمدة. تستخدم هذه التعليمة البرمجية أسلوب Apache Spark withColumnRenamed() .
val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name")
// when modifying a DataFrame in Scala, you must assign it to a new variable
dfRenamedColumn.printSchema()
انسخ التعليمات البرمجية التالية والصقها في خلية دفتر ملاحظات فارغة. تحفظ هذه التعليمة البرمجية محتويات DataFrame إلى جدول في كتالوج Unity باستخدام متغير اسم الجدول الذي قمت بتعريفه في بداية هذه المقالة.
للتحقق من حفظ الجدول، انقر فوق كتالوج في الشريط الجانبي الأيسر لفتح واجهة مستخدم مستكشف الكتالوج. افتح الكتالوج ثم المخطط للتحقق من ظهور الجدول.
انقر فوق الجدول لعرض مخطط الجدول على علامة التبويب نظرة عامة .
انقر فوق نموذج البيانات لعرض 100 صف من البيانات من الجدول.
استيراد دفاتر ملاحظات البيانات وتصورها
استخدم أحد دفاتر الملاحظات التالية لتنفيذ الخطوات الواردة في هذه المقالة. استبدل <catalog-name>و <schema-name>و <volume-name> بأسماء الكتالوج والمخطط ووحدات التخزين لوحدة تخزين كتالوج Unity. استبدل table_name القيمة اختياريا باسم جدول من اختيارك.