استكشاف البيانات المصدر لمسار البيانات
الخطوة الأولى الشائعة في إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات هي فهم البيانات المصدر للبنية الأساسية لبرنامج ربط العمليات التجارية. في هذه الخطوة، ستقوم بتشغيل أوامر Databricks Utilities وPySpark في دفتر ملاحظات لفحص البيانات المصدر والبيانات الاصطناعية.
لمعرفة المزيد حول تحليل البيانات الاستكشافية، راجع تحليل البيانات الاستكشافية على Azure Databricks: الأدوات والتقنيات.
فيديو: مقدمة إلى دفاتر ملاحظات Databricks
للحصول على مقدمة حول دفاتر ملاحظات Databricks، شاهد هذا الفيديو:
إنشاء دفتر ملاحظات لاستكشاف البيانات
في الشريط الجانبي، انقر فوق
جديد وحدد دفتر الملاحظات من القائمة. يفتح دفتر الملاحظات باسم افتراضي يمكنك استبداله.
أدخل اسما لدفتر الملاحظات، على سبيل المثال،
Explore songs data
. بشكل افتراضي:- Python هي اللغة المحددة.
- يتم إرفاق دفتر الملاحظات بآخر مجموعة استخدمتها. في هذه الحالة، المجموعة التي قمت بإنشائها في الخطوة 1: إنشاء نظام مجموعة.
لعرض محتويات الدليل الذي يحتوي على مجموعة البيانات، أدخل ما يلي في الخلية الأولى من دفتر الملاحظات، وانقر فوق
، وحدد تشغيل الخلية.
%fs ls "/databricks-datasets/songs/data-001"
path الاسم size وقت التعديل 1 dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000 2 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846 3 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846
استكشاف البيانات
يحتوي ملف README على معلومات حول مجموعة البيانات، بما في ذلك وصف مخطط البيانات. يتم استخدام معلومات المخطط في الخطوة التالية عند استيعاب البيانات. لعرض محتويات README، انقر في
قائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوق
، وحدد تشغيل الخلية.
%fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
Sample of Million Song Dataset =============================== ## Source This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/). The original data was contributed by The Echo Nest. Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu> ## Attribute Information - artist_id:string - artist_latitude:double - artist_longitude:double - artist_location:string - artist_name:string - duration:double - end_of_fade_in:double - key:int - key_confidence:double - loudness:double - release:string - song_hotnes:double - song_id:string - start_of_fade_out:double - tempo:double - time_signature:double - time_signature_confidence:double - title:string - year:double - partial_sequence:int ...
السجلات المستخدمة في هذا المثال موجودة في
/databricks-datasets/songs/data-001/
الدليل. لعرض محتويات هذا الدليل، انقر فيقائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوق
، وحدد تشغيل الخلية.
%fs ls "/databricks-datasets/songs/data-001"
path الاسم size وقت التعديل 1 dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000 2 dbfs:/databricks-datasets/songs/data-001/part-00000 جزء 00000 52837 1454547464000 3 dbfs:/databricks-datasets/songs/data-001/part-00001 جزء 00001 52469 1454547465000 نظرا لأن README وأسماء الملفات لا تشير إلى تنسيق الملف، يمكنك عرض عينة من السجلات لفهم محتويات كل سجل وتنسيقه بشكل أفضل. لقراءة السجلات العشرة الأولى وعرضها من أحد ملفات البيانات، انقر في
قائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوق
، وحدد تشغيل الخلية.
%fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
AR81V6H1187FB48872 nan nan Earl Sixteen 213.7073 0.0 11 0.419 -12.106 Soldier of Jah Army nan SOVNZSZ12AB018A9B8 208.289 125.882 1 0.0 Rastaman 2003 -- ARVVZQP11E2835DBCB nan nan Wavves 133.25016 0.0 0 0.282 0.596 Wavvves 0.471578247701 SOJTQHQ12A8C143C5F 128.116 89.519 1 0.0 I Want To See You (And Go To The Movies) 2009 -- ARFG9M11187FB3BBCB nan nan Nashua USA C-Side 247.32689 0.0 9 0.612 -4.896 Santa Festival Compilation 2008 vol.1 nan SOAJSQL12AB0180501 242.196 171.278 5 1.0 Loose on the Dancefloor 0 225261 ...
يمكنك مراقبة بعض الأشياء حول البيانات من عرض عينة من السجلات. ستستخدم هذه الملاحظات لاحقا عند معالجة البيانات:
- لا تحتوي السجلات على رأس. بدلا من ذلك، يتم تخزين الرأس في ملف منفصل في نفس الدليل.
- يبدو أن الملفات بتنسيق قيمة مفصولة بعلامات تبويب (TSV).
- بعض الحقول مفقودة أو غير صحيحة.
- لا تحتوي السجلات على رأس. بدلا من ذلك، يتم تخزين الرأس في ملف منفصل في نفس الدليل.
لمزيد من استكشاف البيانات وتحليلها، استخدم هذه الملاحظات لتحميل بيانات الأغنية المنسقة TSV في PySpark DataFrame. للقيام بذلك، انقر في
قائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل التعليمات البرمجية التالية في الخلية الجديدة، ثم انقر فوق
> تشغيل الخلية.
df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000') df.display()
نظرا لأن ملف البيانات يفتقد رأسا، يتم عرض أسماء الأعمدة ك
_c0
و_c1
وهكذا. يتم تفسير كل عمود علىstring
أنه بغض النظر عن نوع البيانات الفعلي. يوضح استيعاب البيانات الأولية في الخطوة التالية مثالا على كيفية فرض مخطط صالح عند تحميل البيانات.
الملاحظات
https://aka.ms/ContentUserFeedback.
قريبًا: خلال عام 2024، سنتخلص تدريجيًا من GitHub Issues بوصفها آلية إرسال ملاحظات للمحتوى ونستبدلها بنظام ملاحظات جديد. لمزيد من المعلومات، راجعإرسال الملاحظات وعرضها المتعلقة بـ