استكشاف البيانات المصدر لمسار البيانات

الخطوة الأولى الشائعة في إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات هي فهم البيانات المصدر للبنية الأساسية لبرنامج ربط العمليات التجارية. في هذه الخطوة، ستقوم بتشغيل أوامر Databricks Utilities وPySpark في دفتر ملاحظات لفحص البيانات المصدر والبيانات الاصطناعية.

لمعرفة المزيد حول تحليل البيانات الاستكشافية، راجع تحليل البيانات الاستكشافية على Azure Databricks: الأدوات والتقنيات.

فيديو: مقدمة إلى دفاتر ملاحظات Databricks

للحصول على مقدمة حول دفاتر ملاحظات Databricks، شاهد هذا الفيديو:

إنشاء دفتر ملاحظات لاستكشاف البيانات

  1. في الشريط الجانبي، انقر فوق أيقونة جديدةجديد وحدد دفتر الملاحظات من القائمة. يفتح دفتر الملاحظات باسم افتراضي يمكنك استبداله.

  2. أدخل اسما لدفتر الملاحظات، على سبيل المثال، Explore songs data. بشكل افتراضي:

    • Python هي اللغة المحددة.
    • يتم إرفاق دفتر الملاحظات بآخر مجموعة استخدمتها. في هذه الحالة، المجموعة التي قمت بإنشائها في الخطوة 1: إنشاء نظام مجموعة.
  3. لعرض محتويات الدليل الذي يحتوي على مجموعة البيانات، أدخل ما يلي في الخلية الأولى من دفتر الملاحظات، وانقر فوق قائمة التشغيل، وحدد تشغيل الخلية.

    %fs ls "/databricks-datasets/songs/data-001"
    
    path الاسم size وقت التعديل
    1 dbfs:/databricks-datasets/songs/README.md README.md 1719 1454620183000
    2 dbfs:/databricks-datasets/songs/data-001/ data-001/ 0 1672791237846
    3 dbfs:/databricks-datasets/songs/data-002/ data-002/ 0 1672791237846

استكشاف البيانات

  1. يحتوي ملف README على معلومات حول مجموعة البيانات، بما في ذلك وصف مخطط البيانات. يتم استخدام معلومات المخطط في الخطوة التالية عند استيعاب البيانات. لعرض محتويات README، انقر في علامة الإقهار لأسفلقائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوققائمة التشغيل ، وحدد تشغيل الخلية.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/README.md"
    
    Sample of Million Song Dataset
    ===============================
    
    ## Source
    This data is a small subset of the [Million Song Dataset](http://labrosa.ee.columbia.edu/millionsong/).
    The original data was contributed by The Echo Nest.
    Prepared by T. Bertin-Mahieux <tb2332 '@' columbia.edu>
    
    ## Attribute Information
    - artist_id:string
    - artist_latitude:double
    - artist_longitude:double
    - artist_location:string
    - artist_name:string
    - duration:double
    - end_of_fade_in:double
    - key:int
    - key_confidence:double
    - loudness:double
    - release:string
    - song_hotnes:double
    - song_id:string
    - start_of_fade_out:double
    - tempo:double
    - time_signature:double
    - time_signature_confidence:double
    - title:string
    - year:double
    - partial_sequence:int
    ...
    
  2. السجلات المستخدمة في هذا المثال موجودة في /databricks-datasets/songs/data-001/ الدليل. لعرض محتويات هذا الدليل، انقر في علامة الإقهار لأسفلقائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوققائمة التشغيل ، وحدد تشغيل الخلية.

    %fs ls "/databricks-datasets/songs/data-001"
    
    path الاسم size وقت التعديل
    1 dbfs:/databricks-datasets/songs/data-001/header.txt header.txt 377 1454633901000
    2 dbfs:/databricks-datasets/songs/data-001/part-00000 جزء 00000 52837 1454547464000
    3 dbfs:/databricks-datasets/songs/data-001/part-00001 جزء 00001 52469 1454547465000
  3. نظرا لأن README وأسماء الملفات لا تشير إلى تنسيق الملف، يمكنك عرض عينة من السجلات لفهم محتويات كل سجل وتنسيقه بشكل أفضل. لقراءة السجلات العشرة الأولى وعرضها من أحد ملفات البيانات، انقر في علامة الإقهار لأسفلقائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل ما يلي في الخلية الجديدة، وانقر فوققائمة التشغيل ، وحدد تشغيل الخلية.

    %fs head --maxBytes=10000 "/databricks-datasets/songs/data-001/part-00000"
    
     AR81V6H1187FB48872  nan     nan             Earl Sixteen    213.7073        0.0     11      0.419   -12.106 Soldier of Jah Army     nan     SOVNZSZ12AB018A9B8      208.289 125.882 1       0.0     Rastaman        2003    --
     ARVVZQP11E2835DBCB  nan     nan             Wavves  133.25016       0.0     0       0.282   0.596   Wavvves 0.471578247701  SOJTQHQ12A8C143C5F      128.116 89.519  1       0.0     I Want To See You (And Go To The Movies)        2009    --
     ARFG9M11187FB3BBCB  nan     nan     Nashua USA      C-Side  247.32689       0.0     9       0.612   -4.896  Santa Festival Compilation 2008 vol.1   nan     SOAJSQL12AB0180501      242.196 171.278 5       1.0     Loose on the Dancefloor 0       225261
     ...
    

    يمكنك مراقبة بعض الأشياء حول البيانات من عرض عينة من السجلات. ستستخدم هذه الملاحظات لاحقا عند معالجة البيانات:

    • لا تحتوي السجلات على رأس. بدلا من ذلك، يتم تخزين الرأس في ملف منفصل في نفس الدليل.
      • يبدو أن الملفات بتنسيق قيمة مفصولة بعلامات تبويب (TSV).
      • بعض الحقول مفقودة أو غير صحيحة.
  4. لمزيد من استكشاف البيانات وتحليلها، استخدم هذه الملاحظات لتحميل بيانات الأغنية المنسقة TSV في PySpark DataFrame. للقيام بذلك، انقر في علامة الإقهار لأسفلقائمة إجراءات الخلية، وحدد إضافة خلية أدناه، وأدخل التعليمات البرمجية التالية في الخلية الجديدة، ثم انقر فوققائمة التشغيل> تشغيل الخلية.

    df = spark.read.format('csv').option("sep", "\t").load('dbfs:/databricks-datasets/songs/data-001/part-00000')
    df.display()
    

    نظرا لأن ملف البيانات يفتقد رأسا، يتم عرض أسماء الأعمدة ك _c0و _c1وهكذا. يتم تفسير كل عمود على string أنه بغض النظر عن نوع البيانات الفعلي. يوضح استيعاب البيانات الأولية في الخطوة التالية مثالا على كيفية فرض مخطط صالح عند تحميل البيانات.

    DataFrame التي تم إنشاؤها من بيانات الأغاني الأولية