استيراد مكون البيانات

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم هذا المكون لتحميل البيانات في مسار التعلم الآلي من خدمات البيانات السحابية الحالية.

ملاحظة

يمكن إجراء جميع الوظائف التي يوفرها هذا المكون بواسطة مخزن البياناتومجموعات البيانات في الصفحة المقصودة لمساحة العمل. نوصي باستخدام مخزن البياناتومجموعة البيانات التي تتضمن ميزات إضافية مثل مراقبة البيانات. لمعرفة المزيد، راجع مقالة كيفية الوصول إلى البياناتوكيفية تسجيل مجموعات البيانات . بعد تسجيل مجموعة بيانات، يمكنك العثور عليها في فئة Datasets ->My Datasets في واجهة المصمم. هذا المكون محجوز لمستخدمي Studio (الكلاسيكي) للحصول على تجربة مألوفة.

يدعم مكون Import Data قراءة البيانات من المصادر التالية:

  • عنوان URL عبر HTTP
  • مخازن سحابة Azure من خلال مخازن البيانات)
    • حاوية Azure Blob
    • مشاركة ملف Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • قاعدة بيانات Azure SQL
    • Azure PostgreSQL

قبل استخدام التخزين السحابي، يجب عليك تسجيل مخزن بيانات في مساحة عمل التعلم الآلي من Azure أولا. لمزيد من المعلومات، راجع كيفية الوصول إلى البيانات.

بعد تحديد البيانات التي تريدها والاتصال بالمصدر، يستنتج استيراد البيانات نوع البيانات لكل عمود استنادا إلى القيم التي يحتوي عليها، ويحمل البيانات في البنية الأساسية لبرنامج ربط العمليات التجارية للمصمم. إخراج Import Data هو مجموعة بيانات يمكن استخدامها مع أي مسار مصمم.

إذا تغيرت بيانات المصدر، يمكنك تحديث مجموعة البيانات وإضافة بيانات جديدة عن طريق إعادة تشغيل استيراد البيانات.

تحذير

إذا كانت مساحة العمل الخاصة بك في شبكة ظاهرية، فيجب عليك تكوين مخازن البيانات لاستخدام ميزات تصور البيانات الخاصة بالمصمم. لمزيد من المعلومات حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة ظاهرية، راجع استخدام استوديو التعلم الآلي من Azure في شبكة Azure الظاهرية.

كيفية تكوين استيراد البيانات

  1. أضف مكون Import Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. يمكنك العثور على هذا المكون في فئة إدخال البيانات والإخراج في المصمم.

  2. حدد المكون لفتح الجزء الأيمن.

  3. حدد مصدر البيانات، واختر نوع مصدر البيانات. يمكن أن يكون HTTP أو مخزن البيانات.

    إذا اخترت مخزن البيانات، يمكنك تحديد مخازن البيانات الموجودة المسجلة بالفعل في مساحة عمل التعلم الآلي من Azure أو إنشاء مخزن بيانات جديد. ثم حدد مسار البيانات المراد استيرادها في مخزن البيانات. يمكنك استعراض المسار بسهولة عن طريق تحديد Browse Path.

    تظهر لقطة الشاشة ارتباط مسار الاستعراض الذي يفتح مربع الحوار تحديد المسار.

    ملاحظة

    مكون Import Data هو للبيانات الجدولية فقط. إذا كنت ترغب في استيراد ملفات بيانات جدولية متعددة مرة واحدة، فإنه يتطلب الشروط التالية، وإلا ستحدث أخطاء:

    1. لتضمين كافة ملفات البيانات في المجلد، تحتاج إلى إدخال folder_name/**المسار.
    2. يجب ترميز جميع ملفات البيانات في unicode-8.
    3. يجب أن تحتوي جميع ملفات البيانات على نفس أرقام الأعمدة وأسماء الأعمدة.
    4. نتيجة استيراد ملفات بيانات متعددة هي تسلسل كافة الصفوف من ملفات متعددة بالترتيب.
  4. حدد مخطط المعاينة لتصفية الأعمدة التي تريد تضمينها. يمكنك أيضا تعريف الإعدادات المتقدمة مثل المحدد في خيارات التحليل.

    لقطة شاشة لمعاينة المخطط مع تحديد العمود 3 و4 و5 و6.

  5. تحدد خانة الاختيار إعادة إنشاء الإخراج ما إذا كان يجب تنفيذ المكون لإعادة إنشاء الإخراج في وقت التشغيل.

    إنه غير محدد افتراضيا، ما يعني أنه إذا تم تنفيذ المكون بنفس المعلمات مسبقا، يعيد النظام استخدام الإخراج من التشغيل الأخير لتقليل وقت التشغيل.

    إذا تم تحديده، يقوم النظام بتنفيذ المكون مرة أخرى لإعادة إنشاء الإخراج. لذلك حدد هذا الخيار عند تحديث البيانات الأساسية في التخزين، يمكن أن يساعد في الحصول على أحدث البيانات.

  6. إرسال البنية الأساسية.

    عندما يقوم Import Data بتحميل البيانات إلى المصمم، فإنه يستنتج نوع البيانات لكل عمود استنادا إلى القيم التي يحتوي عليها، إما رقمية أو فئوية.

    إذا كان الرأس موجودا، يتم استخدام العنوان لتسمية أعمدة مجموعة بيانات الإخراج.

    إذا لم تكن هناك رؤوس أعمدة موجودة في البيانات، يتم إنشاء أسماء أعمدة جديدة باستخدام تنسيق col1، col2,... ، coln*.

النتائج

عند اكتمال الاستيراد، انقر بزر الماوس الأيمن فوق مجموعة بيانات الإخراج وحدد Visualize لمعرفة ما إذا تم استيراد البيانات بنجاح.

إذا كنت تريد حفظ البيانات لإعادة استخدامها، بدلا من استيراد مجموعة جديدة من البيانات في كل مرة يتم فيها تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، فحدد أيقونة تسجيل مجموعة البيانات ضمن علامة التبويب Outputs+logs في اللوحة اليمنى للمكون. اختر اسما لمجموعة البيانات. تحتفظ مجموعة البيانات المحفوظة بالبيانات في وقت الحفظ. لا يتم تحديث مجموعة البيانات عند إعادة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، حتى إذا تغيرت مجموعة البيانات في البنية الأساسية لبرنامج ربط العمليات التجارية. يمكن أن يكون هذا مفيدا لأخذ لقطات من البيانات.

بعد استيراد البيانات، قد تحتاج إلى بعض التحضيرات الإضافية للنمذجة والتحليل:

  • استخدم تحرير بيانات التعريف لتغيير أسماء الأعمدة، أو معالجة عمود كنوع بيانات مختلف، أو الإشارة إلى أن بعض الأعمدة عبارة عن تسميات أو ميزات.

  • استخدم Select Columns in Dataset لتحديد مجموعة فرعية من الأعمدة لتحويلها أو استخدامها في النمذجة. يمكن بسهولة إعادة ربط الأعمدة المحولة أو التي تمت إزالتها إلى مجموعة البيانات الأصلية باستخدام مكون Add Columns .

  • استخدم القسم والعينة لتقسيم مجموعة البيانات أو إجراء أخذ العينات أو الحصول على الصفوف n العلوية.

القيود

نظرا لقيود الوصول إلى مخزن البيانات، إذا كان مسار الاستدلال يحتوي على مكون Import Data ، تتم إزالته تلقائيا عند نشره إلى نقطة النهاية في الوقت الفعلي.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.