استيراد مكون البيانات

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم هذا المكون لتحميل البيانات في مسار التعلم الآلي من خدمات البيانات السحابية الحالية.

ملاحظة

يمكن إجراء جميع الوظائف التي يوفرها هذا المكون بواسطة مخزن البيانات ومجموعات البيانات في صفحة مساحة العمل المقصودة. نوصي باستخدام مخزن البيانات ومجموعة البيانات التي تتضمن ميزات إضافية مثل مراقبة البيانات. لمعرفة المزيد، راجع مقالة كيفية الوصول إلى البيانات وكيفية تسجيل مجموعات البيانات. بعد تسجيل مجموعة بيانات، يمكنك العثور عليها في فئة مجموعة البيانات ->مجموعة البيانات الخاصة بي في واجهة المصمم. هذا المكون محجوز لمستخدمي Studio (الكلاسيكي) للحصول على تجربة مألوفة.

يدعم مكون استيراد البيانات قراءة البيانات من المصادر التالية:

  • عنوان URL عبر HTTP
  • مخازن سحابة Azure من خلال مخازن البيانات)
    • حاوية Azure Blob
    • مشاركة ملف Azure
    • Azure Data Lake
    • Azure Data Lake Gen2
    • قاعدة بيانات Azure SQL
    • Azure PostgreSQL

قبل استخدام التخزين السحابي، يجب عليك تسجيل مخزن بيانات في مساحة عمل التعلم الآلي لـ Azure أولا. لمزيد من المعلومات، راجع كيفية الوصول إلى البيانات.

بعد تعريف البيانات التي تريدها والاتصال بالمصدر، يستنتج استيراد البيانات نوع بيانات كل عمود استنادا إلى القيم التي يحتوي عليها، ويحمل البيانات في مسار المصمم. إخراج استيراد البيانات هو مجموعة بيانات يمكن استخدامها مع أي مسار مصمم.

إذا تغيرت بيانات المصدر، يمكنك تحديث مجموعة البيانات وإضافة بيانات جديدة عن طريق إعادة تشغيل استيراد البيانات.

تحذير

إذا كانت مساحة العمل الخاصة بك في شبكة ظاهرية، فيجب عليك تكوين مخازن البيانات لاستخدام ميزات تصور البيانات الخاصة بالمصمم. لمزيد من المعلومات حول كيفية استخدام مخازن البيانات ومجموعات البيانات في شبكة ظاهرية، راجع استخدام استوديو التعلم الآلي لـ Azure في شبكة Azure الظاهرية.

كيفية تكوين استيراد البيانات

  1. أضف مكون استيراد البيانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. يمكنك العثور على هذا المكون في فئة إدخال البيانات وإخراجها في المصمم.

  2. حدد المكون لفتح الجزء الأيمن.

  3. حدد مصدر البيانات، واختر نوع مصدر البيانات. يمكن أن يكون HTTP أو مخزن البيانات.

    إذا اخترت مخزن البيانات، يمكنك تحديد مخازن البيانات الموجودة المسجلة بالفعل في مساحة عمل التعلم الآلي لـ Azure أو إنشاء مخزن بيانات جديد. ثم حدد مسار البيانات المراد استيرادها في مخزن البيانات. يمكنك استعراض المسار بسهولة عن طريق تحديد مسار التصفح.

    تعرض لقطة الشاشة ارتباط استعراض المسار الذي يفتح مربع حوار تحديد المسار.

    ملاحظة

    إن مكون استيراد البيانات هو للبيانات الجدولية فقط. إذا كنت تريد استيراد ملفات بيانات جدولية متعددة مرة واحدة، فإنه يتطلب الشروط التالية، وإلا فستحدث أخطاء:

    1. لتضمين كافة ملفات البيانات في المجلد، تحتاج إلى إدخال folder_name/** إلى المسار.
    2. يجب ترميز جميع ملفات البيانات في unicode-8.
    3. يجب أن تحتوي جميع ملفات البيانات على أرقام الأعمدة وأسماء الأعمدة نفسها.
    4. نتيجة استيراد ملفات بيانات متعددة هي تسلسل كافة الصفوف من ملفات متعددة بالترتيب.
  4. حدد مخطط المعاينة لتصفية الأعمدة التي تريد تضمينها. يمكنك أيضا تعريف الإعدادات المتقدمة مثل المحدد في خيارات التحليل.

    لقطة شاشة للإصدار الأولي للمخطط مع تحديد الأعمدة 3 و4 و5 و6.

  5. تحدد خانة الاختيار إعادة إنشاء الإخراج، ما إذا كان يجب تنفيذ المكون لإعادة إنشاء الإخراج في وقت التشغيل.

    بشكل افتراضي غير محدد، ما يعني أنه إذا تم تنفيذ المكون بنفس المعلمات سابقا، يعيد النظام استخدام الإخراج من آخر تشغيل لتقليل وقت التشغيل.

    إذا تم تحديده، يقوم النظام بتنفيذ المكون مرة أخرى لإعادة إنشاء الإخراج. لذلك حدد هذا الخيار عند تحديث البيانات الأساسية في التخزين، قد يساعد هذا في الحصول على أحدث البيانات.

  6. إرسال المسار.

    عندما تقوم استيراد البيانات بتحميل البيانات إلى المصمم، فإنها تستنتج نوع بيانات كل عمود استنادا إلى القيم التي يحتوي عليها، إما رقمية أو فئوية.

    إذا كان العنوان موجودا، يتم استخدام العنوان لتسمية أعمدة مجموعة بيانات الإخراج.

    إذا لم تكن هناك عناوين أعمدة موجودة في البيانات، يتم إنشاء أسماء أعمدة جديدة باستخدام تنسيق col1، col2,... ، coln*.

النتائج

عند اكتمال الاستيراد، انقر بزر الماوس الأيمن فوق مجموعة بيانات الإخراج وحدد تصور لمعرفة ما إذا تم استيراد البيانات بنجاح.

إذا كنت تريد حفظ البيانات لإعادة استخدامها، بدلا من استيراد مجموعة جديدة من البيانات في كل مرة يتم فيها تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، فحدد أيقونة تسجيل مجموعة البيانات ضمن علامة التبويب المخرجات+السجلات في اللوحة اليمنى للمكون. اختر اسما لمجموعة البيانات. تحتفظ مجموعة البيانات المحفوظة بالبيانات في وقت الحفظ. لا يتم تحديث مجموعة البيانات عند إعادة تشغيل البنية الأساسية لبرنامج ربط العمليات التجارية، حتى إذا تغيرت مجموعة البيانات في البنية الأساسية لبرنامج ربط العمليات التجارية. يمكن أن يكون هذا مفيدا لأخذ لقطات من البيانات.

بعد استيراد البيانات، قد تحتاج إلى بعض الاستعدادات الإضافية للنمذجة والتحليل:

  • استخدم تحرير بيانات التعريف لتغيير أسماء الأعمدة أو معالجة عمود كنوع بيانات مختلف أو الإشارة إلى أن بعض الأعمدة عبارة عن تسميات أو ميزات.

  • استخدم تحديد الأعمدة في مجموعة البيانات لتحديد مجموعة فرعية من الأعمدة لتحويلها أو استخدامها في النمذجة. يمكن بسهولة إعادة ربط الأعمدة المحولة أو التي تمت إزالتها إلى مجموعة البيانات الأصلية باستخدام مكون إضافة أعمدة.

  • استخدم القسم والعينة لتقسيم مجموعة البيانات أو إجراء أخذ العينات أو الحصول على أعلى عدد من الصفوف.

التقييدات

نظرًا لقيود الوصول إلى مخزن البيانات، إذا كان مسار الاستدلال يحتوي على مكوناستيراد البيانات، فستتم إزالته تلقائيًّا عند التوزيع إلى نقطة نهاية الوقت الفعلي.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.