الاتصال بالبيانات باستخدام استوديو التعلم الآلي من Azure

في هذه المقالة، تعرف على كيفية الوصول إلى بياناتك باستخدام استوديو التعلم الآلي من Azure. اتصل ببياناتك في خدمات التخزين على Azure من خلال مخازن بيانات التعلم الآلي من Azure، ثم قم بتجميع تلك البيانات للمهام في مهام سير عمل التعلم الآلي باستخدام مجموعات بيانات التعلم الآلي من Azure.

يحدد الجدول التالي ويلخص فوائد مخازن البيانات ومجموعات البيانات.

الكائن ‏‏الوصف المزايا
مخازن البيانات الاتصال بأمان بخدمة التخزين على Azure، من خلال تخزين معلومات الاتصال الخاصة بك، مثل معرف الاشتراك الخاص بك وترخيص الرمز المميز في Key Vault المرتبط بمساحة العمل نظرا لأن معلوماتك مخزنة بشكل آمن، فأنت

  • لا تعرض بيانات اعتماد المصادقة أو مصادر البيانات الأصلية للخطر.
  • لم تعد بحاجة إلى ترميزها في البرامج النصية الخاصة بك.
  • مجموعات البيانات من خلال إنشاء مجموعة بيانات، يمكنك إنشاء مرجع إلى موقع مصدر البيانات، إلى جانب نسخة من بيانات التعريف الخاصة به. مع مجموعات البيانات يمكنك،

  • الوصول إلى البيانات أثناء تدريب النموذج.
  • شارك البيانات مع مستخدمين آخرين وتعاون معهم.
  • استخدم المكتبات مفتوحة المصدر، مثل pandas، لاستكشاف البيانات.
  • نظرا إلى أن مجموعات البيانات يتم تقييمها ببطء، وتظل البيانات في موقعها الحالي، فأنت

  • احتفظ بنسخة واحدة من البيانات في وحدة التخزين الخاصة بك.
  • لا تتحمل أي تكلفة تخزين إضافية
  • لا تخاطر بتغيير مصادر بياناتك الأصلية عن غير قصد.
  • قم بتحسين سرعات أداء سير عمل التعلم الآلي.
  • لفهم المكان المناسب لمخازن البيانات ومجموعات البيانات في سير العمل الكلي للوصول إلى البيانات في التعلم الآلي من Azure، راجع مقالة الوصول الآمن إلى البيانات.

    للحصول على أول تجربة للتعليمات البرمجية، راجع المقالات التالية لاستخدام التعلم الآلي من Azure Python SDK من أجل:

    المتطلبات الأساسية

    إنشاء مخازن البيانات

    يمكنك إنشاء مخازن بيانات من حلول تخزين Azure هذه. بالنسبة إلى حلول التخزين غير المدعومة، ولتوفير تكلفة خروج البيانات أثناء تجارب التعلم الآلي، يجب عليك نقل بياناتك إلى حل تخزين Azure مدعوم. تعرف على المزيد حول مخازن البيانات.

    يمكنك إنشاء مخازن بيانات من خلال الوصول المستند إلى بيانات الاعتماد أو الوصول المستند إلى الهوية.

    أنشئ متجر بيانات جديدًا في بضع خطوات باستخدام استوديو التعلم الآلي من Azure.

    هام

    إذا كان حساب تخزين البيانات الخاص بك في شبكة ظاهرية، فسيتطلب الأمر خطوات تكوين إضافية لضمان وصول الاستوديو إلى بياناتك. راجع عزل الشبكة والخصوصية لضمان تطبيق خطوات التكوين المناسبة.

    1. سجل الدخول إلى Azure Machine Learning Studio.
    2. حدد Data في الجزء الأيمن ضمن Assets.
    3. في الجزء العلوي، حدد Datastores.
    4. حدد +Create.
    5. أكمل النموذج لإنشاء مخزن بيانات جديد وتسجيله. يقوم النموذج بتحديث نفسه بذكاء بناءً على تحديداتك لنوع تخزين Azure ونوع المصادقة. راجع قسم الوصول إلى التخزين والأذونات للتعرف على مكان العثور على بيانات اعتماد المصادقة التي تحتاجها لتعبئة هذا النموذج.

    يوضح المثال التالي كيف يبدو النموذج عند إنشاء مخزن بيانات الكائنات الثنائية كبيرة الحجم من Azure:

    Form for a new datastore

    إنشاء أصول البيانات

    بعد إنشاء مخزن بيانات، أنشئ مجموعة بيانات للتفاعل مع بياناتك. تحزم مجموعات البيانات بياناتك في كائن قابل للاستهلاك يتم تقييمه ببطء لمهام التعلم الآلي مثل التدريب. تعرف على المزيد عن مجموعات البيانات.

    هناك نوعان من مجموعات البيانات، FileDataset وTabularDataset. تنشئ FileDatasets مراجع لملفات فردية أو متعددة أو عناوين URL عامة. بينما تمثل TabularDatasets بياناتك بتنسيق جدولي. يمكنك إنشاء TabularDatasets من ملفات .csv و.tsv و.parquet و.jsonl، ومن نتائج استعلام SQL.

    تصف الخطوات التالية كيفية إنشاء مجموعة بيانات في Azure التعلم الآلي studio.

    إشعار

    يتم تسجيل مجموعات البيانات التي تم إنشاؤها من خلال استوديو التعلم الآلي من Azure تلقائيًا في مساحة العمل.

    1. انتقل إلى Azure التعلم الآلي studio

    2. ضمن الأصول في جزء التنقل الأيمن، حدد البيانات. في علامة التبويب Data assets، حدد Create This screenshot highlights Create in the Data assets tab.

    3. امنح أصل بياناتك اسما ووصفا اختياريا. ثم، ضمن النوع، حدد أحد أنواع مجموعة البيانات، إما ملف أو جدولي. This screenshot shows set the name, description, and type of the data asset.

    4. لديك بعض الخيارات لمصدر البيانات. إذا كانت بياناتك مخزنة بالفعل في Azure، فاختر "من تخزين Azure". إذا كنت تريد تحميل البيانات من محرك الأقراص المحلي، فاختر "من الملفات المحلية". إذا كانت بياناتك مخزنة في موقع ويب عام، فاختر "من ملفات الويب". يمكنك أيضا إنشاء أصل بيانات من قاعدة بيانات SQL، أو من مجموعات بيانات Azure المفتوحة.

    5. بالنسبة لخطوة تحديد الملف، حدد المكان الذي تريد تخزين بياناتك فيه في Azure، وملفات البيانات التي تريد استخدامها.

      1. قم بتمكين التحقق من التخطي إذا كانت بياناتك في شبكة ظاهرية. تعرف على المزيد عن عزل الشبكة الظاهرية وخصوصيتها.
    6. اتبع الخطوات لتعيين إعدادات تحليل البيانات والمخطط لأصل البيانات. سيتم ملء الإعدادات مسبقا استنادا إلى نوع الملف ويمكنك تكوين الإعدادات الخاصة بك بشكل أكبر قبل إنشاء أصل البيانات.

    7. بمجرد الوصول إلى خطوة المراجعة، انقر فوق إنشاء في الصفحة الأخيرة

    معاينة البيانات وملف التعريف

    بعد إنشاء مجموعة البيانات الخاصة بك، تحقق من أنه يمكنك عرض المعاينة وملف التعريف في الاستوديو بالخطوات التالية:

    1. تسجيل الدخول إلى استوديو التعلم الآلي من Azure
    2. ضمن الأصول في جزء التنقل الأيمن، حدد البيانات. Screenshot highlights Create in the Data assets tab.
    3. حدد اسم مجموعة البيانات التي تريد عرضها.
    4. حدد علامة تبويب استكشاف.
    5. حدد علامة التبويب معاينة.Screenshot shows a preview of a dataset.
    6. حدد علامة التبويب ملف التعريف.Screenshot shows dataset column metadata in the Profile tab.

    يمكنك الحصول على مجموعة متنوعة من الإحصائيات الموجزة عبر مجموعة بياناتك للتحقق مما إذا كانت مجموعة بياناتك جاهزة للتعلم الآلي. بالنسبة للأعمدة غير الرقمية، فإنها تتضمن الإحصائيات الأساسية فقط مثل الحد الأدنى والحد الأقصى وعدد الأخطاء. بالنسبة للأعمدة الرقمية، يمكنك أيضًا مراجعة اللحظات الإحصائية والكميات المقدرة.

    على وجه التحديد، يتضمن ملف تعريف بيانات التعلم الآلي من Azure ما يلي:

    إشعار

    تظهر الإدخالات الفارغة للميزات ذات الأنواع غير ذات الصلة.

    الإحصاء ‏‏الوصف
    ميزة اسم العمود الذي يتم تلخيصه.
    ملف التعريف التصور المضمن بناءً على النوع الذي تم استنتاجه. على سبيل المثال، السلاسل، القيم المنطقية، والتواريخ سيكون لها عدد قيم، في حين أن الكسور العشرية (الأرقام) لها مدرج تكراري تقريبي. يتيح لك ذلك اكتساب فهم سريع لتوزيع البيانات.
    توزيع النوع عدد القيم المضمنة للأنواع داخل عمود. القيم الفارغة هي نوع خاص بها، لذا فإن هذا التصور مفيد لاكتشاف القيم الفردية أو المفقودة.
    نوع نوع العمود المستنتج. تتضمن القيم المحتملة: السلاسل والقيمة المنطقية والتواريخ والكسور العشرية.
    Min الحد الأدنى لقيمة العمود. تظهر الإدخالات الفارغة للميزات التي لا يحتوي نوعها على ترتيب متأصل (مثل، القيم المنطقية).
    الحد الأقصى الحد الأقصى لقيمة العمود.
    عدد العدد الإجمالي للإدخالات المفقودة وغير المفقودة في العمود.
    عدد غير مفقود عدد الإدخالات غير المفقودة في العمود. يتم التعامل مع الأخطاء والسلاسل الفارغة كقيم، لذلك لن تساهم في "العدد غير المفقود".
    الكميات القيم التقريبية في كل وحدة تكميلية لتوفير إحساس بتوزيع البيانات.
    المتوسط الوسط الحسابي أو متوسط العمود.
    الانحراف المعياري قياس مقدار تشتت أو تباين بيانات هذا العمود.
    الفرق قياس مدى انتشار بيانات هذا العمود عن متوسط قيمته.
    الانحراف قياس مدى اختلاف بيانات هذا العمود عن التوزيع العادي.
    التفرطح قياس مدى كثافة الذيل مقارنة ببيانات هذا العمود بالتوزيع العادي.

    الوصول إلى التخزين والأذونات

    لضمان اتصالك بأمان بخدمة تخزين Azure، يتطلب التعلم الآلي في Azure أن يكون لديك إذن للوصول إلى تخزين البيانات المقابلة. يعتمد هذا الوصول على بيانات اعتماد المصادقة المستخدمة لتسجيل مخزن البيانات.

    الشبكة الظاهرية

    إذا كان حساب تخزين البيانات الخاص بك في شبكة ظاهرية، فسيتطلب الأمر خطوات تكوين إضافية لضمان وصول Azure Machine Learning إلى بياناتك. راجع استخدام استوديو التعلم الآلي من Azure في شبكة ظاهرية لضمان تطبيق خطوات التكوين المناسبة عند إنشاء مخزن البيانات وتسجيله.

    التحقق من صحة الوصول

    تحذير

    الوصول عبر المستأجر إلى حسابات التخزين غير مدعوم. إذا كانت هناك حاجة إلى الوصول عبر المستأجرين للسيناريو الخاص بك، فيرجى التواصل مع الاسم المستعار لفريق دعم البيانات في Azure التعلم الآلي للحصول على amldatasupport@microsoft.com المساعدة في حل التعليمات البرمجية المخصص.

    كجزء من عملية إنشاء مخزن البيانات الأولي وعملية التسجيل، يتحقق التعلم الآلي من Azure تلقائيًا من وجود خدمة التخزين الأساسية وأن المستخدم الأساسي الذي يوفره المستخدم (اسم المستخدم أو أساسيات الخدمة أو رمز SAS المميز) لديه حق الوصول إلى التخزين المحدد.

    بعد إنشاء مخزن البيانات، يتم إجراء هذا التحقق فقط للأساليب التي تتطلب الوصول إلى حاوية التخزين الأساسية، وليس في كل وقت يتم فيه استرداد عناصر مخزن البيانات. على سبيل المثال، يحدث التحقق إذا كنت تريد تنزيل الملفات من مخزن البيانات الخاص بك؛ ولكن إذا كنت ترغب فقط في تغيير مخزن البيانات الافتراضي، فلن يحدث التحقق.

    لمصادقة وصولك إلى خدمة التخزين الأساسية، يمكنك تقديم إما مفتاح حسابك، أو رموز توقيعات الوصول المشتركة (SAS)، أو أساس الخدمة وفقًا لنوع مخزن البيانات الذي تريد إنشاءه. تسرد مصفوفة نوع التخزين أنواع المصادقة المدعومة التي تتوافق مع كل الأنواع لمخازن البيانات.

    يمكنك العثور على مفتاح الحساب، ورمز SAS المميز، والمعلومات الأساسية للخدمة على مدخل Microsoft Azure.

    • إذا كنت تخطط لاستخدام مفتاح حساب أو رمز SAS المميز للمصادقة، فحدد Storage Accounts في الجزء الأيمن، واختر حساب التخزين الذي تريد تسجيله.

      • توفر الصفحة نظرة عامة معلومات مثل اسم الحساب والحاوية واسم مشاركة الملف.
        1. لمفاتيح الحساب، انتقل إلى مفاتيح الوصول في جزء الإعدادات.
        2. بالنسبة إلى رموز SAS المميزة، انتقل إلى توقيعات الوصول المشترك في جزء الإعدادات.
    • إذا كنت تخطط لاستخدام أساس خدمة للمصادقة، فانتقل إلى تسجيلات التطبيق وحدد التطبيق الذي تريد استخدامه.

      • ستحتوي صفحة نظرة عامة المقابلة على المعلومات المطلوبة مثل معرف المستأجر ومعرف العميل.

    هام

    • إذا كنت بحاجة إلى تغيير مفاتيح الوصول لحساب Azure Storage (مفتاح الحساب أو رمز SAS المميز)، فتأكد من مزامنة بيانات الاعتماد الجديدة مع مساحة العمل ومخازن البيانات المتصلة بها. تعرف على كيفية مزامنة بيانات الاعتماد المحدثة.

    • إذا قمت بإلغاء التسجيل وإعادة تسجيل مخزن بيانات يحمل نفس الاسم، وفشلت، فقد لا يتم تمكين ميزة الحذف المبدئي في Azure Key Vault لمساحة العمل الخاصة بك. افتراضيًا، يتم تمكين الحذف المبدئي لمثيل مخزن المفاتيح الذي تم إنشاؤه بواسطة مساحة العمل الخاصة بك، ولكن قد لا يتم تمكينه إذا استخدمت مخزن مفاتيح موجود أو كان لديك مساحة عمل تم إنشاؤها قبل أكتوبر 2020. للحصول على معلومات حول كيفية تمكين الحذف المبدئي، راجع تشغيل الحذف المبدئي لمخزن مفاتيح موجود.

    الأذونات

    بالنسبة إلى حاوية البيانات الثنائية كبيرة الحجم Azure وتخزين Azure Data Lake Gen 2، تأكد من أن بيانات اعتماد المصادقة لديها وصول قارئ بيانات تخزين البيانات الثنائية كبيرة الحجم. تعرف على المزيد حول قارئ بيانات تخزين البيانات الثنائية كبيرة الحجم. يتم تعيين التعليمة البرمجية المميزة لحساب SAS افتراضيًا على عدم وجود أذونات.

    • بالنسبة إلى الوصول للقراءةللبيانات، يجب أن تحتوي بيانات اعتماد المصادقة الخاصة بك على حد أدنى من القائمة وأذونات القراءة للحاويات والعناصر.

    • بالنسبة إلى حق الوصول للكتابة الخاصة بالبيانات، يلزم أيضاً أذونات الكتابة والإضافة.

    تدريب مع مجموعات البيانات

    استخدم مجموعات البيانات الخاصة بك في تجارب التعلم الآلي لتدريب نماذج «التعلم الآلي». تعرف على مزيد من المعلومات بشأن كيفية التدريب باستخدام مجموعات البيانات.

    الخطوات التالية