البيانات في Azure التعلم الآلي v1

ينطبق على: ملحق التعلم الآلي من Azure CLI v1

ينطبق على: Python SDK azureml v1

يسهل التعلم الآلي من Microsoft Azure الاتصال ببياناتك في السحابة. يوفر طبقة تجريد فوق خدمة التخزين الأساسية، بحيث يمكنك الوصول بأمان إلى بياناتك والعمل معها دون الحاجة إلى كتابة تعليمة برمجية خاصة بنوع التخزين الخاص بك. يوفر Azure التعلم الآلي أيضا قدرات البيانات هذه:

  • إمكانية التشغيل التفاعلي مع Pandas وSpark DataFrames
  • تعيين الإصدار وتعقب دورة حياة البيانات
  • تسمية البيانات
  • مراقبة انحراف البيانات

سير عمل البيانات

لاستخدام البيانات في حل التخزين المستند إلى السحابة، نوصي بسير عمل تسليم البيانات هذا. يفترض سير العمل أن لديك حساب تخزين Azure وبيانات في خدمة تخزين مستندة إلى سحابة Azure.

  1. إنشاء مخزن بيانات Azure التعلم الآلي لتخزين معلومات الاتصال إلى تخزين Azure

  2. من مخزن البيانات هذا، قم بإنشاء مجموعة بيانات Azure التعلم الآلي للإشارة إلى ملف أو ملفات معينة في التخزين الأساسي

  3. لاستخدام مجموعة البيانات هذه في تجربة التعلم الآلي، يمكنك إما

    • تحميل مجموعة البيانات إلى هدف حساب تجربتك، لتدريب النموذج

      أو

    • استهلاك مجموعة البيانات مباشرة في حلول Azure التعلم الآلي - على سبيل المثال، تشغيل تجربة التعلم الآلي التلقائي (ML التلقائي) أو مسارات التعلم الآلي أو مصمم التعلم الآلي Azure.

  4. إنشاء أجهزة عرض مجموعة البيانات لمجموعة بيانات إخراج النموذج للكشف عن انحراف البيانات

  5. بالنسبة إلى انحراف البيانات المكتشفة، قم بتحديث مجموعة بيانات الإدخال وإعادة تدريب النموذج وفقا لذلك

تظهر لقطة الشاشة هذه سير العمل الموصى به:

لقطة شاشة تعرض Azure Storage Service، والتي تتدفق إلى مخزن البيانات ثم إلى مجموعة بيانات.

الاتصال بالتخزين مع مخازن البيانات

تستضيف مخازن بيانات Azure التعلم الآلي بشكل آمن معلومات اتصال تخزين البيانات على Azure، لذلك لا يتعين عليك وضع هذه المعلومات في البرامج النصية الخاصة بك. لمزيد من المعلومات حول الاتصال بحساب تخزين والوصول إلى البيانات في خدمة التخزين الأساسية، تفضل بزيارة تسجيل وإنشاء مخزن بيانات.

يمكن تسجيل خدمات التخزين المستندة إلى سحابة Azure المدعومة هذه كمخازن بيانات:

  • حاوية Azure Blob
  • مشاركة ملف Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • قاعدة بيانات Azure SQL
  • قاعدة بيانات Azure لـ PostgreSQL
  • نظام ملفات Databricks
  • قاعدة بيانات Azure لـ MySQL

تلميح

يمكنك إنشاء مخازن بيانات بمصادقة تستند إلى بيانات الاعتماد للوصول إلى خدمات التخزين، على سبيل المثال كيان الخدمة أو رمز توقيع وصول مشترك (SAS). يمكن للمستخدمين الذين لديهم حق وصول القارئ إلى مساحة العمل الوصول إلى بيانات الاعتماد هذه.

إذا كان هذا مصدر قلق، تفضل بزيارة إنشاء مخزن بيانات يستخدم الوصول إلى البيانات المستندة إلى الهوية لمزيد من المعلومات حول الاتصالات بخدمات التخزين.

البيانات المرجعية في التخزين مع مجموعات البيانات

مجموعات بيانات التعلم الآلي من Azure ليست نسخا من بياناتك. ينشئ إنشاء مجموعة البيانات نفسه مرجعا إلى البيانات في خدمة التخزين الخاصة به، جنبا إلى جنب مع نسخة من بيانات التعريف الخاصة به.

نظرًا لأنه يتم تقييم مجموعات البيانات بشكل بطيء، وتبقى البيانات في موقعها الحالي، أنت

  • لا تتحمل أي تكلفة تخزين إضافية
  • لا تخاطر بإجراء تغييرات غير مقصودة على مصادر البيانات الأصلية
  • تحسين سرعات أداء سير عمل التعلم الآلي

للتفاعل مع بياناتك في التخزين، أنشئ مجموعة بيانات لحزم بياناتك في كائن قابل للاستهلاك لمهام التعلم الآلي. سجل مجموعة البيانات في مساحة العمل الخاصة بك، لمشاركتها وإعادة استخدامها عبر تجارب مختلفة دون تعقيدات استيعاب البيانات.

يمكنك إنشاء مجموعات بيانات من الملفات المحلية أو عناوين url العامة أو مجموعات بيانات Azure المفتوحة أو خدمات تخزين Azure عبر مخازن البيانات.

هناك نوعان من مجموعات البيانات:

  • يشير FileDataset إلى ملف واحد أو ملفات متعددة بأي تنسيق في مخازن البيانات أو عناوين مواقع الويب العامة. إذا تم تنظيف بياناتك بالفعل وجاهزة لتجارب التدريب، يمكنك تنزيل أو تحميل الملفات المشار إليها بواسطة FileDatasets إلى هدف الحساب الخاص بك

  • تمثل TabularDataset البيانات بتنسيق جدولي، عن طريق تحليل الملف أو قائمة الملفات المتوفرة. لمزيد من المعالجة والتطهير، يمكنك تحميل TabularDataset في pandas أو Spark DataFrame. للحصول على قائمة كاملة بتنسيقات البيانات التي يمكنك من خلالها إنشاء TabularDatasets، تفضل بزيارة فئة TabularDatasetFactory

توفر هذه الموارد المزيد من المعلومات حول قدرات مجموعة البيانات:

العمل باستخدام بياناتك

باستخدام مجموعات البيانات، يمكنك إنجاز مهام التعلم الآلي من خلال التكامل السلس مع ميزات Azure التعلم الآلي.

تسمية البيانات باستخدام مشاريع تسمية البيانات

يمكن أن يصبح وصف كميات كبيرة من البيانات في مشاريع التعلم الآلي صداعا. غالبا ما تتطلب المشاريع التي تتضمن مكون رؤية الكمبيوتر، مثل تصنيف الصور أو الكشف عن الكائنات، آلاف الصور والتسميات المقابلة.

يوفر Azure التعلم الآلي موقعا مركزيا لإنشاء مشاريع التسمية وإدارتها ومراقبتها. تساعد مشاريع التسمية على تنسيق البيانات والتسميات وأعضاء الفريق، بحيث يمكنك إدارة مهام التسمية بكفاءة أكبر. تتضمن المهام المدعومة حاليا تصنيف الصور، إما متعددة التسميات أو متعددة الفئات، وتحديد العنصر باستخدام مربعات محددة.

أنشئ مشروع تسمية صورة أو مشروع وضع العلامات النصية، وإخراج مجموعة بيانات لاستخدامها في تجارب التعلم الآلي.

مراقبة أداء النموذج مع انحراف البيانات

في سياق التعلم الآلي، يتضمن انحراف البيانات التغيير في بيانات إدخال النموذج الذي يؤدي إلى تدهور أداء النموذج. إنه سبب رئيسي لتدهور دقة النموذج بمرور الوقت، وتساعد مراقبة انحراف البيانات في اكتشاف مشكلات أداء النموذج.

لمزيد من المعلومات، تفضل بزيارة إنشاء جهاز عرض مجموعة بيانات لمعرفة كيفية الكشف عن انحراف البيانات على البيانات الجديدة في مجموعة بيانات والتنبيه إليها.

الخطوات التالية