البيانات في Azure التعلم الآلي v1

ينطبق على:ملحق التعلم الآلي من Azure CLI v1

ينطبق على:Azure Machine Learning SDK v1 ل Python

هام

توفر هذه المقالة معلومات حول استخدام Azure Machine Learning SDK v1. تم إهمال SDK v1 اعتبارا من 31 مارس 2025. سينتهي الدعم المقدم له في 30 يونيو 2026. يمكنك تثبيت واستخدام SDK v1 حتى ذلك التاريخ. ستستمر مهام سير العمل الحالية باستخدام SDK v1 في العمل بعد تاريخ انتهاء الدعم. ومع ذلك ، يمكن أن يتعرضوا لمخاطر أمنية أو تغييرات كسر في حالة حدوث تغييرات معمارية في المنتج.

نوصي بالانتقال إلى SDK v2 قبل 30 يونيو 2026. لمزيد من المعلومات حول SDK v2، راجع ما هو Azure Machine Learning CLI وPython SDK v2؟ومرجع SDK v2.

يسهل التعلم الآلي من Microsoft Azure الاتصال ببياناتك في السحابة. يوفر طبقة تجريد فوق خدمة التخزين الأساسية، بحيث يمكنك الوصول بأمان إلى بياناتك والعمل معها دون الحاجة إلى كتابة تعليمة برمجية خاصة بنوع التخزين الخاص بك. يوفر Azure التعلم الآلي أيضا قدرات البيانات هذه:

  • إمكانية التشغيل التفاعلي مع Pandas وSpark DataFrames
  • تعيين الإصدار وتعقب دورة حياة البيانات
  • تسمية البيانات
  • مراقبة انحراف البيانات

سير عمل البيانات

لاستخدام البيانات في حل التخزين السحابي الخاص بك، استخدم هذا السير في توصيل البيانات. يفترض سير العمل أن لديك حساب تخزين Azure وبيانات في خدمة تخزين سحابية على Azure.

  1. أنشئ مخزن بيانات Azure Machine Learning لتخزين معلومات الاتصال في مخزن Azure الخاص بك.

  2. من ذلك المخزن البيانات، أنشئ مجموعة بيانات Azure Machine Learning لتشير إلى ملف أو ملفات محددة في التخزين الأساسي لديك.

  3. لاستخدام مجموعة البيانات هذه في تجربة التعلم الآلي، يمكنك إما

    • تحميل مجموعة البيانات إلى هدف حساب تجربتك، لتدريب النموذج

      أو

    • استهلاك مجموعة البيانات مباشرة في حلول Azure التعلم الآلي - على سبيل المثال، تشغيل تجربة التعلم الآلي التلقائي (ML التلقائي) أو مسارات التعلم الآلي أو مصمم التعلم الآلي Azure.

  4. أنشئ مراقبات مجموعة بيانات لمجموعة بيانات مخرجات النموذج الخاصة بك لاكتشاف انحراف البيانات.

  5. إذا تم اكتشاف انحراف البيانات، قم بتحديث مجموعة بيانات الإدخال وأعد تدريب نموذجك وفقا لذلك.

تظهر لقطة الشاشة هذه سير العمل الموصى به:

لقطة شاشة تعرض Azure Storage Service، والتي تتدفق إلى مخزن البيانات ثم إلى مجموعة بيانات.

الاتصال بالتخزين مع مخازن البيانات

تستضيف مخازن بيانات Azure التعلم الآلي بشكل آمن معلومات اتصال تخزين البيانات على Azure، لذلك لا يتعين عليك وضع هذه المعلومات في البرامج النصية الخاصة بك. لمزيد من المعلومات حول الاتصال بحساب التخزين والوصول إلى البيانات في خدمة التخزين الأساسية لديك، راجع التسجيل وإنشاء مخزن بيانات.

يمكنك تسجيل هذه الخدمات المدعومة من خدمات التخزين السحابية في Azure كمخازن بيانات:

  • حاوية Azure Blob
  • مشاركة ملف Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • قاعدة بيانات Azure SQL
  • قاعدة بيانات Azure لـ PostgreSQL
  • نظام ملفات Databricks
  • قاعدة بيانات Azure لـ MySQL

تلميح

يمكنك إنشاء مخازن بيانات باستخدام المصادقة المعتمدة على بيانات الاعتماد للوصول إلى خدمات التخزين، مثل مدير الخدمة أو رمز توقيع الوصول المشترك (SAS). يمكن للمستخدمين الذين لديهم حق وصول القارئ إلى مساحة العمل الوصول إلى بيانات الاعتماد هذه.

إذا كان هذا مصدر قلق، راجع إنشاء مخزن بيانات يستخدم الوصول إلى البيانات القائمة على الهوية لمزيد من المعلومات حول الاتصالات بخدمات التخزين.

البيانات المرجعية في التخزين مع مجموعات البيانات

مجموعات بيانات التعلم الآلي من Azure ليست نسخا من بياناتك. ينشئ إنشاء مجموعة البيانات نفسه مرجعا إلى البيانات في خدمة التخزين الخاصة به، جنبا إلى جنب مع نسخة من بيانات التعريف الخاصة به.

لأن مجموعات البيانات يتم تقييمها بكسل وتبقى البيانات في موقعها الحالي، أنت

  • لا تتحمل أي تكلفة تخزين إضافية
  • لا تخاطر بإجراء تغييرات غير مقصودة على مصادر البيانات الأصلية
  • تحسين سرعات أداء سير عمل التعلم الآلي

للتفاعل مع بياناتك في التخزين، أنشئ مجموعة بيانات لحزم بياناتك في كائن قابل للاستهلاك لمهام التعلم الآلي. سجل مجموعة البيانات في مساحة العمل الخاصة بك، لمشاركتها وإعادة استخدامها عبر تجارب مختلفة دون تعقيدات استيعاب البيانات.

يمكنك إنشاء مجموعات بيانات من ملفات محلية، أو عناوين URL عامة، أو مجموعات بيانات Azure Open، أو خدمات تخزين Azure عبر مخازن البيانات.

هناك نوعان من مجموعات البيانات:

  • يشير FileDataset إلى ملف واحد أو ملفات متعددة بأي تنسيق في مخازن البيانات أو عناوين مواقع الويب العامة. إذا كانت بياناتك قد تم تنقيتها وجاهزة لتجارب التدريب، يمكنك تحميل أو تركيب ملفات تشير إليها FileDatasets إلى هدف الحساب الخاص بك.

  • تمثل مجموعة بيانات الجدولية البيانات بصيغة جدولية عن طريق تحليل الملف أو قائمة الملفات المقدمة. لمزيد من المعالجة والتطهير، يمكنك تحميل TabularDataset في pandas أو Spark DataFrame. للحصول على قائمة كاملة بصيغ البيانات التي يمكنك من خلالها إنشاء TableularDatasets، قم بزيارة فئة TabularDatasetFactory.

توفر هذه الموارد المزيد من المعلومات حول قدرات مجموعة البيانات:

العمل باستخدام بياناتك

باستخدام مجموعات البيانات، يمكنك إنجاز مهام التعلم الآلي من خلال التكامل السلس مع ميزات Azure التعلم الآلي.

تسمية البيانات باستخدام مشاريع تسمية البيانات

تصنيف كميات كبيرة من البيانات في مشاريع تعلم الآلة يمكن أن يصبح تحديا. غالبا ما تتطلب المشاريع التي تتضمن مكون رؤية الكمبيوتر، مثل تصنيف الصور أو الكشف عن الكائنات، آلاف الصور والتسميات المقابلة.

يوفر Azure التعلم الآلي موقعا مركزيا لإنشاء مشاريع التسمية وإدارتها ومراقبتها. تساعد مشاريع التسمية على تنسيق البيانات والتسميات وأعضاء الفريق، بحيث يمكنك إدارة مهام التسمية بكفاءة أكبر. تشمل المهام المدعومة حاليا تصنيف الصور، سواء بعدة تصنيفات أو متعددة الفئات، وتحديد الكائنات باستخدام المربعات المحدودة.

أنشئ مشروع تسمية صورة أو مشروع وضع العلامات النصية، وإخراج مجموعة بيانات لاستخدامها في تجارب التعلم الآلي.

مراقبة أداء النموذج مع انحراف البيانات

في سياق التعلم الآلي، يتضمن انحراف البيانات التغيير في بيانات إدخال النموذج الذي يؤدي إلى تدهور أداء النموذج. إنه سبب رئيسي لتدهور دقة النموذج بمرور الوقت، وتساعد مراقبة انحراف البيانات في اكتشاف مشكلات أداء النموذج.

لمزيد من المعلومات، تفضل بزيارة إنشاء جهاز عرض مجموعة بيانات لمعرفة كيفية الكشف عن انحراف البيانات على البيانات الجديدة في مجموعة بيانات والتنبيه إليها.

الخطوات التالية