مفاهيم البيانات في Azure التعلم الآلي

باستخدام Azure التعلم الآلي، يمكنك استيراد البيانات من جهاز محلي أو مورد تخزين قائم على السحابة. توضح هذه المقالة مفاهيم بيانات Azure التعلم الآلي الرئيسية.

مخزن بيانات

يعمل مخزن بيانات Azure التعلم الآلي كمرجع لحساب تخزين Azure موجود. يوفر مخزن بيانات Azure التعلم الآلي هذه المزايا:

  • واجهة برمجة تطبيقات شائعة وسهلة الاستخدام تتفاعل مع أنواع تخزين مختلفة (Blob/Files/ADLS).
  • اكتشاف أسهل لمخازن البيانات المفيدة في عمليات الفريق.
  • للوصول المستند إلى بيانات الاعتماد (كيان الخدمة/SAS/key)، يؤمن مخزن بيانات Azure التعلم الآلي معلومات الاتصال. بهذه الطريقة، لن تحتاج إلى وضع هذه المعلومات في البرامج النصية الخاصة بك.

عند إنشاء مخزن بيانات باستخدام حساب تخزين Azure موجود، يمكنك الاختيار بين طريقتين مختلفتين للمصادقة:

  • مستند إلى بيانات الاعتماد - مصادقة الوصول إلى البيانات باستخدام كيان الخدمة أو الرمز المميز لتوقيع الوصول المشترك (SAS) أو مفتاح الحساب. يمكن للمستخدمين الذين لديهم حق الوصول إلى مساحة عمل القارئ الوصول إلى بيانات الاعتماد.
  • مستند إلى الهوية - استخدم هوية Microsoft Entra أو الهوية المدارة لمصادقة الوصول إلى البيانات.

يلخص الجدول التالي خدمات التخزين المستندة إلى سحابة Azure التي يمكن لمخزن بيانات Azure التعلم الآلي إنشاؤها. بالإضافة إلى ذلك، يلخص الجدول أنواع المصادقة التي يمكنها الوصول إلى هذه الخدمات:

خدمات التخزين المدعومة المصادقة المستندة إلى بيانات الاعتماد المصادقة المستندة إلى الهوية
حاوية Azure Blob
مشاركة ملف Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

راجع إنشاء مخازن البيانات لمزيد من المعلومات حول مخازن البيانات.

مخازن البيانات الافتراضية

تحتوي كل مساحة عمل التعلم الآلي Azure على حساب تخزين افتراضي (حساب تخزين Azure) يحتوي على مخازن البيانات التالية:

تلميح

للعثور على معرف مساحة العمل الخاصة بك، انتقل إلى مساحة العمل في مدخل Microsoft Azure. قم بتوسيع الإعدادات ثم حدد خصائص. يتم عرض معرف مساحة العمل.

اسم مخزن البيانات نوع تخزين البيانات اسم تخزين البيانات ‏‏الوصف
workspaceblobstore الكائن الثنائي كبير الحجم للحاوية azureml-blobstore-{workspace-id} يخزن تحميلات البيانات ولقطات التعليمات البرمجية للمهمة وذاكرة التخزين المؤقت لبيانات البنية الأساسية لبرنامج ربط العمليات التجارية.
workspaceworkingdirectory مشاركة الملف code-{GUID} يخزن البيانات لدفاتر الملاحظات ومثيلات الحساب وتدفق المطالبة.
workspacefilestore مشاركة الملف azureml-filestore-{workspace-id} حاوية بديلة لتحميل البيانات.
workspaceartifactstore الكائن الثنائي كبير الحجم للحاوية azureml تخزين الأصول مثل المقاييس والنماذج والمكونات.

أنواع البيانات

يمكن ل URI (موقع التخزين) الرجوع إلى ملف أو مجلد أو جدول بيانات. يتطلب تعريف الإدخال والإخراج لمهمة التعلم الآلي أحد أنواع البيانات الثلاثة التالية:

نوع V2 API V1 API سيناريوهات متعارف عليه اختلاف V2/V1 API
ملف
الرجوع إلى ملف واحد
uri_file FileDataset قراءة/كتابة ملف واحد - يمكن أن يحتوي الملف على أي تنسيق. نوع جديد لواجهات برمجة التطبيقات V2. في واجهات برمجة التطبيقات V1، يتم تعيين الملفات دائما إلى مجلد على نظام الملفات الهدف للحساب؛ يتطلب os.path.joinهذا التعيين . في واجهات برمجة التطبيقات V2، يتم تعيين ملف واحد. بهذه الطريقة، يمكنك الرجوع إلى هذا الموقع في التعليمات البرمجية الخاصة بك.
المجلد
الرجوع إلى مجلد واحد
uri_folder FileDataset يجب قراءة/كتابة مجلد من ملفات parquet/CSV في Pandas/Spark.

التعلم العميق مع الصور والنصوص والصوت وملفات الفيديو الموجودة في مجلد.
في واجهات برمجة التطبيقات V1، FileDataset كان لديك محرك مقترن يمكنه أخذ عينة ملف من مجلد. في واجهات برمجة التطبيقات V2، يعد المجلد تعيينا بسيطا لنظام الملفات الهدف للحساب.
جدول
الرجوع إلى جدول بيانات
mltable TabularDataset لديك مخطط معقد يخضع للتغييرات المتكررة، أو تحتاج إلى مجموعة فرعية من البيانات الجدولية الكبيرة.

AutoML مع الجداول.
في واجهات برمجة التطبيقات V1، خزنت واجهة Azure التعلم الآلي الخلفية مخطط تجسيد البيانات. ونتيجة لذلك، TabularDataset عملت فقط إذا كان لديك مساحة عمل Azure التعلم الآلي. mltable يخزن مخطط تجسيد البيانات في التخزين الخاص بك . يعني موقع التخزين هذا أنه يمكنك استخدامه غير متصل ب AzureML - على سبيل المثال، محليا ومحليا. في واجهات برمجة التطبيقات V2، ستجد أنه من الأسهل الانتقال من الوظائف المحلية إلى المهام البعيدة. راجع استخدام الجداول في Azure التعلم الآلي للحصول على مزيد من المعلومات.

URI

يمثل معرف الموارد الموحد (URI) موقع تخزين على الكمبيوتر المحلي أو تخزين Azure أو موقع http(s) متوفر للجمهور. تظهر هذه الأمثلة معرفات URI لخيارات التخزين المختلفة:

موقع التخزين أمثلة URI
Azure التعلم الآلي Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
الكمبيوتر المحلي ./home/username/data/my_data
خادم (خوادم) http العامة https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
مساحة تخزين Blob wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

تقوم وظيفة Azure التعلم الآلي بتعيين عناوين URL إلى نظام ملفات هدف الحساب. يعني هذا التعيين أنه في الأمر الذي يستهلك أو ينتج URI، يعمل URI مثل ملف أو مجلد. يستخدم URI المصادقة المستندة إلى الهوية للاتصال بخدمات التخزين، إما بمعرف Microsoft Entra (افتراضي)، أو الهوية المدارة. يمكن ل Azure التعلم الآلي Datastore URIs تطبيق المصادقة المستندة إلى الهوية، أو المستندة إلى بيانات الاعتماد (على سبيل المثال، كيان الخدمة، رمز SAS المميز، مفتاح الحساب)، دون الكشف عن الأسرار.

يمكن أن يكون URI بمثابة إدخال أو إخراج لمهمة Azure التعلم الآلي، ويمكن تعيينه إلى نظام ملفات هدف الحساب باستخدام أحد خيارات الوضع الأربعة المختلفة:

  • تحميل للقراءة فقط (ro_mount): يمثل URI موقع تخزين يتم تحميله إلى نظام الملفات الهدف للحساب. يدعم موقع البيانات المحملة الإخراج للقراءة فقط بشكل حصري.
  • تحميل القراءة والكتابة (rw_mount): يمثل URI موقع تخزين يتم تحميله إلى نظام الملفات الهدف للحساب. يدعم موقع البيانات المثبتة كلا من إخراج القراءة منه والبيانات التي تكتب إليه.
  • التنزيل (download): يمثل URI موقع تخزين يحتوي على البيانات التي يتم تنزيلها إلى نظام الملفات الهدف للحساب.
  • تحميل (upload): يتم تحميل جميع البيانات المكتوبة إلى موقع هدف الحساب إلى موقع التخزين الذي يمثله URI.

بالإضافة إلى ذلك، يمكنك تمرير URI كسلسلة إدخال مهمة مع الوضع المباشر . يلخص هذا الجدول مجموعة الأوضاع المتوفرة للمدخلات والمخرجات:

الوظيفة
الإدخال أو الإخراج
upload download ro_mount rw_mount direct
إدخال
المخرجات

راجع الوصول إلى البيانات في وظيفة للحصول على مزيد من المعلومات.

إمكانية وقت تشغيل البيانات

يستخدم Azure التعلم الآلي وقت تشغيل البيانات الخاص به لأحد الأغراض الثلاثة:

  • للتركيبات/التحميلات/التنزيلات
  • لتعيين معرفات URI للتخزين إلى نظام الملفات الهدف للحساب
  • لتجسيد البيانات الجدولية في pandas/spark باستخدام جداول Azure التعلم الآلي (mltable)

تم تصميم وقت تشغيل بيانات Azure التعلم الآلي لسرعة عالية وكفاءة عالية لمهام التعلم الآلي. وتقدم هذه المزايا الرئيسية:

  • بنية لغة Rust . تعرف لغة Rust بالسرعة العالية والكفاءة العالية للذاكرة.
  • خفيف الوزن؛ لا يحتوي وقت تشغيل بيانات Azure التعلم الآلي على أي تبعيات على تقنيات أخرى - JVM، على سبيل المثال - لذلك يتم تثبيت وقت التشغيل بسرعة على أهداف الحساب.
  • تحميل بيانات متعددة العمليات (متوازية).
  • تعمل عمليات إحضار البيانات مسبقا كمهمة خلفية على وحدة (وحدات المعالجة المركزية)، لتعزيز استخدام وحدة (وحدات) GPU في عمليات التعلم العميق.
  • مصادقة سلسة للتخزين السحابي.

أصل البيانات

يشبه أصل بيانات Azure التعلم الآلي الإشارات المرجعية لمستعرض الويب (المفضلة). بدلا من تذكر مسارات التخزين الطويلة (URIs) التي تشير إلى البيانات الأكثر استخداما، يمكنك إنشاء أصل بيانات، ثم الوصول إلى هذا الأصل باسم مألوف.

ينشئ إنشاء أصول البيانات أيضا مرجعا إلى موقع مصدر البيانات، جنبا إلى جنب مع نسخة من بيانات التعريف الخاصة به. نظرا لأن البيانات تظل في موقعها الحالي، فلن تتحمل أي تكلفة تخزين إضافية، ولا تخاطر بسلامة مصدر البيانات. يمكنك إنشاء أصول البيانات من مخازن بيانات Azure التعلم الآلي أو تخزين Azure أو عناوين URL العامة أو الملفات المحلية.

راجع إنشاء أصول بيانات لمزيد من المعلومات حول أصول البيانات.

الخطوات التالية