مفاهيم البيانات في Azure التعلم الآلي

باستخدام Azure التعلم الآلي، يمكنك استيراد البيانات من جهاز محلي أو مورد تخزين قائم على السحابة. توضح هذه المقالة مفاهيم بيانات Azure التعلم الآلي الرئيسية.

ملاحظة

لا تدعم موارد التعلم الآلي من Azure عمليات استيراد البيانات من موارد بيانات Synapse SQL.

مخزن البيانات

يعمل مخزن بيانات Azure التعلم الآلي كمرجع لحساب تخزين Azure موجود. يوفر مخزن بيانات Azure التعلم الآلي هذه المزايا:

  • واجهة برمجة تطبيقات شائعة وسهلة الاستخدام تتفاعل مع أنواع تخزين مختلفة (Blob/Files/ADLS).
  • اكتشاف أسهل لمخازن البيانات المفيدة في عمليات الفريق.
  • للوصول المستند إلى بيانات الاعتماد (كيان الخدمة/SAS/key)، يؤمن مخزن بيانات Azure التعلم الآلي معلومات الاتصال. بهذه الطريقة، لا تحتاج إلى وضع هذه المعلومات في البرامج النصية الخاصة بك.

عند إنشاء مخزن بيانات باستخدام حساب تخزين Azure موجود، يكون لديك خياران مختلفان لأسلوب المصادقة:

  • مستند إلى بيانات الاعتماد - مصادقة الوصول إلى البيانات باستخدام كيان الخدمة أو الرمز المميز لتوقيع الوصول المشترك (SAS) أو مفتاح الحساب. يمكن للمستخدمين الذين لديهم حق الوصول إلى مساحة عمل القارئ الوصول إلى بيانات الاعتماد.
  • مستند إلى الهوية - استخدم هوية Microsoft Entra أو الهوية المدارة لمصادقة الوصول إلى البيانات.

يلخص هذا الجدول خدمات التخزين المستندة إلى سحابة Azure التي يمكن لمخزن بيانات Azure التعلم الآلي إنشاؤها. بالإضافة إلى ذلك، يلخص الجدول أنواع المصادقة التي يمكنها الوصول إلى هذه الخدمات:

خدمات التخزين المدعومة المصادقة المستندة إلى بيانات الاعتماد المصادقة المستندة إلى الهوية
حاوية Azure Blob
مشاركة ملف Azure
Azure Data Lake Gen1
Azure Data Lake Gen2

لمزيد من المعلومات حول مخازن البيانات، تفضل بزيارة إنشاء مخازن البيانات.

مخازن البيانات الافتراضية

تحتوي كل مساحة عمل Azure التعلم الآلي على حساب تخزين افتراضي (حساب تخزين Azure) يحتوي على مخازن البيانات هذه:

تلميح

للعثور على معرف مساحة العمل الخاصة بك، انتقل إلى مساحة العمل في مدخل Microsoft Azure. قم بتوسيع الإعدادات، ثم حدد خصائص. يظهر معرف مساحة العمل.

اسم مخزن البيانات نوع تخزين البيانات اسم تخزين البيانات وصف
workspaceblobstore حاوية كائن ثنائي كبير الحجم azureml-blobstore-{workspace-id} يخزن تحميلات البيانات ولقطات التعليمات البرمجية للمهمة وذاكرة التخزين المؤقت لبيانات البنية الأساسية لبرنامج ربط العمليات التجارية.
workspaceworkingdirectory مشاركة الملف code-{GUID} يخزن البيانات لدفاتر الملاحظات ومثيلات الحساب وتدفق المطالبة.
workspacefilestore مشاركة الملف azureml-filestore-{workspace-id} حاوية بديلة لتحميل البيانات.
workspaceartifactstore حاوية كائن ثنائي كبير الحجم azureml تخزين الأصول مثل المقاييس والنماذج والمكونات.

أنواع البيانات

يمكن ل URI (موقع التخزين) الرجوع إلى ملف أو مجلد أو جدول بيانات. يتطلب تعريف الإدخال والإخراج لمهمة التعلم الآلي أحد أنواع البيانات الثلاثة التالية:

النوع V2 API V1 API سيناريوهات متعارف عليه اختلاف V2/V1 API
ملف
الرجوع إلى ملف واحد
uri_file FileDataset قراءة/كتابة ملف واحد - يمكن أن يحتوي الملف على أي تنسيق. نوع جديد لواجهات برمجة التطبيقات V2. في واجهات برمجة التطبيقات V1، يتم تعيين الملفات دائما إلى مجلد على نظام الملفات الهدف للحساب؛ يتطلب os.path.joinهذا التعيين . في واجهات برمجة التطبيقات V2، يتم تعيين ملف واحد. بهذه الطريقة، يمكنك الرجوع إلى هذا الموقع في التعليمات البرمجية الخاصة بك.
مجلد
الرجوع إلى مجلد واحد
uri_folder FileDataset يجب قراءة/كتابة مجلد من ملفات parquet/CSV في Pandas/Spark.

التعلم العميق مع الصور والنصوص والصوت وملفات الفيديو الموجودة في مجلد.
في واجهات برمجة التطبيقات V1، FileDataset كان لديك محرك مقترن يمكنه أخذ عينة ملف من مجلد. في واجهات برمجة التطبيقات V2، يعد المجلد تعيينا بسيطا لنظام الملفات الهدف للحساب.
جدول
الرجوع إلى جدول بيانات
mltable TabularDataset لديك مخطط معقد يخضع للتغييرات المتكررة، أو تحتاج إلى مجموعة فرعية من البيانات الجدولية الكبيرة.

AutoML مع الجداول.
في واجهات برمجة التطبيقات V1، خزنت واجهة Azure التعلم الآلي الخلفية مخطط تجسيد البيانات. ونتيجة لذلك، TabularDataset عملت فقط إذا كان لديك مساحة عمل Azure التعلم الآلي. mltable يخزن مخطط تجسيد البيانات في التخزين الخاص بك . يعني موقع التخزين هذا أنه يمكنك استخدامه غير متصل ب Azure التعلم الآلي - على سبيل المثال، محليا ومحليا. في واجهات برمجة التطبيقات V2، من الأسهل الانتقال من الوظائف المحلية إلى الوظائف البعيدة. لمزيد من المعلومات، تفضل بزيارة استخدام الجداول في Azure التعلم الآلي.

URI

يمثل معرف الموارد الموحد (URI) موقع تخزين على الكمبيوتر المحلي أو تخزين Azure أو موقع http(s) متوفر للجمهور. تظهر هذه الأمثلة معرفات URI لخيارات التخزين المختلفة:

موقع التخزين أمثلة URI
Azure التعلم الآلي Datastore azureml://datastores/<data_store_name>/paths/<folder1>/<folder2>/<folder3>/<file>.parquet
الكمبيوتر المحلي ./home/username/data/my_data
خادم (خوادم) http العامة https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/titanic.csv
مساحة تخزين Blob wasbs://<containername>@<accountname>.blob.core.windows.net/<folder>/
Azure Data Lake (gen2) abfss://<file_system>@<account_name>.dfs.core.windows.net/<folder>/<file>.csv
Azure Data Lake (gen1) adl://<accountname>.azuredatalakestore.net/<folder1>/<folder2>

تقوم وظيفة Azure التعلم الآلي بتعيين عناوين URL إلى نظام ملفات هدف الحساب. يعني هذا التعيين أنه بالنسبة لأمر يستهلك URI أو ينتجه، يعمل URI مثل ملف أو مجلد. يستخدم URI المصادقة المستندة إلى الهوية للاتصال بخدمات التخزين، إما مع معرف Microsoft Entra (افتراضي) أو الهوية المدارة. يمكن ل Azure التعلم الآلي Datastore URIs تطبيق المصادقة المستندة إلى الهوية، أو المصادقة المستندة إلى بيانات الاعتماد (على سبيل المثال، كيان الخدمة، رمز SAS المميز، مفتاح الحساب)، دون الكشف عن الأسرار.

يمكن أن يكون URI بمثابة إدخال أو إخراج لمهمة Azure التعلم الآلي، ويمكن تعيينه إلى نظام ملفات هدف الحساب باستخدام أحد خيارات الوضع الأربعة المختلفة:

  • تحميل للقراءة فقط (ro_mount): يمثل URI موقع تخزين يتم تحميله إلى نظام الملفات الهدف للحساب. يدعم موقع البيانات المثبتة بشكل حصري الإخراج للقراءة فقط.
  • تحميل القراءة والكتابة (rw_mount): يمثل URI موقع تخزين يتم تحميله إلى نظام الملفات الهدف للحساب. يدعم موقع البيانات المثبتة كلا من إخراج القراءة منه والبيانات التي تكتب إليه.
  • التنزيل (download): يمثل URI موقع تخزين يحتوي على البيانات التي يتم تنزيلها إلى نظام الملفات الهدف للحساب.
  • تحميل (upload): يتم تحميل جميع البيانات المكتوبة إلى موقع هدف الحساب إلى موقع التخزين الذي يمثله URI.

بالإضافة إلى ذلك، يمكنك تمرير URI كسلسلة إدخال مهمة مع الوضع المباشر . يلخص هذا الجدول مجموعة الأوضاع المتوفرة للمدخلات والمخرجات:

مهمة
الإدخال أو الإخراج
upload download ro_mount rw_mount direct
إدخال
الناتج

لمزيد من المعلومات، تفضل بزيارة Access data في وظيفة.

إمكانية وقت تشغيل البيانات

يستخدم Azure التعلم الآلي وقت تشغيل البيانات الخاص به لأحد الأغراض الثلاثة:

  • للتركيبات/التحميلات/التنزيلات
  • لتعيين معرفات URI للتخزين إلى نظام الملفات الهدف للحساب
  • لتجسيد البيانات الجدولية في pandas/spark باستخدام جداول Azure التعلم الآلي (mltable)

تم تصميم وقت تشغيل بيانات Azure التعلم الآلي لسرعة عالية وكفاءة عالية لمهام التعلم الآلي. وتقدم هذه المزايا الرئيسية:

  • بنية لغة Rust . تعرف لغة Rust بالسرعة العالية والكفاءة العالية للذاكرة.
  • خفيف الوزن؛ لا يحتوي وقت تشغيل بيانات Azure التعلم الآلي على أي تبعيات على تقنيات أخرى - JVM، على سبيل المثال - لذلك يتم تثبيت وقت التشغيل بسرعة على أهداف الحساب.
  • تحميل بيانات متعددة العمليات (متوازية).
  • تعمل عمليات إحضار البيانات مسبقا كمهمة خلفية على وحدة (وحدات المعالجة المركزية)، لتعزيز استخدام وحدة (وحدات) GPU في عمليات التعلم العميق.
  • مصادقة سلسة للتخزين السحابي.

أصل البيانات

يشبه أصل بيانات Azure التعلم الآلي الإشارات المرجعية لمستعرض الويب (المفضلة). بدلا من تذكر مسارات التخزين الطويلة (URIs) التي تشير إلى البيانات الأكثر استخداما، يمكنك إنشاء أصل بيانات، ثم الوصول إلى هذا الأصل باسم مألوف.

ينشئ إنشاء أصول البيانات أيضا مرجعا إلى موقع مصدر البيانات، جنبا إلى جنب مع نسخة من بيانات التعريف الخاصة به. نظرا لأن البيانات تظل في موقعها الحالي، فلن تتحمل أي تكلفة تخزين إضافية، ولا تخاطر بسلامة مصدر البيانات. يمكنك إنشاء أصول البيانات من مخازن بيانات Azure التعلم الآلي أو تخزين Azure أو عناوين URL العامة أو الملفات المحلية.

لمزيد من المعلومات حول أصول البيانات، تفضل بزيارة إنشاء أصول البيانات.

الخطوات التالية