إنشاء مجموعة بيانات

مكتمل

في التعلم الآلي بـ Azure، تعتبر متاجر البيانات بمثابة أفكار تجريدية لمصادر بيانات السحابة. يغلفون المعلومات المطلوبة للاتصال بمصادر البيانات، ويخزنون معلومات الاتصال هذه بشكل آمن بحيث لا تضطر إلى ترميزها في البرامج النصية الخاصة بك.

فوائد استخدام مخازن البيانات هي:

  • يوفر معرفات URI سهلة الاستخدام لتخزين البيانات.
  • يسهل اكتشاف البيانات داخل Azure التعلم الآلي.
  • يخزن معلومات الاتصال بأمان، دون الكشف عن الأسرار والمفاتيح لعلماء البيانات.

عند إنشاء مخزن بيانات باستخدام حساب تخزين موجود على Azure، يكون لديك الخيار بين طريقتين مختلفتين للمصادقة:

رسم تخطيطي لأسلوبي مصادقة مختلفين يستخدمهما Azure التعلم الآلي مخازن البيانات للاتصال بمصادر البيانات الخارجية.

  • مستند إلى بيانات الاعتماد: استخدم كيان الخدمة أو رمز توقيع الوصول المشترك (SAS) أو مفتاح الحساب لمصادقة الوصول إلى حساب التخزين الخاص بك.
  • مستند إلى الهوية: استخدم هوية Microsoft Entra أو الهوية المدارة.

فهم أنواع مخازن البيانات

يدعم التعلم الآلي بـ Azure إنشاء متاجر البيانات لمختلف أنواع مصدر بيانات Azure، بما في ذلك:

  • Azure Blob Storage
  • مشاركة ملف Azure
  • Azure Data Lake (الجيل 2)

استخدام مخازن البيانات المضمنة

تحتوي كل مساحة عمل على أربعة مخازن بيانات مضمنة (اثنتان تتصلان بحاويات كائن ثنائي كبير الحجم ل Azure Storage، واثنين يتصلان بمشاركات ملفات Azure Storage)، والتي تستخدم كمخازن للنظام بواسطة Azure التعلم الآلي.

في معظم مشاريع التعلم الآلي، تحتاج إلى العمل مع مصادر البيانات الخاصة بك. على سبيل المثال، يمكنك دمج حل التعلم الآلي الخاص بك مع البيانات من التطبيقات الموجودة أو مسارات هندسة البيانات.

إنشاء مجموعة بيانات

يتم إرفاق مخازن البيانات بمساحات العمل وتستخدم لتخزين معلومات الاتصال بخدمات التخزين. عند إنشاء مخزن بيانات، يمكنك توفير اسم يمكن استخدامه لاسترداد معلومات الاتصال.

تسمح لك مخازن البيانات بالاتصال بسهولة بخدمات التخزين دون الحاجة إلى توفير جميع التفاصيل الضرورية في كل مرة تريد فيها قراءة البيانات أو كتابتها. كما أنه ينشئ طبقة واقية إذا كنت تريد أن يستخدم المستخدمون البيانات، ولكن لا تتصل بخدمة التخزين الأساسية مباشرة.

إنشاء مخزن بيانات لحاوية Azure Blob Storage

يمكنك إنشاء مخزن بيانات من خلال واجهة المستخدم الرسومية أو واجهة سطر الأوامر Azure (CLI) أو مجموعة تطوير برامج Python (SDK).

اعتمادا على خدمة التخزين التي تريد الاتصال بها، هناك خيارات مختلفة ل Azure التعلم الآلي للمصادقة.

على سبيل المثال، عندما تريد إنشاء مخزن بيانات للاتصال بحاوية Azure Blob Storage، يمكنك استخدام مفتاح حساب:

blob_datastore = AzureBlobDatastore(
    			name = "blob_example",
    			description = "Datastore pointing to a blob container",
    			account_name = "mytestblobstore",
    			container_name = "data-container",
    			credentials = AccountKeyConfiguration(
        			account_key="XXXxxxXXXxXXXXxxXXX"
    			),
)
ml_client.create_or_update(blob_datastore)

بدلا من ذلك، يمكنك إنشاء مخزن بيانات للاتصال بحاوية Azure Blob Storage باستخدام رمز SAS المميز للمصادقة:

blob_datastore = AzureBlobDatastore(
name="blob_sas_example",
description="Datastore pointing to a blob container",
account_name="mytestblobstore",
container_name="data-container",
credentials=SasTokenConfiguration(
sas_token="?xx=XXXX-XX-XX&xx=xxxx&xxx=xxx&xx=xxxxxxxxxxx&xx=XXXX-XX-XXXXX:XX:XXX&xx=XXXX-XX-XXXXX:XX:XXX&xxx=xxxxx&xxx=XXxXXXxxxxxXXXXXXXxXxxxXXXXXxxXXXXXxXXXXxXXXxXXxXX"
),
)
ml_client.create_or_update(blob_datastore)