محرك الاستيعاب غير الظاهر للبيانات

مقالة
07/11/2023

توضح هذه المقالة كيف يمكنك تنفيذ سيناريوهات محرك الاستيعاب غير المحدد للبيانات باستخدام مجموعة من PowerApps وAzure Logic Apps ومهام النسخ المستندة إلى بيانات التعريف داخل Azure Data Factory.

عادة ما تركز سيناريوهات محرك الاستيعاب غير المحدد للبيانات على السماح للمستخدمين غير التقنيين (غير مهندسي البيانات) بنشر أصول البيانات إلى Data Lake لمزيد من المعالجة. لتنفيذ هذا السيناريو، يجب أن يكون لديك قدرات إعداد تمكن:

تسجيل أصول البيانات
توفير سير العمل والتقاط بيانات التعريف
جدولة الاستيعاب

يمكنك معرفة كيفية تفاعل هذه الإمكانات:

رسم تخطيطي لقدرات تسجيل البيانات والتفاعلات

الشكل 1: تفاعلات قدرات تسجيل البيانات.

يوضح الرسم التخطيطي التالي كيفية تنفيذ هذه العملية باستخدام مجموعة من خدمات Azure:

رسم تخطيطي لعملية استيعاب محرك غير محدد البيانات

الشكل 2: عملية الاستيعاب التلقائي.

تسجيل أصول البيانات

لتوفير بيانات التعريف المستخدمة لدفع الاستيعاب التلقائي، تحتاج إلى تسجيل أصول البيانات. تحتوي المعلومات التي تلتقطها على:

المعلومات التقنية: اسم أصل البيانات ونظام المصدر والنوع والتنسيق والتكرار.
معلومات الحوكمة: المالك والإشراف والرؤية (لأغراض الاكتشاف) والحساسية.

يستخدم PowerApps لالتقاط بيانات التعريف التي تصف كل أصل بيانات. استخدم تطبيقا يستند إلى النموذج لإدخال المعلومات التي يتم الاحتفاظ بها في جدول Dataverse مخصص. عند إنشاء بيانات التعريف أو تحديثها داخل Dataverse، فإنها تؤدي إلى تدفق السحابة التلقائية الذي يستدعي خطوات المعالجة الإضافية.

رسم تخطيطي لتسجيل أصل البيانات.

الشكل 3: تسجيل أصول البيانات.

توفير سير العمل / التقاط بيانات التعريف

في مرحلة سير عمل التوفير، يمكنك التحقق من صحة البيانات التي تم جمعها في مرحلة التسجيل إلى metastore واستمرارها. يتم تنفيذ كل من خطوات التحقق من الصحة التقنية والأعمال، بما في ذلك:

التحقق من صحة موجز بيانات الإدخال
تشغيل سير عمل الموافقة
معالجة المنطق لتشغيل استمرار بيانات التعريف في مخزن بيانات التعريف
تدقيق النشاط

رسم تخطيطي لسير عمل التسجيل

الشكل 4: سير عمل التسجيل.

بمجرد الموافقة على طلبات الاستيعاب، يستخدم سير العمل Azure Purview REST API لإدراج المصادر في Azure Purview.

سير عمل مفصل لإلحاق منتجات البيانات

رسم تخطيطي يوضح كيفية استيعاب مجموعات البيانات الجديدة (تلقائيا)

الشكل 5: كيفية استيعاب مجموعات البيانات الجديدة (تلقائية).

يوضح الشكل 5 عملية التسجيل التفصيلية لأتمتة استيعاب مصادر البيانات الجديدة:

يتم تسجيل تفاصيل المصدر، بما في ذلك بيئات الإنتاج ومصانع البيانات.
يتم التقاط قيود شكل البيانات وتنسيقها وجودتها.
يجب أن تشير فرق تطبيقات البيانات إلى ما إذا كانت البيانات حساسة (البيانات الشخصية) يدفع هذا التصنيف العملية التي يتم خلالها إنشاء مجلدات مستودع البيانات لاستيعاب البيانات الأولية والمثرية والمنسقة. أسماء المصدر للبيانات الأولية والمثرية والبيانات المنسقة لأسماء منتجات البيانات.
يتم إنشاء كيان الخدمة ومجموعات الأمان لاستيعاب مجموعة بيانات ومنحها حق الوصول إليها.
يتم إنشاء مهمة استيعاب في منطقة البيانات المنتقل إليها Data Factory metastore.
تدرج واجهة برمجة التطبيقات تعريف البيانات في Azure Purview.
رهنا بالتحقق من صحة مصدر البيانات والموافقة عليه من قبل فريق العمليات، يتم نشر التفاصيل إلى مخزن بيانات Data Factory metastore.

جدولة الاستيعاب

داخل Azure Data Factory، توفر مهام النسخ المستندة إلى بيانات التعريف وظائف تمكن مسارات التنسيق من أن تكون مدفوعة بصفوف داخل جدول التحكم المخزن في قاعدة بيانات Azure SQL. يمكنك استخدام أداة نسخ البيانات لإنشاء مسارات تستند إلى بيانات التعريف مسبقا.

بمجرد إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية، يضيف سير عمل التوفير إدخالات إلى جدول التحكم لدعم الاستيعاب من المصادر المحددة بواسطة بيانات تعريف تسجيل أصول البيانات. يمكن أن توجد مسارات Azure Data Factory وقاعدة بيانات Azure SQL التي تحتوي على مخزن بيانات جدول التحكم داخل كل منطقة هبوط بيانات لإنشاء مصادر بيانات جديدة واستيعابها في مناطق البيانات المنتقل إليها.

رسم تخطيطي لجدولة استيعاب أصول البيانات

الشكل 6: جدولة استيعاب أصول البيانات.

سير عمل مفصل لاستيعاب مصادر البيانات الجديدة

يوضح الرسم التخطيطي التالي كيفية سحب مصادر البيانات المسجلة في مخزن بيانات Data Factory SQL Database وكيفية استيعاب البيانات أولا:

رسم تخطيطي لكيفية استيعاب مصادر البيانات الجديدة

تقرأ البنية الأساسية لبرنامج ربط العمليات التجارية الرئيسية لاستيعاب Data Factory التكوينات من مخزن بيانات Data Factory SQL Database، ثم يتم تشغيلها بشكل متكرر مع المعلمات الصحيحة. تنتقل البيانات من المصدر إلى الطبقة الأولية في Azure Data Lake مع القليل من التغيير أو عدم تغييره. يتم التحقق من صحة شكل البيانات استنادا إلى مخزن البيانات Metastore الخاص بك. يتم تحويل تنسيقات الملفات إلى تنسيقات Apache Parquet أو Avro، ثم يتم نسخها إلى الطبقة التي تم إثراؤها.

تتصل البيانات التي يتم استيعابها بعلوم بيانات Azure Databricks ومساحة عمل هندسية، ويتم إنشاء تعريف بيانات داخل منطقة البيانات المنتقل إليها Apache Hive metastore.

إذا كنت بحاجة إلى استخدام تجمع SQL بلا خادم Azure Synapse لعرض البيانات، يجب أن ينشئ الحل المخصص طرق عرض على البيانات في المستودع.

إذا كنت تحتاج إلى تشفير على مستوى الصف أو مستوى العمود، يجب أن يهبط الحل المخصص الخاص بك البيانات في مستودع البيانات الخاص بك، ثم استيعاب البيانات مباشرة في الجداول الداخلية في تجمعات SQL وإعداد الأمان المناسب على حساب تجمعات SQL.

بيانات التعريف الملتقطة

عند استخدام استيعاب البيانات التلقائي، يمكنك الاستعلام عن بيانات التعريف المقترنة وإنشاء لوحات معلومات من أجل:

تعقب الوظائف وأحدث الطوابع الزمنية لتحميل البيانات لمنتجات البيانات المتعلقة بوظائفها.
تعقب منتجات البيانات المتوفرة.
زيادة وحدات تخزين البيانات.
احصل على تحديثات في الوقت الحقيقي حول حالات فشل الوظيفة.

يمكن استخدام بيانات التعريف التشغيلية لتعقب:

الوظائف وخطوات الوظيفة وتبعياتها.
أداء الوظيفة ومحفوظات الأداء.
نمو حجم البيانات.
حالات فشل الوظيفة.
تغييرات بيانات التعريف المصدر.
وظائف الأعمال التي تعتمد على منتجات البيانات.

استخدام Azure Purview REST API لاكتشاف البيانات

يجب استخدام واجهات برمجة تطبيقات AZURE Purview REST لتسجيل البيانات أثناء الاستيعاب الأولي. يمكنك استخدام واجهات برمجة التطبيقات لإرسال البيانات إلى كتالوج البيانات بعد استيعابها مباشرة.

لمزيد من المعلومات، راجع كيفية استخدام واجهات برمجة تطبيقات AZURE Purview REST.

تسجيل مصادر البيانات

استخدم استدعاء واجهة برمجة التطبيقات التالي لتسجيل مصادر بيانات جديدة:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}

معلمات URI لمصدر البيانات:

الاسم	مطلوب	النوع	الوصف
`accountName`	صواب	سلسلة	اسم حساب Azure Purview
`dataSourceName`	صواب	سلسلة	اسم مصدر البيانات

استخدام Azure Purview REST API للتسجيل

توضح الأمثلة التالية كيفية استخدام Azure Purview REST API لتسجيل مصادر البيانات مع الحمولات:

تسجيل مصدر بيانات Azure Data Lake Storage Gen2:

{
  "kind":"AdlsGen2",
  "name":"<source-name> (for example, My-AzureDataLakeStorage)",
  "properties":{
    "endpoint":"<endpoint> (for example, https://adls-account.dfs.core.windows.net/)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

تسجيل مصدر بيانات قاعدة بيانات SQL:

{
  "kind":"<source-kind> (for example, AdlsGen2)",
  "name":"<source-name> (for example, My-AzureSQLDatabase)",
  "properties":{
    "serverEndpoint":"<server-endpoint> (for example, sqlservername.database.windows.net)",
    "subscriptionId":"<azure-subscription-guid>",
    "resourceGroup":"<resource-group>",
    "location":"<region>",
    "parentCollection":{
      "type":"DataSourceReference",
      "referenceName":"<collection-name>"
    }
  }
}

ملاحظة

<collection-name>هي مجموعة حالية موجودة في حساب Azure Purview.

إنشاء فحص

تعرف على كيفية إنشاء بيانات اعتماد لمصادقة المصادر في Azure Purview قبل إعداد فحص وتشغيله.

استخدم استدعاء واجهة برمجة التطبيقات التالي لفحص مصادر البيانات:

PUT https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/

معلمات URI للمسح الضوئي:

الاسم	مطلوب	النوع	الوصف
`accountName`	صواب	سلسلة	اسم حساب Azure Purview
`dataSourceName`	صواب	سلسلة	اسم مصدر البيانات
`newScanName`	صواب	سلسلة	اسم الفحص الجديد

استخدام Azure Purview REST API للمسح الضوئي

توضح الأمثلة التالية كيف يمكنك استخدام Azure Purview REST API لفحص مصادر البيانات باستخدام الحمولات:

فحص مصدر بيانات Azure Data Lake Storage Gen2:

{
  "name":"<scan-name>",
  "kind":"AdlsGen2Msi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AdlsGen2"
  }
}

مسح مصدر بيانات قاعدة بيانات SQL ضوئيا:

{
  "name":"<scan-name>",
  "kind":"AzureSqlDatabaseMsi",
  "properties":
  {
    "scanRulesetType":"System",
    "scanRulesetName":"AzureSqlDatabase",
    "databaseName": "<database-name>",
    "serverEndpoint": "<server-endpoint> (for example, sqlservername.database.windows.net)"
  }
}

استخدم استدعاء واجهة برمجة التطبيقات التالي لفحص مصادر البيانات:

POST https://{accountName}.scan.purview.azure.com/datasources/{dataSourceName}/scans/{newScanName}/run

الخطوات التالية

نظرة عامة على Azure Data Lake Storage للتحليات على نطاق السحابة

مشاركة عبر