نسخ البيانات من جدول الويب باستخدام Azure Data Factory أو Synapse Analytics
ينطبق على: Azure Data Factory Azure Synapse Analytics
تلميح
جرب Data Factory في Microsoft Fabric، وهو حل تحليلي متكامل للمؤسسات. يغطي Microsoft Fabric كل شيء بدءا من حركة البيانات إلى علم البيانات والتحليلات في الوقت الحقيقي والمعلومات المهنية وإعداد التقارير. تعرف على كيفية بدء إصدار تجريبي جديد مجانا!
توضح هذه المقالة كيفية استخدام نسخ النشاط في Azure Data Factory أو البنية الأساسية لبرنامج ربط العمليات التجارية في Synapse Analytics لنسخ البيانات من قاعدة بيانات جدول الويب. تعتمد هذه المقالة على مقالة نظرة عامة على نشاط النسخ التي تقدم نظرة عامة على نشاط النسخ.
الفرق بين موصل جدول الويب وموصل REST وموصل HTTP هو:
- موصل جدول ويب يستخرج محتوى جدول من صفحة ويب HTML.
- موصل REST يدعم بشكل خاص نسخ البيانات من واجهات برمجة التطبيقات RESTful.
- موصل HTTP عام لاسترداد البيانات من أي نقطة نهاية HTTP، على سبيل المثال لتحميل الملف.
القدرات المدعومة
موصل جدول الويب هذا مدعوم للقدرات التالية:
القدرات المدعومة | IR |
---|---|
نشاط النسخ (مصدر/-) | ② |
نشاط البحث | ② |
① وقت تشغيل تكامل Azure ② وقت تشغيل التكامل المستضاف ذاتيًا
للحصول على قائمة مخازن البيانات المعتمدة كمصادر ومواضع تلقي، راجع جدول مخازن البيانات المعتمدة.
على وجه التحديد، يدعم موصل جدول الويب هذا استخراج محتوى الجدول من صفحة HTML.
المتطلبات الأساسية
لاستخدام موصل جدول الويب هذا، تحتاج إلى إعداد وقت تشغيل تكامل مستضاف ذاتيًا. راجع مقالة وقت تشغيل التكامل المستضاف ذاتياً للحصول على التفاصيل.
الشروع في العمل
لتنفيذ نشاط النسخ باستخدام أحد المسارات، يمكنك استخدام إحدى الأدوات أو عدد تطوير البرامج التالية:
- أداة نسخ البيانات
- مدخل Azure
- The .NET SDK
- عدة تطوير برامج Python
- Azure PowerShell
- واجهة برمجة تطبيقات REST
- قالب Azure Resource Manager
إنشاء خدمة مرتبطة بجدول الويب باستخدام واجهة المستخدم
استخدم الخطوات التالية لإنشاء خدمة مرتبطة بجدول ويب في واجهة مستخدم مدخل Azure.
استعرض للوصول إلى علامة التبويب "Manage" في مصنع بيانات Azure أو مساحة عمل Synapse، وحدد "Linked Services"، ثم انقر فوق "New":
ابحث عن الويب وحدد موصل جدول الويب.
قم بتكوين تفاصيل الخدمة، واختبر الاتصال، وأنشئ الخدمة المرتبطة الجديدة.
تفاصيل تكوين الموصل
توفر الأقسام التالية تفاصيل حول الخصائص المستخدمة لتعريف كيانات Data Factory الخاصة بموصل جدول الويب.
خصائص الخدمة المرتبطة
الخصائص التالية مدعومة للخدمة المرتبطة بجدول ويب:
الخاصية | الوصف | مطلوب |
---|---|---|
النوع | يجب تعيين خاصية النوع إلى: Web | نعم |
عنوان URL | عنوان URL لمصدر الويب | نعم |
نوع المصادقة | القيمة المسموح بها هي: Anonymous. | نعم |
connectVia | Integration Runtime الذي سيتم استخدامه للاتصال بمخزن البيانات. وقت تشغيل التكامل المستضاف ذاتيًا مطلوب كما هو مذكور في المتطلبات الأساسية. | نعم |
مثال:
{
"name": "WebLinkedService",
"properties": {
"type": "Web",
"typeProperties": {
"url" : "https://en.wikipedia.org/wiki/",
"authenticationType": "Anonymous"
},
"connectVia": {
"referenceName": "<name of Integration Runtime>",
"type": "IntegrationRuntimeReference"
}
}
}
خصائص مجموعة البيانات
للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف مجموعات البيانات، راجع مقالة مجموعات البيانات. يوفر هذا القسم قائمة بالخصائص التي تدعمها مجموعة بيانات جدول الويب.
لنسخ البيانات من جدول ويب، قم بتعيين خاصية النوع لمجموعة البيانات إلى WebTable. تدعم الخصائص التالية:
الخاصية | الوصف | مطلوب |
---|---|---|
النوع | يجب تعيين خاصية النوع لمجموعة البيانات على: WebTable | نعم |
path | عنوان URL نسبي للمورد الذي يحتوي على الجدول. | لا. عندما لا يتم تحديد المسار، يتم استخدام عنوان URL المحدد في تعريف الخدمة المرتبطة فقط. |
الفهرس | فهرس الجدول في المورد. راجع الحصول على فهرس لجدول في مقطع صفحة HTML للحصول على خطوات الحصول على فهرس لجدول في صفحة HTML. | نعم |
مثال:
{
"name": "WebTableInput",
"properties": {
"type": "WebTable",
"typeProperties": {
"index": 1,
"path": "AFI's_100_Years...100_Movies"
},
"schema": [],
"linkedServiceName": {
"referenceName": "<Web linked service name>",
"type": "LinkedServiceReference"
}
}
}
انسخ خصائص النشاط
للحصول على قائمة كاملة بالأقسام والخصائص المتوفرة لتعريف الأنشطة، راجع مقالة التدفقات. يوفر هذا القسم قائمة بالخصائص التي يدعمها مصدر جدول الويب.
جدول الويب كمصدر
لنسخ البيانات من جدول الويب، قم بتعيين نوع المصدر في نشاط النسخ إلى WebSource، ولا يتم دعم أي خصائص إضافية.
مثال:
"activities":[
{
"name": "CopyFromWebTable",
"type": "Copy",
"inputs": [
{
"referenceName": "<Web table input dataset name>",
"type": "DatasetReference"
}
],
"outputs": [
{
"referenceName": "<output dataset name>",
"type": "DatasetReference"
}
],
"typeProperties": {
"source": {
"type": "WebSource"
},
"sink": {
"type": "<sink type>"
}
}
}
]
احصل على فهرس جدول في صفحة HTML
للحصول على فهرس الجدول الذي تحتاج إلى تكوينه في خصائص مجموعة البيانات، يمكنك استخدام على سبيل المثال Excel 2016 كأداة على النحو التالي:
قم بتشغيل Excel 2016 والتبديل إلى علامة التبويب Data.
انقر فوق New Query على شريط الأدوات، ثم أشر إلى From Other Sources وانقر فوق From Web.
في مربع الحوار من Web ، أدخل URL الذي ستستخدمه في الخدمة المرتبطة JSON (على سبيل المثال: https://en.wikipedia.org/wiki/) جنبًا إلى جنب مع المسار الذي ستحدده لمجموعة البيانات (على سبيل المثال: AFI% 27s _ 100 _ Years... 100 _ Movies)، وانقر OK .
عنوان URL المستخدم في هذا المثال: https://en.wikipedia.org/wiki/AFI%27s_100_Years...100_Movies
إذا رأيت مربع الحوار Access Web content، فحدد URL الصحيح، authentication، وانقر فوق Connect.
انقر فوق عنصر table في طريقة عرض الشجرة لعرض المحتوى من الجدول ثم انقر فوق زر Edit في الأسفل.
في نافذة Query Editor، انقر فوق زر Advanced Editor على شريط الأدوات.
في مربع الحوار "Advanced Editor"، يكون الرقم المجاور لـ "Source" هو الفهرس.
إذا كنت تستخدم Excel 2013، فاستخدم Microsoft Power Query for Excel للحصول على الفهرس. راجع مقالة الاتصال بصفحة ويب للحصول على التفاصيل. الخطوات متشابهة إذا كنت تستخدم Microsoft Power BI لسطح المكتب.
بحث عن خصائص النشاط
لمعرفة تفاصيل حول الخصائص، تحقق من نشاط البحث.
المحتوى ذو الصلة
للحصول على قائمة بمخازن البيانات المدعومة من نشاط النسخ كمصادر ومواضع تلقي، راجع مخازن البيانات المدعومة.