إنشاء datasets
مجموعة البيانات عبارة عن طريقة عرض مسمّاة للبيانات، وترجع ببساطة إلى البيانات التي تريد استخدامها في أنشطتك كإدخالات ونواتج أو تشير إليها. تعمل مجموعات البيانات على تعريف البيانات داخل مخازن بيانات مختلفة، مثل الجداول والملفات والمجلدات والمستندات. على سبيل المثال، تحدد مجموعة بيانات Azure Blob حاوية ومجلد الكائنات الثنائية كبيرة الحجم في مخزن Blob الذي يجب أن يقرأ منها النشاط البيانات.
يمكن تعريف مجموعة بيانات في Data Factory كعنصر داخل Copy Data Activity، أو كعنصر منفصل، أو بتنسيق JSON لإنشاء برمجي كما يلي:
{
"name": "<name of dataset>",
"properties": {
"type": "<type of dataset: AzureBlob, AzureSql etc...>",
"linkedServiceName": {
"referenceName": "<name of linked service>",
"type": "LinkedServiceReference",
},
"schema": [
{
"name": "<Name of the column>",
"type": "<Name of the type>"
}
],
"typeProperties": {
"<type specific property>": "<value>",
"<type specific property 2>": "<value 2>",
}
}
}
يصف الجدول التالي الخصائص في JSON أعلاه:
الخاصية | الوصف | مطلوب |
---|---|---|
الاسم | اسم مجموعة البيانات. | نعم |
النوع | نوع مجموعة البيانات. حدد أحد الأنواع التي يدعمها Data Factory (على سبيل المثال: AzureBlob، وAzureSqlTable). | نعم |
مخطط | مخطط مجموعة البيانات. | لا |
typeProperties | خصائص نوع مختلفة لكل نوع (على سبيل المثال: Azure Blob، وجدول SQL Azure). | نعم |
مثال على مجموعة بيانات
Azure Blob
ستقوم في هذا الإجراء بإنشاء مجموعتي بيانات: InputDataset وOutputDataset. مجموعات البيانات هذه من النوعBinary. وهي تشير إلى الخدمة المرتبطة في Azure Storage المسماة AzureStorageLinkedService. تمثل مجموعة البيانات المدخلة البيانات المصدر في مجلد الإدخال. وستقوم في تعريف مجموعة بيانات الإدخال بتحديد حاوية الكائن الثنائي كبير الحجم (adftutorial)، والمجلد (إدخال)، والملف (emp.txt) الذي يحتوي على بيانات المصدر. تمثل مجموعة بيانات الناتج البيانات التي يتم نسخها إلى الوجهة. وستقوم في تعريف مجموعة بيانات الإخراج بتحديد حاوية الكائن الثنائي كبير الحجم (adftutorial)، والمجلد (output)، والملف الذي تم نسخ البيانات إليه.
في سطح المكتب، بادر بإنشاء مجلد يسمى ADFv2QuickStartPSH في محرك الأقراص C.
إنشاء ملف JSON يسمى InputDataset.js في المجلد C:\ADFv2QuickStartPSH يضم المحتوى التالي:
{ "name": "InputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "fileName": "emp.txt", "folderPath": "input", "container": "adftutorial" } } } } ```
لإنشاء مجموعة البيانات: InputDataset، قم بتشغيل الأمرcmdlet Set-AzDataFactoryV2Dataset .
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" ` -DefinitionFile ".\InputDataset.json"
فيما يلي ناتج العينة:
DatasetName : InputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
كرر الخطوات لإنشاء مجموعة بيانات الناتج. قم بإنشاء ملف JSON باسم OutputDataset.json في المجلد C: \ ADFv2QuickStartPSH بالمحتوى التالي:
{ "name": "OutputDataset", "properties": { "linkedServiceName": { "referenceName": "AzureStorageLinkedService", "type": "LinkedServiceReference" }, "annotations": [], "type": "Binary", "typeProperties": { "location": { "type": "AzureBlobStorageLocation", "folderPath": "output", "container": "adftutorial" } } } }
قم بتشغيل الأمرcmdlet Set-AzDataFactoryV2Dataset لإنشاء OutDataset .
Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName ` -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" ` -DefinitionFile ".\OutputDataset.json"
فيما يلي ناتج العينة:
DatasetName : OutputDataset ResourceGroupName : <resourceGroupname> DataFactoryName : <dataFactoryName> Structure : Properties : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset