Membuat himpunan data

Selesai

Himpunan data adalah tampilan data bernama yang hanya menunjuk atau mereferensikan data yang ingin digunakan dalam aktivitas Anda sebagai input dan output. Himpunan data mengidentifikasi data dalam penyimpanan data yang berbeda, seperti tabel, file, folder, dan dokumen. Misalnya, himpunan data Azure Blob menentukan kontainer blob dan folder di penyimpanan Azure Blob tempat aktivitas harus membaca data.

Himpunan data di Data Factory dapat didefinisikan sebagai objek dalam Aktivitas Salin Data, sebagai objek terpisah, atau dalam format JSON untuk pembuatan terprogram sebagai berikut:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: AzureBlob, AzureSql etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema": [
            {
                "name": "<Name of the column>",
                "type": "<Name of the type>"
            }
        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Tabel berikut ini menjelaskan properti di JSON di atas:

Properti Deskripsi Wajib
nama Nama himpunan data. Ya
jenis Jenis himpunan data. Tentukan salah satu jenis yang didukung oleh Azure Data Factory (misalnya: AzureBlob, AzureSqlTable). Ya
Skema Skema himpunan data. Tidak
typeProperties Properti jenis berbeda untuk setiap jenis (misalnya: Azure Blob, tabel Azure SQL). Ya

Contoh himpunan data

Azure Blob

Dalam prosedur ini, buat dua himpunan data: InputDataset dan OutputDataset. Himpunan data ini berdasarkan jenis Biner. Himpunan data adalah layanan tertaut Azure Storage bernama AzureStorageLinkedService. HImpunan data input mewakili data sumber di folder input. Dalam definisi himpunan data input, tentukan kontainer blob (adftutorial), folder (input), dan file (emp.txt) yang berisi data sumber. Himpunan data output menunjukkan data yang disalin ke tujuan. Dalam definisi himpunan data output, tentukan kontainer blob (adftutorial), folder (output), dan file ke tempat data disalin.

  1. Di desktop Anda, buat folder bernama ADFv2QuickStartPSH di drive C.

  2. Buat file JSON bernama InputDataset.json dalam folder C:\ADFv2QuickStartPSH dengan konten berikut:

      {
          "name": "InputDataset",
          "properties": {
              "linkedServiceName": {
                  "referenceName": "AzureStorageLinkedService",
                  "type": "LinkedServiceReference"
              },
              "annotations": [],
              "type": "Binary",
              "typeProperties": {
                  "location": {
                      "type": "AzureBlobStorageLocation",
                      "fileName": "emp.txt",
                      "folderPath": "input",
                      "container": "adftutorial"
                  }
              }
          }
      }
    
      ```
    
    
  3. Untuk membuat himpunan data: InputDataset, jalankan cmdlet Set-AzDataFactoryV2Dataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "InputDataset" `
        -DefinitionFile ".\InputDataset.json"
    

    Berikut adalah output sampel:

    DatasetName       : InputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset
    
  4. Ulangi langkah-langkah untuk membuat himpunan data output. Buat file JSON bernama OutputDataset.json di folder C:\ADFv2QuickStartPSH dengan konten berikut:

    {
        "name": "OutputDataset",
        "properties": {
            "linkedServiceName": {
                "referenceName": "AzureStorageLinkedService",
                "type": "LinkedServiceReference"
            },
            "annotations": [],
            "type": "Binary",
            "typeProperties": {
                "location": {
                    "type": "AzureBlobStorageLocation",
                    "folderPath": "output",
                    "container": "adftutorial"
                }
            }
        }
    }
    
  5. Jalankan cmdlet Set-AzDataFactoryV2Dataset untuk membuat OutDataset.

    Set-AzDataFactoryV2Dataset -DataFactoryName $DataFactory.DataFactoryName `
        -ResourceGroupName $ResGrp.ResourceGroupName -Name "OutputDataset" `
        -DefinitionFile ".\OutputDataset.json"
    

    Berikut adalah output sampel:

    DatasetName       : OutputDataset
    ResourceGroupName : <resourceGroupname>
    DataFactoryName   : <dataFactoryName>
    Structure         :
    Properties        : Microsoft.Azure.Management.DataFactory.Models.BinaryDataset