Himpunan data di Azure Data Factory dan Azure Synapse Analytics

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Artikel ini menjelaskan apa itu himpunan data, bagaimana mereka didefinisikan dalam format JSON, dan bagaimana mereka digunakan di Azure Data Factory dan alur Synapse.

Jika Anda belum pernah menggunakan Azure Data Factory, lihat Pengantar Azure Data Factory untuk mengetahui gambaran umumnya. Untuk informasi selengkapnya tentang Azure Synapse, lihat Apa itu Azure Synapse

Gambaran Umum

Data Factory atau ruang kerja Synapse dapat memiliki satu alur atau lebih. Alur adalah pengelompokan logis aktivitas yang melakukan tugas bersama-sama. Aktivitas di dalam alur menentukan tindakan yang harus dilakukan pada data Anda. Sekarang, himpunan data adalah tampilan data bernama yang hanya menunjuk atau mereferensikan data yang ingin Anda gunakan dalam aktivitas Anda sebagai input dan output. Himpunan data mengidentifikasi data dalam penyimpanan data yang berbeda, seperti tabel, file, folder, dan dokumen. Misalnya, himpunan data Azure Blob menentukan kontainer blob dan folder di Blob Storage dari mana aktivitas harus membaca data.

Sebelum membuat himpunan data, Anda harus membuat layanan tertaut untuk menautkan penyimpanan data Anda ke layanan. Layanan tertaut sangat mirip dengan string koneksi, yang menentukan informasi koneksi yang diperlukan agar layanan terhubung ke sumber daya eksternal. Pikirkan cara ini; himpunan data mewakili struktur data dalam penyimpanan data tertaut, dan layanan tertaut menentukan koneksi ke sumber data. Misalnya, layanan tertaut Azure Storage menautkan akun penyimpanan. Himpunan data Azure Blob mencerminkan kontainer blob dan folder dalam akun Microsoft Azure Storage tersebut yang berisi blob input yang akan diproses.

Berikut adalah sampel skenario. Untuk menyalin data dari penyimpanan Blob ke SQL Database, Anda membuat dua layanan tertaut: Azure Blob Storage dan Azure SQL Database. Kemudian, buat dua himpunan data: Himpunan data Teks Berbatas (yang mengacu pada layanan tertaut Azure Blob Storage, dengan asumsi Anda memiliki file teks sebagai sumber) dan himpunan data Azure SQL Table (yang mengacu pada layanan tertaut Azure SQL Database). Layanan tertaut Azure Blob Storage dan Azure SQL Database berisi string koneksi yang digunakan layanan saat runtime untuk terhubung ke Azure Storage dan Azure SQL Database Anda. Himpunan Data Teks Berbatas menentukan kontainer blob dan folder blob yang berisi blob input di Blob Storage Anda, bersama dengan pengaturan terkait format. Himpunan data Azure SQL Table menentukan tabel SQL dalam SQL Database Anda tempat data akan disalin.

Diagram berikut menunjukkan hubungan antara alur, aktivitas, himpunan data, dan layanan tertaut:

Relationship between pipeline, activity, dataset, linked services

Membuat himpunan data dengan antarmuka pengguna

Untuk membuat himpunan data dengan Azure Data Factory Studio, pilih tab Pembuat (dengan ikon pensil), lalu ikon tanda plus, untuk memilih Himpunan Data.

Shows the Author tab of the Azure Data Factory Studio with the new dataset button selected.

Anda akan melihat jendela himpunan data baru untuk memilih salah satu konektor yang tersedia di Azure Data Factory, untuk menyiapkan layanan tertaut yang sudah ada atau baru.

Shows the new dataset window where you can choose the type of linked service to any of the supported data factory connectors.

Selanjutnya Anda akan diminta untuk memilih format himpunan data.

Shows the dataset format window allowing you to choose a format for the new dataset.

Terakhir, Anda dapat memilih layanan tertaut yang sudah ada dari jenis yang Anda pilih untuk himpunan data, atau membuat yang baru jika belum ditentukan.

Shows the set properties window where you can choose an existing dataset of the type selected previously, or create a new one.

Setelah Anda membuat himpunan data, Anda dapat menggunakannya dalam alur apa pun di Azure Data Factory.

Himpunan data JSON

Himpunan data di Data Factory didefinisikan dalam format JSON sebagai berikut:

{
    "name": "<name of dataset>",
    "properties": {
        "type": "<type of dataset: DelimitedText, AzureSqlTable etc...>",
        "linkedServiceName": {
                "referenceName": "<name of linked service>",
                "type": "LinkedServiceReference",
        },
        "schema":[

        ],
        "typeProperties": {
            "<type specific property>": "<value>",
            "<type specific property 2>": "<value 2>",
        }
    }
}

Tabel berikut ini menjelaskan properti di JSON di atas:

Properti Deskripsi Wajib
nama Nama himpunan data. Lihat Aturan penamaan. Ya
jenis Jenis himpunan data. Menentukan salah satu jenis yang didukung oleh Azure Data Factory (misalnya: DelimitedText, AzureSqlTable).

Untuk detailnya, lihat Jenis himpunan data.
Ya
skema Skema himpunan data, mewakili jenis dan bentuk data fisik. Tidak
typeProperties Properti type berbeda untuk setiap jenis. Untuk detail tentang jenis yang didukung dan propertinya, lihat Jenis himpunan data. Ya

Saat Anda mengimpor skema himpunan data, pilih tombol Impor Skema dan pilih untuk mengimpor dari sumber atau dari file lokal. Dalam kebanyakan kasus, Anda akan mengimpor skema langsung dari sumbernya. Tetapi jika Anda sudah memiliki file skema lokal (file Parket atau CSV dengan header), Anda dapat mengarahkan layanan untuk mendasarkan skema pada file tersebut.

Dalam aktivitas salin, himpunan data digunakan dalam sumber dan sink. Skema yang ditentukan dalam himpunan data bersifat opsional sebagai referensi. Jika Anda ingin menerapkan pemetaan kolom/bidang antara sumber dan sink, lihat Pemetaan skema dan jenis.

Di Aliran Data, himpunan data digunakan dalam transformasi sumber dan sink. Himpunan data menentukan skema data dasar. Jika data Anda tidak memiliki skema, Anda dapat menggunakan peralihan skema untuk sumber dan sink Anda. Metadata dari himpunan data muncul dalam transformasi sumber Anda sebagai proyeksi sumber. Proyeksi dalam transformasi sumber mewakili data Aliran Data dengan nama dan tipe yang ditentukan.

Jenis himpunan data

Layanan ini mendukung berbagai jenis himpunan data, tergantung pada penyimpanan data yang Anda gunakan. Anda dapat menemukan daftar penyimpanan data yang didukung oleh Azure Data Factory dari artikel gambaran umum konektor. Pilih penyimpanan data untuk mempelajari cara membuat layanan tertaut dan himpunan data untuknya.

Misalnya, untuk himpunan data Teks Berbatas, jenis himpunan data diatur ke DelimitedText seperti yang diperlihatkan dalam sampel JSON berikut:

{
    "name": "DelimitedTextInput",
    "properties": {
        "linkedServiceName": {
            "referenceName": "AzureBlobStorage",
            "type": "LinkedServiceReference"
        },
        "annotations": [],
        "type": "DelimitedText",
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "fileName": "input.log",
                "folderPath": "inputdata",
                "container": "adfgetstarted"
            },
            "columnDelimiter": ",",
            "escapeChar": "\\",
            "quoteChar": "\""
        },
        "schema": []
    }
}

Membuat himpunan data

Anda dapat membuat himpunan data dengan menggunakan salah satu alat atau SDK ini: .NET API, PowerShell, REST API, Templat Azure Resource Manager, dan portal Microsoft Azure

Himpunan data versi saat ini vs. versi 1

Berikut adalah beberapa perbedaan antara himpunan data dalam versi Data Factory saat ini (dan Azure Synapse), dan Pabrik Data warisan versi 1:

  • Properti eksternal tidak didukung dalam versi saat ini. Ini digantikan oleh pemicu.
  • Properti kebijakan dan ketersediaan tidak didukung dalam versi saat ini. Waktu mulai untuk alur tergantung pada pemicu.
  • Himpunan data tercakup (himpunan data yang ditentukan dalam alur) tidak didukung dalam versi saat ini.

Lihat tutorial berikut untuk instruksi langkah demi langkah untuk membuat alur dan himpunan data menggunakan salah satu alat atau SDK ini.