Bagikan melalui


Format biner di Azure Data Factory dan Synapse Analytics

Azure Data Factory Azure Synapse Analytics

Petunjuk

Data Factory di Microsoft Fabric adalah generasi Azure Data Factory berikutnya, dengan arsitektur yang lebih sederhana, AI bawaan, dan fitur baru. Jika Anda baru menggunakan integrasi data, mulailah dengan Fabric Data Factory. Beban kerja ADF yang ada dapat ditingkatkan ke Fabric untuk mengakses kemampuan baru di seluruh ilmu data, analitik real time, dan pelaporan.

Format biner didukung untuk konektor berikut: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage, dan SFTP.

Anda dapat menggunakan himpunan data Biner di aktivitas Copy activity, GetMetadata, atau aktivitas Delete. Saat menggunakan himpunan data Biner, layanan tidak mengurai konten file tetapi memperlakukannya as-is.

Catatan

Saat menggunakan himpunan data Biner dalam aktivitas salin, Anda hanya dapat menyalin dari himpunan data Biner ke himpunan data Biner.

Properti kumpulan data

Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan himpunan data, lihat artikel Himpunan Data. Bagian ini menyediakan daftar properti yang didukung oleh himpunan data Biner.

Properti Deskripsi Diperlukan
jenis Properti jenis himpunan data harus diatur ke Biner. Yes
lokasi Pengaturan lokasi file. Tiap konektor berbasis file memiliki jenis lokasinya sendiri dan properti yang didukung di location. Lihat detail di artikel konektor -> Bagian properti himpunan data. Yes
pemadatan Grup properti untuk mengonfigurasi kompresi file. Konfigurasikan bagian ini saat Anda ingin melakukan kompresi/dekompresi selama eksekusi aktivitas. Tidak
jenis Codec kompresi yang digunakan untuk membaca/menulis file biner.
Nilai yang diizinkan adalah bzip2, gzip, deflate, ZipDeflate, Tar, atau TarGzip.
Catatan ketika menggunakan aktivitas penyalinan untuk mendekompresi file ZipDeflate/TarGzip/Tar dan menulis ke penyimpanan data sink berbasis file, secara default file diekstraksi ke folder:<path specified in dataset>/<folder named as source compressed file>/, gunakan sumber preserveZipFileNameAsFolder/preserveCompressionFileNameAsFolderaktivitas penyalinan untuk mengontrol apakah akan mempertahankan nama file yang dipadatkan sebagai struktur folder.
Tidak
level Rasio kompresi. Terapkan saat himpunan data digunakan di sink Copy activity.
Nilai yang diizinkan adalah Optimal atau Tercepat.
- Tercepat: Operasi kompresi harus selesai secepat mungkin, bahkan jika file yang dihasilkan tidak dikompresi secara optimal.
- Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk menyelesaikannya. Untuk informasi selengkapnya, lihat topik Tingkat Pemadatan.
Tidak

Di bawah ini adalah contoh himpunan data Biner pada Azure Blob Storage:

{
    "name": "BinaryDataset",
    "properties": {
        "type": "Binary",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "compression": {
                "type": "ZipDeflate"
            }
        }
    }
}

Properti Aktivitas Salin

Untuk daftar lengkap bagian dan properti yang tersedia guna mendefinisikan aktivitas, silakan lihat artikel Pipeline. Bagian ini menyediakan daftar properti yang didukung oleh sumber dan sink Biner.

Catatan

Saat menggunakan himpunan data Biner dalam aktivitas salin, Anda hanya dapat menyalin dari himpunan data Biner ke himpunan data Biner.

Biner sebagai sumber

Properti berikut didukung di bagian *sumber* aktivitas salin.

Properti Deskripsi Diperlukan
jenis Properti jenis sumber aktivitas salin harus diatur ke BinarySource. Yes
pengaturanFormat Sebuah grup properti. Lihat Tabel pengaturan baca biner di bawah ini. Tidak
pengaturanPenyimpanan Sekumpulan properti tentang cara membaca data dari penyimpanan data. Setiap konektor berbasis file memiliki pengaturan baca yang didukung sendiri di bagian storeSettings. Lihat perincian di artikel konektor -> bagian properti Copy activity. Tidak

Pengaturan bacaan biner yang didukung dalam konteks formatSettings:

Properti Deskripsi Diperlukan
jenis Jenis formatSettings harus diatur ke BinaryReadSettings. Yes
compressionProperties Sekumpulan properti tentang cara mendekompresi data dalam kodek kompresi yang spesifik. Tidak
pertahankanNamaFileZipSebagaiFolder
(di bawah compressionProperties->type sebagai ZipDeflateReadSettings)
Berlaku saat set data input dikonfigurasi dengan kompresi ZipDeflate. Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama salin.
- Ketika diatur ke true (default), Layanan menulis file yang tidak di-zip ke <path specified in dataset>/<folder named as source zip file>/.
- Bila disetel ke false, layanan menulis file yang tidak di-zip langsung ke <path specified in dataset>. Pastikan Anda tidak memiliki nama file duplikat dalam file zip sumber yang berbeda untuk menghindari persaingan atau perilaku tak terduga.
Tidak
simpanNamaFileKompresiSebagaiFolder
(di bawah compressionProperties->type sebagai TarGZipReadSettings atau TarReadSettings)
Berlaku ketika himpunan data input dikonfigurasi dengan pemadatan TarGzip/Tar. Menunjukkan apakah akan mempertahankan nama file sumber yang dipadatkan sebagai struktur folder selama salin.
- Bila disetel ke true (default), layanan akan menulis file yang didekompresi ke <path specified in dataset>/<folder named as source compressed file>/.
- Bila disetel ke false, layanan menulis file yang didekompresi langsung ke <path specified in dataset>. Pastikan Anda tidak memiliki nama file duplikat di file sumber yang berbeda untuk menghindari persaingan atau perilaku yang tidak terduga.
Tidak
"activities": [
    {
        "name": "CopyFromBinary",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "BinarySource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true,
                    "deleteFilesAfterCompletion": true
                },
                "formatSettings": {
                    "type": "BinaryReadSettings",
                    "compressionProperties": {
                        "type": "ZipDeflateReadSettings",
                        "preserveZipFileNameAsFolder": false
                    }
                }
            },
            ...
        }
        ...
    }
]

Biner sebagai wadah pengumpulan data

Properti berikut ini didukung dalam bagian aktivitas salin sink.

Properti Deskripsi Diperlukan
jenis Properti tipe dari sumber aktivitas salin harus diatur ke BinarySink. Yes
pengaturanPenyimpanan Sekelompok properti mengenai cara penulisan data ke dalam penyimpanan data. Setiap konektor berbasis file memiliki setelan penulisan tersendiri yang didukung pada storeSettings. Lihat perincian di artikel konektor -> bagian properti Copy activity. Tidak