Format file Excel di Azure Data Factory dan Azure Synapse Analytics

BERLAKU UNTUK:Azure Data Factory Azure Synapse Analytics

Tip

Cobalah Data Factory di Microsoft Fabric, solusi analitik all-in-one untuk perusahaan. Microsoft Fabric mencakup semuanya mulai dari pergerakan data hingga ilmu data, analitik real time, kecerdasan bisnis, dan pelaporan. Pelajari cara memulai uji coba baru secara gratis!

Ikuti artikel ini saat Anda ingin mengurai file Excel. Layanan ini mendukung ".xls" dan ".xlsx".

Format Excel didukung untuk konektor berikut: Amazon S3, Amazon S3 Compatible Storage, Azure Blob, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure Files, File System, FTP, Google Cloud Storage, HDFS, HTTP, Oracle Cloud Storage dan SFTP. Ini didukung sebagai sumber tetapi tidak sebagai sink.

Catatan

Format ".xls" tidak didukung saat menggunakan HTTP.

Properti himpunan data

Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan himpunan data, lihat artikel Himpunan Data. Bagian ini menyediakan daftar properti yang didukung oleh himpunan data Excel.

Properti Deskripsi Wajib
jenis Properti jenis himpunan data harus diatur ke Excel. Ya
lokasi Pengaturan lokasi file. Tiap konektor berbasis file memiliki jenis lokasinya sendiri dan properti yang didukung di location. Ya
sheetName Nama lembar kerja Excel untuk membaca data. Tentukan sheetName atau sheetIndex
sheetIndex Indeks lembar kerja Excel untuk membaca data, mulai dari 0. Tentukan sheetName atau sheetIndex
rentang Rentang sel dalam lembar kerja tertentu untuk menemukan data selektif, misalnya:
- Tidak ditentukan: membaca seluruh lembar kerja sebagai tabel dari baris dan kolom pertama yang tidak kosong
- A3: membaca tabel yang dimulai dari sel yang ditentukan, mendeteksi secara dinamis semua baris di bawah dan semua kolom di sebelah kanan
- A3:H5: membaca rentang tetap ini sebagai tabel
- A3:A3: membaca sel tunggal ini
No
firstRowAsHeader Menentukan apakah akan memperlakukan baris pertama dalam lembar kerja/rentang yang ditentukan sebagai baris header dengan nama kolom.
Nilai yang diperbolehkan adalah true dan false (default).
No
nullValue Menentukan representasi untai nilai null.
Nilai defaultnya adalah untai kosong.
No
kompresi Grup properti untuk mengonfigurasi kompresi file. Konfigurasikan bagian ini saat Anda ingin melakukan kompresi/dekompresi selama eksekusi aktivitas. No
jenis
(di bawah compression)
Kodek kompresi yang digunakan untuk membaca/menulis file JSON.
Nilai yang diizinkan adalah bzip2, gzip, deflate, ZipDeflate, TarGzip, Tar, snappy, atau lz4. Defaultnya tidak dipadatkan.
Catatan aktivitas Salin saat ini tidak mendukung "snappy" & "lz4", dan pemetaan aliran data tidak mendukung "ZipDeflate", "TarGzip", dan "Tar".
Catatan saat menggunakan aktivitas penyalinan untuk mendekompresi file ZipDeflate dan menulis ke penyimpanan data sink berbasis file, file akan diekstrak ke folder: <path specified in dataset>/<folder named as source zip file>/.
Tidak.
tingkat
(di bawah compression)
Rasio pemadatan.
Nilai yang diizinkan adalah Optimal atau Tercepat.
- Tercepat: Operasi kompresi akan selesai secepat mungkin, meski file hasil tidak dikompresi secara optimal.
- Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk menyelesaikannya. Untuk informasi selengkapnya, lihat topik Tingkat Pemadatan.
No

Berikut adalah contoh himpunan data Excel di Azure Blob Storage:

{
    "name": "ExcelDataset",
    "properties": {
        "type": "Excel",
        "linkedServiceName": {
            "referenceName": "<Azure Blob Storage linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "location": {
                "type": "AzureBlobStorageLocation",
                "container": "containername",
                "folderPath": "folder/subfolder",
            },
            "sheetName": "MyWorksheet",
            "range": "A3:H5",
            "firstRowAsHeader": true
        }
    }
}

Properti aktivitas salin

Untuk daftar lengkap bagian dan properti yang tersedia untuk menentukan aktivitas, lihat artikel Alur. Bagian ini menyediakan daftar properti yang didukung oleh sumber Excel.

Excel sebagai sumber

Properti berikut didukung di bagian *sumber* aktivitas salin.

Properti Deskripsi Wajib
jenis Properti jenis sumber aktivitas penyalinan harus diatur ke ExcelSource. Ya
storeSettings Grup berbagai properti tentang cara membaca data dari penyimpanan data. Setiap konektor berbasis file memiliki pengaturan baca yang didukung sendiri di bagian storeSettings. No
"activities": [
    {
        "name": "CopyFromExcel",
        "type": "Copy",
        "typeProperties": {
            "source": {
                "type": "ExcelSource",
                "storeSettings": {
                    "type": "AzureBlobStorageReadSettings",
                    "recursive": true
                }
            },
            ...
        }
        ...
    }
]

Properti pemetaan aliran data

Dalam memetakan aliran data, Anda dapat membaca format Excel di penyimpanan data berikut: Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Amazon S3 dan SFTP. Anda dapat mengarahkan ke file Excel menggunakan himpunan data Excel atau menggunakan himpunan data sebaris.

Properti sumber

Tabel di bawah mencantumkan properti yang didukung oleh sumber Excel. Anda dapat mengedit properti ini di tab Opsi sumber. Saat menggunakan himpunan data sebaris, Anda akan melihat pengaturan file tambahan, yang sama dengan properti yang dijelaskan di bagian properti himpunan data.

Nama Deskripsi Wajib diisi Nilai yang diizinkan Properti skrip aliran data
Jalur wild card Semua file yang cocok dengan jalur kartubebas akan diproses. Mengambil alih jalur folder dan file yang diatur dalam himpunan data. no Tali[] wildcardPaths
Jalur akar partisi Untuk data file yang dipartisi, Anda dapat memasukkan jalur akar partisi untuk membaca folder yang dipartisi sebagai kolom no String partitionRootPath
Daftar file Apakah sumber Anda mengarah ke file teks yang mencantumkan file untuk diproses no true atau false fileList
Kolom untuk menyimpan nama file Membuat kolom baru dengan jalur dan nama file sumber no String rowUrlColumn
Setelah selesai Hapus atau pindahkan file setelah diproses. Jalur file dimulai dari akar kontainer no Hapus: true atau false
Pindah: ['<from>', '<to>']
purgeFiles
moveFiles
Filter menurut terakhir diubah Pilih untuk memfilter file berdasarkan waktu terakhir file tersebut diubah no Tanda Waktu modifiedAfter
modifiedBefore
Izinkan file tidak ditemukan Jika true, kesalahan tidak akan ditampilkan jika tidak ditemukan file no true atau false ignoreNoFilesFound

Contoh sumber

Skrip di bawah adalah contoh konfigurasi sumber Excel dalam aliran data pemetaan menggunakan mode himpunan data.

Excel source

Skrip aliran data terkait adalah:

source(allowSchemaDrift: true,
    validateSchema: false,
    wildcardPaths:['*.xls']) ~> ExcelSource

Jika menggunakan himpunan data sebaris, Anda akan melihat opsi sumber berikut dalam aliran data pemetaan.

Excel source inline dataset

Skrip aliran data terkait adalah:

source(allowSchemaDrift: true,
    validateSchema: false,
    format: 'excel',
    fileSystem: 'container',
    folderPath: 'path',
    fileName: 'sample.xls',
    sheetName: 'worksheet',
    firstRowAsHeader: true) ~> ExcelSourceInlineDataset

Menangani file Excel yang sangat besar

Konektor Excel tidak mendukung pembacaan streaming untuk aktivitas Salin dan harus memuat seluruh file ke dalam memori sebelum data dapat dibaca. Untuk mengimpor skema, mempratinjau data, atau me-refresh himpunan data Excel, data harus dikembalikan sebelum waktu permintaan http habis (100 detik). Untuk file Excel berukuran besar, operasi ini mungkin tidak selesai dalam jangka waktu tersebut sehingga menyebabkan kesalahan waktu habis. Jika Anda ingin memindahkan file Excel berukuran besar (>100MB) ke penyimpanan data lain, Anda dapat menggunakan salah satu opsi berikut untuk mengatasi batasan ini:

  • Gunakan runtime integrasi yang dihost sendiri (SHIR), lalu gunakan aktivitas Salin untuk memindahkan file Excel berukuran besar ke penyimpanan data lain dengan SHIR.
  • Pisahkan file Excel berukuran besar menjadi beberapa file yang lebih kecil, lalu gunakan aktivitas Salin untuk memindahkan folder yang berisi file.
  • Gunakan aktivitas aliran data untuk memindahkan file Excel berukuran besar ke penyimpanan data lain. Aliran data mendukung pembacaan streaming untuk Excel dan dapat memindahkan/mentransfer file besar dengan cepat.
  • Konversikan file Excel berukuran besar secara manual ke format CSV, lalu gunakan aktivitas Salin untuk memindahkan file.