Format teks yang dibatasi di Data Factory di Microsoft Fabric

Artikel ini menguraikan cara mengonfigurasi format teks yang dibatasi dalam alur data Data Factory di Microsoft Fabric.

Kemampuan yang didukung

Format teks yang dibatasi didukung untuk aktivitas dan konektor berikut sebagai sumber dan tujuan.

Category Koneksi/Aktivitas
Konektor yang didukung Amazon S3
Azure Blob Storage
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Penyimpanan Cloud Google
HTTP
Aktivitas yang didukung Aktivitas Salin
Aktivitas pencarian
Aktivitas GetMetadata
Aktivitas penghapusan

Format teks yang dibatasi dalam aktivitas salin

Untuk mengonfigurasi format teks yang dibatasi, pilih koneksi Anda di sumber atau tujuan aktivitas salin alur data, lalu pilih DelimitedText di daftar drop-down Format file. Pilih Pengaturan untuk konfigurasi lebih lanjut dari format ini.

Screenshot showing file format settings.

Format teks yang dibatasi sebagai sumber

Setelah memilih Pengaturan di bagian Format file, properti berikut ini muncul di kotak dialog pengaturan format file pop-up.

Screenshot showing source file format settings.

  • Jenis kompresi: Codec kompresi yang digunakan untuk membaca file teks yang dibatasi. Anda dapat memilih dari None, bzip2, gzip, deflate, ZipDeflate, TarGzip atau jenis tar dalam daftar drop-down.

    Jika Anda memilih ZipDeflate sebagai jenis kompresi, Pertahankan nama file zip sebagai folder akan muncul di bawah Pengaturan tingkat lanjut di tab Sumber .

    • Mempertahankan nama file zip sebagai folder: Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama penyalinan.
      • Jika kotak ini dicentang (default), layanan menulis file yang tidak di-zip ke <specified file path>/<folder named as source zip file>/.
      • Jika kotak ini tidak dicentang, layanan menulis file yang tidak di-zip langsung ke <specified file path>. Pastikan Anda tidak memiliki nama file duplikat dalam file zip sumber yang berbeda untuk menghindari persaingan atau perilaku tak terduga.

    Jika Anda memilih TarGzip/tar sebagai jenis kompresi, Pertahankan nama file kompresi sebagai folder akan muncul di bawah Pengaturan tingkat lanjut di tab Sumber .

    • Mempertahankan nama file kompresi sebagai folder: Menunjukkan apakah akan mempertahankan nama file terkompresi sumber sebagai struktur folder selama penyalinan.
      • Jika kotak ini dicentang (default), layanan menulis file yang didekompresi ke <specified file path>/<folder named as source compressed file>/.
      • Jika kotak ini tidak dicentang, layanan menulis file yang didekompresi langsung ke <specified file path>. Pastikan Anda tidak memiliki nama file duplikat dalam file zip sumber yang berbeda untuk menghindari persaingan atau perilaku tak terduga.
  • Tingkat kompresi: Tentukan rasio pemadatan saat Anda memilih jenis kompresi. Anda dapat memilih dari Optimal atau Tercepat.

    • Tercepat: Operasi kompresi akan selesai secepat mungkin, meski file hasil tidak dikompresi secara optimal.
    • Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk menyelesaikannya. Untuk informasi selengkapnya, lihat topik Tingkat Pemadatan.
  • Pemisah kolom: Karakter yang digunakan untuk memisahkan kolom dalam file. Nilai defaultnya adalah koma (,).

  • Pemisah baris: Tentukan karakter yang digunakan untuk memisahkan baris dalam file. Hanya satu karakter yang diizinkan. Nilai defaultnya adalah umpan \nbaris .

  • Pengodean: Jenis pengodean yang digunakan untuk membaca/menulis file pengujian. Nilai defaultnya adalah UTF-8.

  • Karakter escape: Karakter tunggal untuk meloloskan kutipan di dalam nilai yang dikutip. Nilai defaultnya adalah garis miring terbelakang\. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah.

  • Karakter kutipan: Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Nilai defaultnya adalah tanda kutip ganda". Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kutipan dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan itu sendiri.

  • Baris pertama sebagai header: Menentukan apakah akan memperlakukan/membuat baris pertama sebagai baris header dengan nama kolom. Nilai yang diizinkan dipilih dan tidak dipilih (default). Ketika baris pertama sebagai header tidak dipilih, perhatikan pratinjau data UI dan output aktivitas pencarian otomatis menghasilkan nama kolom sebagai Prop_{n} (mulai dari 0), aktivitas salin memerlukan pemetaan eksplisit dari sumber ke tujuan dan menemukan kolom berdasarkan ordinal (mulai dari 1).

  • Nilai null: Menentukan representasi string dari nilai null. Nilai defaultnya adalah untai kosong.

Di bawah Pengaturan tingkat lanjut di tab Sumber , properti terkait format teks yang dibatasi lebih lanjut akan muncul.

  • Lewati jumlah baris: Menunjukkan jumlah baris yang tidak ada untuk dilewati saat membaca data dari file input. Jika lewati jumlah baris dan Baris pertama sebagai header ditentukan, baris dilewati terlebih dahulu, lalu informasi header dibaca dari file input.

Format teks yang dibatasi sebagai tujuan

Setelah memilih Pengaturan di bagian Format file, properti berikut ini muncul di kotak dialog pengaturan format file pop-up.

Screenshot showing destination file format settings.

  • Jenis kompresi: Codec kompresi yang digunakan untuk menulis file teks yang dibatasi. Anda dapat memilih dari None, bzip2, gzip, deflate, ZipDeflate, TarGzip atau jenis tar dalam daftar drop-down.

  • Tingkat kompresi: Tentukan rasio pemadatan saat Anda memilih jenis kompresi. Anda dapat memilih dari Optimal atau Tercepat.

    • Tercepat: Operasi kompresi akan selesai secepat mungkin, meski file hasil tidak dikompresi secara optimal.
    • Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk menyelesaikannya. Untuk informasi selengkapnya, lihat topik Tingkat Pemadatan.
  • Pemisah kolom: Karakter yang digunakan untuk memisahkan kolom dalam file. Nilai defaultnya adalah koma (,).

  • Pemisah baris: Karakter yang digunakan untuk memisahkan baris dalam file. Hanya satu karakter yang diizinkan. Nilai defaultnya adalah umpan \nbaris .

  • Pengodean: Jenis pengodean yang digunakan untuk menulis file pengujian. Nilai defaultnya adalah UTF-8.

  • Karakter escape: Karakter tunggal untuk meloloskan kutipan di dalam nilai yang dikutip. Nilai defaultnya adalah garis miring terbelakang\. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah.

  • Karakter kutipan: Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Nilai defaultnya adalah tanda kutip ganda". Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kutipan dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan itu sendiri.

  • Baris pertama sebagai header: Menentukan apakah akan memperlakukan/membuat baris pertama sebagai baris header dengan nama kolom. Nilai yang diizinkan dipilih dan tidak dipilih (default). Ketika baris pertama sebagai header tidak dipilih, perhatikan pratinjau data UI dan output aktivitas pencarian otomatis menghasilkan nama kolom sebagai Prop_{n} (mulai dari 0), aktivitas salin memerlukan pemetaan eksplisit dari sumber ke tujuan dan menemukan kolom berdasarkan ordinal (mulai dari 1).

  • Nilai null: Menentukan representasi string dari nilai null. Nilai defaultnya adalah untai kosong.

Di bawah Pengaturan tingkat lanjut di tab Tujuan , properti terkait format teks yang dibatasi lebih lanjut akan muncul.

  • Kutip semua teks: Sertakan semua nilai dalam tanda kutip.

  • Ekstensi file: Ekstensi file yang digunakan untuk memberi nama file output, misalnya, .csv, .txt.

  • Baris maks per file: Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maks per file.

  • Awalan nama file: Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension>. Jika tidak ditentukan, awalan nama file akan dibuat secara otomatis. Properti ini tidak berlaku ketika sumber adalah penyimpanan berbasis file atau opsi partisi yang diaktifkan penyimpanan data.

Ringkasan tabel

Teks berbatas sebagai sumber

Properti berikut ini didukung di bagian Sumber aktivitas salin saat menggunakan format teks yang dibatasi.

Nama Deskripsi Value Diperlukan Properti skrip JSON
 Format file Format file yang ingin Anda gunakan. DelimitedText Ya type (di bawah datasetSettings):
DelimitedText
Jenis pemadatan Codec kompresi yang digunakan untuk membaca file teks yang dibatasi. Pilih dari:
Tidak
bzip2
gzip
Mengempis
ZipDeflate
TarGzip
Tar
No type (di bawah compression):

bzip2
gzip
Mengempis
ZipDeflate
TarGzip
tar
Pertahankan nama file zip sebagai folder Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama salin. Berlaku saat Anda memilih kompresi ZipDeflate . Dipilih atau tidak dipilih Tanpa preserveZipFileNameAsFolder
(di bawah compressionProperties->type sebagai ZipDeflateReadSettings)
Pertahankan nama file kompresi sebagai folder Menunjukkan apakah akan mempertahankan nama file sumber yang dipadatkan sebagai struktur folder selama salin. Berlaku saat Anda memilih kompresi TarGzip/tar . Dipilih atau tidak dipilih No preserveCompressionFileNameAsFolder
(di bawah compressionProperties->type sebagai TarGZipReadSettings atau TarReadSettings)
Tingkat pemadatan  Rasio pemadatan. Nilai yang diizinkan adalah Optimal atau Tercepat. Optimal atau Tercepat Tanpa level (di bawah compression):
Tercepat
Optimal
Pemisah kolom  Karakter yang digunakan untuk memisahkan kolom dalam sebuah file.  < pemisah kolom yang dipilih >
koma, (secara default)
No columnDelimiter
Pemisah baris Karakter yang digunakan untuk memisahkan baris dalam sebuah file. < pemisah baris yang dipilih >
\r,\n (secara default), atau r\n
Tanpa rowDelimiter
Pengodean Jenis pengodean yang digunakan untuk membaca/menulis file uji. "UTF-8" (secara default),"UTF-8 tanpa BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM863", "IBM865", "IBM865", "IBM863", "IBM865", "IBM863", "IBM865", "IBM865", "IBM863",M869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Tanpa encodingName
Karakter escape Karakter tunggal untuk keluar dari tanda kutip di dalam nilai yang dikutip. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah. < karakter escape yang Anda pilih >
garis miring terbelakang\ (secara default)
No escapeChar
Karakter kutipan Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kutipan dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan itu sendiri. < karakter kutipan yang Anda pilih >
tanda kutip" ganda (secara default)
No quoteChar
Baris pertama sebagai header Menentukan apakah akan memperlakukan baris pertama dalam lembar kerja/rentang yang ditentukan sebagai baris header dengan nama kolom. Dipilih atau tidak dipilih No firstRowAsHeader:
true atau false (default)
Nilai null Menentukan representasi untai nilai null. Nilai defaultnya adalah untai kosong. < representasi string dari nilai null >
string kosong (secara default)
No nullValue

Teks yang dibatasi sebagai tujuan

Properti berikut ini didukung di bagian Tujuan aktivitas salin saat menggunakan format teks yang dibatasi.

Nama Deskripsi Value Diperlukan Properti skrip JSON
 Format file Format file yang ingin Anda gunakan. DelimitedText Ya type (di bawah datasetSettings):
DelimitedText
Jenis pemadatan Codec kompresi yang digunakan untuk menulis file teks yang dibatasi. Pilih dari:
Tidak
bzip2
gzip
Mengempis
ZipDeflate
TarGzip
Tar
No type (di bawah compression):

bzip2
gzip
Mengempis
ZipDeflate
TarGzip
tar
Pertahankan nama file zip sebagai folder Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama salin. Dipilih atau tidak dipilih Tanpa preserveZipFileNameAsFolder
(di bawah compressionProperties->type sebagai ZipDeflateReadSettings)
Pertahankan nama file kompresi sebagai folder Menunjukkan apakah akan mempertahankan nama file sumber yang dipadatkan sebagai struktur folder selama salin. Dipilih atau tidak dipilih No preserveCompressionFileNameAsFolder
(di bawah compressionProperties->type sebagai TarGZipReadSettings atau TarReadSettings)
Tingkat pemadatan  Rasio pemadatan. Nilai yang diizinkan adalah Optimal atau Tercepat. Optimal atau Tercepat Tanpa level (di bawah compression):
Tercepat
Optimal
Pemisah kolom  Karakter yang digunakan untuk memisahkan kolom dalam sebuah file.  < pemisah kolom yang dipilih >
koma , (secara default)
No columnDelimiter
Pemisah baris Karakter yang digunakan untuk memisahkan baris dalam sebuah file. < pemisah baris yang dipilih >
\r,\n (secara default), atau r\n
Tanpa rowDelimiter
Pengodean Jenis pengodean yang digunakan untuk membaca/menulis file uji. "UTF-8" (secara default),"UTF-8 tanpa BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM865", "IBM863", "IBM865", "IBM865", "IBM863", "IBM865", "IBM863", "IBM865", "IBM865", "IBM863",M869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252", "WINDOWS-1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" Tanpa encodingName
Karakter escape Karakter tunggal untuk keluar dari tanda kutip di dalam nilai yang dikutip. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah. < karakter escape yang Anda pilih >
garis miring terbelakang\ (secara default)
No escapeChar
Karakter kutipan Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kutipan dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan itu sendiri. < karakter kutipan yang Anda pilih >
tanda kutip" ganda (secara default)
No quoteChar
Baris pertama sebagai header Menentukan apakah akan memperlakukan baris pertama dalam lembar kerja/rentang yang ditentukan sebagai baris header dengan nama kolom. Dipilih atau tidak dipilih No firstRowAsHeader:
true atau false (default)
Kutip semua teks Sertakan semua nilai dalam tanda kutip. Dipilih (default) atau tidak dipilih No quoteAllText:
true (default) atau false
Ekstensi file Ekstensi file yang digunakan untuk memberi nama file output. < ekstensi file Anda >
.txt (secara default)
No fileExtension
Baris maks per file Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimal per file. < baris maks Anda per file > No maxRowsPerFile
Awalan nama file Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension>. Jika tidak ditentukan, awalan nama file akan dibuat secara otomatis. Properti ini tidak berlaku ketika sumber adalah penyimpanan berbasis file atau opsi partisi yang diaktifkan penyimpanan data. < awalan nama file Anda > No fileNamePrefix