Format teks yang dibatasi di Data Factory di Microsoft Fabric
Artikel ini menguraikan cara mengonfigurasi format teks yang dibatasi dalam alur data Data Factory di Microsoft Fabric.
Penting
Microsoft Fabric saat ini dalam PRATINJAU. Informasi ini berkaitan dengan produk prarilis yang mungkin dimodifikasi secara substansial sebelum dirilis. Microsoft tidak memberikan jaminan, dinyatakan atau tersirat, sehubungan dengan informasi yang diberikan di sini. Lihat dokumentasi Azure Data Factory untuk layanan di Azure.
Kemampuan yang didukung
Format teks yang dibatasi didukung untuk aktivitas dan konektor berikut sebagai sumber dan tujuan.
Kategori | Konektor/Aktivitas |
---|---|
Konektor yang didukung | Amazon S3 |
Azure Blob Storage | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 | |
Penyimpanan Cloud Google | |
HTTP | |
Aktivitas yang didukung | Aktivitas Salin |
Aktivitas pencarian | |
Aktivitas GetMetadata | |
Aktivitas penghapusan |
Format teks yang dibatasi dalam aktivitas salin
Untuk mengonfigurasi format teks yang dibatasi, pilih koneksi Anda di sumber atau tujuan aktivitas penyalinan alur data, lalu pilih DelimitedText di daftar drop-down format File. Pilih Pengaturan untuk konfigurasi lebih lanjut dari format ini.
Format teks yang dibatasi sebagai sumber
Setelah memilih Pengaturan di bagian Format file , properti berikut ini muncul dalam kotak dialog pengaturan format File pop-up.
Jenis kompresi: Codec kompresi yang digunakan untuk membaca file teks yang dibatasi. Anda dapat memilih dari None, bzip2, gzip, deflate, ZipDeflate, TarGzip atau jenis tar dalam daftar drop-down.
Jika Anda memilih ZipDeflate sebagai jenis kompresi, Pertahankan nama file zip sebagai folder akan muncul di bawah Pengaturan tingkat lanjut di tab Sumber .
- Mempertahankan nama file zip sebagai folder: Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama penyalinan.
- Jika kotak ini dicentang (default), layanan menulis file yang tidak di-zip ke
<specified file path>/<folder named as source zip file>/
. - Jika kotak ini tidak dicentang, layanan menulis file yang tidak di-zip langsung ke
<specified file path>
. Pastikan Anda tidak memiliki nama file duplikat dalam file zip sumber yang berbeda untuk menghindari persaingan atau perilaku tak terduga.
- Jika kotak ini dicentang (default), layanan menulis file yang tidak di-zip ke
Jika Anda memilih TarGzip/tar sebagai jenis kompresi, Pertahankan nama file kompresi sebagai folder akan muncul di bawah Pengaturan tingkat lanjut di tab Sumber .
- Mempertahankan nama file kompresi sebagai folder: Menunjukkan apakah akan mempertahankan nama file terkompresi sumber sebagai struktur folder selama penyalinan.
- Jika kotak ini dicentang (default), layanan menulis file yang didekompresi ke
<specified file path>/<folder named as source compressed file>/
. - Jika kotak ini tidak dicentang, layanan menulis file yang didekompresi langsung ke
<specified file path>
. Pastikan Anda tidak memiliki nama file duplikat dalam file zip sumber yang berbeda untuk menghindari persaingan atau perilaku tak terduga.
- Jika kotak ini dicentang (default), layanan menulis file yang didekompresi ke
- Mempertahankan nama file zip sebagai folder: Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama penyalinan.
Tingkat pemadatan: Tentukan rasio pemadatan saat Anda memilih jenis pemadatan. Anda dapat memilih dari Optimal atau Tercepat.
- Tercepat: Operasi kompresi harus selesai secepat mungkin, bahkan jika file yang dihasilkan tidak dikompresi secara optimal.
- Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk selesai. Untuk informasi selengkapnya, lihat topik Tingkat Kompresi.
Pemisah kolom: Karakter yang digunakan untuk memisahkan kolom dalam file. Nilai defaultnya adalah koma (
,
).Pemisah baris: Tentukan karakter yang digunakan untuk memisahkan baris dalam file. Hanya satu karakter yang diperbolehkan. Nilai defaultnya adalah umpan
\n
baris .Pengodean: Jenis pengodean yang digunakan untuk membaca/menulis file pengujian. Nilai default-nya adalah UTF-8.
Karakter escape: Karakter tunggal untuk meloloskan tanda kutip di dalam nilai yang dikutip. Nilai defaultnya adalah garis miring terbelakang
\
. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah.Karakter kuotasi: Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Nilai defaultnya adalah tanda kutip ganda
"
. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kuotasi dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan dirinya sendiri.Baris pertama sebagai header: Menentukan apakah akan memperlakukan/membuat baris pertama sebagai baris header dengan nama kolom. Nilai yang diizinkan dipilih dan tidak dipilih (default). Saat baris pertama sebagai header tidak dipilih, perhatikan pratinjau data UI dan output aktivitas pencarian secara otomatis menghasilkan nama kolom sebagai Prop_{n} (mulai dari 0), aktivitas salin memerlukan pemetaan eksplisit dari sumber ke tujuan dan menemukan kolom berdasarkan ordinal (mulai dari 1).
Nilai null: Menentukan representasi string dari nilai null. Nilai default adalah string kosong.
Di bawah Pengaturan tingkat lanjut di tab Sumber , properti terkait format teks yang dibatasi lebih lanjut akan muncul.
- Lewati jumlah baris: Menunjukkan jumlah baris yang tidak kosong untuk dilewati saat membaca data dari file input. Jika Lewati jumlah baris dan Baris pertama sebagai header ditentukan, baris dilewati terlebih dahulu, lalu informasi header dibaca dari file input.
Format teks yang dibatasi sebagai tujuan
Setelah memilih Pengaturan di bagian Format file , properti berikut ini muncul dalam kotak dialog pengaturan format File pop-up.
Jenis kompresi: Codec kompresi yang digunakan untuk menulis file teks yang dibatasi. Anda dapat memilih dari None, bzip2, gzip, deflate, ZipDeflate, TarGzip atau jenis tar dalam daftar drop-down.
Tingkat pemadatan: Tentukan rasio pemadatan saat Anda memilih jenis pemadatan. Anda dapat memilih dari Optimal atau Tercepat.
- Tercepat: Operasi kompresi harus selesai secepat mungkin, bahkan jika file yang dihasilkan tidak dikompresi secara optimal.
- Optimal: Operasi pemadatan akan dipadatkan secara optimal, bahkan jika operasi membutuhkan waktu lebih lama untuk selesai. Untuk informasi selengkapnya, lihat topik Tingkat Kompresi.
Pemisah kolom: Karakter yang digunakan untuk memisahkan kolom dalam file. Nilai defaultnya adalah koma (
,
).Pemisah baris: Karakter yang digunakan untuk memisahkan baris dalam file. Hanya satu karakter yang diperbolehkan. Nilai defaultnya adalah umpan
\n
baris .Pengodean: Jenis pengodean yang digunakan untuk menulis file pengujian. Nilai default-nya adalah UTF-8.
Karakter escape: Karakter tunggal untuk meloloskan tanda kutip di dalam nilai yang dikutip. Nilai defaultnya adalah garis miring terbelakang
\
. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah.Karakter kuotasi: Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Nilai defaultnya adalah tanda kutip ganda
"
. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kuotasi dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan dirinya sendiri.Baris pertama sebagai header: Menentukan apakah akan memperlakukan/membuat baris pertama sebagai baris header dengan nama kolom. Nilai yang diizinkan dipilih dan tidak dipilih (default). Saat baris pertama sebagai header tidak dipilih, perhatikan pratinjau data UI dan output aktivitas pencarian secara otomatis menghasilkan nama kolom sebagai Prop_{n} (mulai dari 0), aktivitas salin memerlukan pemetaan eksplisit dari sumber ke tujuan dan menemukan kolom berdasarkan ordinal (mulai dari 1).
Nilai null: Menentukan representasi string dari nilai null. Nilai default adalah string kosong.
Di bawah Pengaturan tingkat lanjut di tab Tujuan , properti terkait format teks yang dibatasi lebih lanjut akan muncul.
Kutip semua teks: Sertakan semua nilai dalam tanda kutip.
Ekstensi file: Ekstensi file yang digunakan untuk memberi nama file output, misalnya,
.csv
,.txt
.Baris maksimum per file: Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimum per file.
Awalan nama file: Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini:
<fileNamePrefix>_00000.<fileExtension>
. Jika tidak ditentukan, awalan nama file akan dibuat secara otomatis. Properti ini tidak berlaku ketika sumber adalah penyimpanan berbasis file atau opsi partisi yang diaktifkan penyimpanan data.
Ringkasan tabel
Teks berbatas sebagai sumber
Properti berikut ini didukung di bagian Sumber aktivitas salin saat menggunakan format teks yang dibatasi.
Nama | Deskripsi | Nilai | Diperlukan | Properti skrip JSON |
---|---|---|---|---|
Format file | Format file yang ingin Anda gunakan. | DelimitedText | Ya | type (di bawah datasetSettings ):DelimitedText |
Jenis pemadatan | Codec kompresi yang digunakan untuk membaca file teks yang dibatasi. | Pilih dari: Tidak ada bzip2 gzip Mengempis ZipDeflate TarGzip Tar |
Tidak | type (di bawah compression ):bzip2 gzip Mengempis ZipDeflate TarGzip tar |
Pertahankan nama file zip sebagai folder | Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama salin. Berlaku saat Anda memilih kompresi ZipDeflate . | Dipilih atau tidak dipilih | Tidak | preserveZipFileNameAsFolder (di bagian compressionProperties ->type sebagai ZipDeflateReadSettings ) |
Mempertahankan nama file kompresi sebagai folder | Menunjukkan apakah akan mempertahankan nama file sumber yang dipadatkan sebagai struktur folder selama salin. Berlaku saat Anda memilih kompresi TarGzip/tar . | Dipilih atau tidak dipilih | Tidak | preserveCompressionFileNameAsFolder (di bagian compressionProperties ->type sebagai TarGZipReadSettings atau TarReadSettings ) |
Tingkat pemadatan | Rasio pemadatan. Nilai yang diizinkan adalah Optimal atau Tercepat. | Optimal atau Tercepat | Tidak | level (di bawah compression ):Tercepat Optimal |
Pemisah Kolom | Karakter yang digunakan untuk memisahkan kolom dalam sebuah file. | < pemisah kolom yang dipilih > Koma , (secara default) |
Tidak | columnDelimiter |
Pemisah baris | Karakter yang digunakan untuk memisahkan baris dalam sebuah file. | < pemisah baris terpilih > \r ,\n (secara default), atau r\n |
Tidak | rowDelimiter |
Pengodean | Jenis pengodean yang digunakan untuk membaca/menulis file uji. | "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Tidak | encodingName |
Karakter escape | Karakter tunggal untuk keluar dari tanda kutip di dalam nilai yang dikutip. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pembatas. | < karakter escape yang Anda pilih > Backslash \ (secara default) |
Tidak | escapeChar |
Karakter kutipan | Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kutipan dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk keluar dari pemisah kolom dan itu sendiri. | < karakter kutipan yang Anda pilih > tanda kutip " ganda (secara default) |
Tidak | quoteChar |
Baris pertama sebagai header | Menentukan apakah akan memperlakukan baris pertama dalam lembar kerja/rentang yang ditentukan sebagai baris header dengan nama kolom. | Dipilih atau tidak dipilih | Tidak | firstRowAsHeader: true atau false (default) |
Nilai null | Menentukan representasi untai nilai null. Nilai default adalah string kosong. | < representasi string dari nilai null > string kosong (secara default) |
Tidak | nullValue |
Lewati jumlah baris | Menunjukkan jumlah baris yang tidak kosong untuk dilewati saat membaca data dari file input. Jika Lewati jumlah baris dan Baris pertama sebagai header ditentukan, baris dilewati terlebih dahulu lalu informasi header dibaca dari file input. | < jumlah baris lom yang Anda lewati > | Tidak | skipLineCount |
Teks yang dibatasi sebagai tujuan
Properti berikut ini didukung di bagian Tujuan aktivitas salin saat menggunakan format teks yang dibatasi.
Nama | Deskripsi | Nilai | Diperlukan | Properti skrip JSON |
---|---|---|---|---|
Format file | Format file yang ingin Anda gunakan. | DelimitedText | Ya | type (di bawah datasetSettings ):DelimitedText |
Jenis pemadatan | Codec kompresi yang digunakan untuk menulis file teks yang dibatasi. | Pilih dari: Tidak ada bzip2 gzip Mengempis ZipDeflate TarGzip Tar |
Tidak | type (di bawah compression ):bzip2 gzip Mengempis ZipDeflate TarGzip tar |
Pertahankan nama file zip sebagai folder | Menunjukkan apakah akan mempertahankan nama file zip sumber sebagai struktur folder selama salin. | Dipilih atau tidak dipilih | Tidak | preserveZipFileNameAsFolder (di bagian compressionProperties ->type sebagai ZipDeflateReadSettings ) |
Pertahankan nama file kompresi sebagai folder | Menunjukkan apakah akan mempertahankan nama file sumber yang dipadatkan sebagai struktur folder selama salin. | Dipilih atau tidak dipilih | Tidak | preserveCompressionFileNameAsFolder (di bagian compressionProperties ->type sebagai TarGZipReadSettings atau TarReadSettings ) |
Tingkat pemadatan | Rasio pemadatan. Nilai yang diizinkan adalah Optimal atau Tercepat. | Optimal atau Tercepat | Tidak | level (di bawah compression ):Tercepat Optimal |
Pemisah Kolom | Karakter yang digunakan untuk memisahkan kolom dalam sebuah file. | < pemisah kolom yang dipilih > koma , (secara default) |
Tidak | columnDelimiter |
Pemisah baris | Karakter yang digunakan untuk memisahkan baris dalam sebuah file. | < pemisah baris terpilih > \r ,\n (secara default), atau r\n |
Tidak | rowDelimiter |
Pengodean | Jenis pengodean yang digunakan untuk membaca/menulis file uji. | "UTF-8" (by default),"UTF-8 without BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140", "IBM01141", "IBM01142", "IBM01143", "IBM01144", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS--1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258" | Tidak | encodingName |
Karakter escape | Karakter tunggal untuk keluar dari tanda kutip di dalam nilai yang dikutip. Saat karakter escape didefinisikan sebagai string kosong, karakter Kuotasi juga harus diatur sebagai string kosong, dalam hal ini pastikan semua nilai kolom tidak berisi pemisah. | < karakter escape yang Anda pilih > Backslash \ (secara default) |
Tidak | escapeChar |
Karakter kutipan | Karakter tunggal untuk mengutip nilai kolom jika berisi pemisah kolom. Ketika karakter Kuotasi didefinisikan sebagai string kosong, itu berarti tidak ada karakter kuotasi dan nilai kolom tidak dikutip, dan karakter escape digunakan untuk menghindari pemisah kolom dan dirinya sendiri. | < karakter kutipan yang Anda pilih > tanda kutip " ganda (secara default) |
Tidak | quoteChar |
Baris pertama sebagai header | Menentukan apakah akan memperlakukan baris pertama dalam lembar kerja/rentang yang ditentukan sebagai baris header dengan nama kolom. | Dipilih atau tidak dipilih | Tidak | firstRowAsHeader: benar atau salah (default) |
Kutip semua teks | Sertakan semua nilai dalam tanda kutip. | Dipilih (default) atau tidak dipilih | Tidak | quoteAllText: true (default) atau false |
Ekstensi file | Ekstensi file yang digunakan untuk memberi nama file output. | < ekstensi file Anda > .txt (secara default) |
Tidak | fileExtension |
Baris maks per file | Saat menulis data ke dalam folder, Anda dapat memilih untuk menulis ke beberapa file dan menentukan baris maksimal per file. | < baris maks Anda per file > | Tidak | maxRowsPerFile |
Awalan nama file | Berlaku saat Baris maks per file dikonfigurasi. Menentukan awalan nama file saat menulis data ke beberapa file, menghasilkan pola ini: <fileNamePrefix>_00000.<fileExtension> . Jika tidak ditentukan, awalan nama file akan dibuat secara otomatis. Properti ini tidak berlaku ketika sumber adalah penyimpanan berbasis file atau opsi partisi yang diaktifkan penyimpanan data. |
< awalan nama file Anda > | Tidak | fileNamePrefix |