Format data yang didukung untuk penyerapan
Berlaku untuk: ✅Microsoft Fabric✅Azure Data Explorer
Penyerapan data adalah proses di mana data ditambahkan ke tabel dan tersedia untuk kueri. Untuk semua metode penyerapan, selain ingest-from-query, data harus dalam salah satu format yang didukung. Tabel berikut ini mencantumkan dan menjelaskan format yang didukung untuk penyerapan data.
Catatan
Sebelum mengonsumsi data, pastikan data Anda diformat dengan benar dan menentukan bidang yang diharapkan. Sebaiknya gunakan validator pilihan Anda untuk mengonfirmasi bahwa format data valid. Misalnya, Anda mungkin menemukan validator berikut berguna untuk memeriksa file CSV atau JSON:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Untuk informasi selengkapnya tentang mengapa penyerapan mungkin gagal, lihat Kegagalan penyerapan
Format | Ekstensi | Deskripsi |
---|---|---|
ApacheAvro | .avro |
Format AVRO dengan dukungan untuk jenis logis. Codec kompresi berikut didukung: null , deflate , dan snappy . Implementasi pembaca dari format apacheavro didasarkan pada pustaka Apache Avro resmi. Untuk informasi tentang menyerap file Event Hub Capture Avro, lihat Menyerap file Event Hub Capture Avro. |
Avro | .avro |
Implementasi warisan untuk format AVRO berdasarkan pustaka .NET. Codec kompresi berikut didukung: null , deflate (untuk snappy - gunakan format data ApacheAvro ). |
CSV | .csv |
File teks dengan nilai yang dipisahkan koma (, ). Lihat RFC 4180: Format Umum dan Jenis MIME untuk File Nilai yang Dipisahkan Koma (CSV). |
JSON | .json |
File teks dengan objek JSON yang dibatasi oleh \n atau \r\n . Lihat Baris JSON (JSONL). |
MultiJSON | .multijson |
File teks dengan tas properti array JSON (masing-masing mewakili rekaman), atau jumlah tas properti apa pun yang dibatasi oleh spasi kosong, \n atau \r\n . Setiap tas properti dapat disebarkan di beberapa baris. |
ORC | .orc |
File ORC. |
Parquet | .parquet |
File Parquet. |
PSV | .psv |
File teks dengan nilai yang dipisahkan pipa (| ). |
RAW | .raw |
File teks yang seluruh isinya adalah nilai string tunggal. |
SCsv | .scsv |
File teks dengan nilai yang dipisahkan titik koma (; ). |
SOHsv | .sohsv |
File teks dengan nilai yang dipisahkan SOH. (SOH adalah ASCII codepoint 1; format ini digunakan oleh Hive pada HDInsight.) |
TSV | .tsv |
File teks dengan nilai yang dipisahkan tab (\t ). |
TSVE | .tsv |
File teks dengan nilai yang dipisahkan tab (\t ). Karakter garis miring terbalik (\ ) digunakan untuk pelepasan. |
TXT | .txt |
File teks dengan baris yang dibatasi oleh \n . Baris kosong dilewati. |
W3CLOGFILE | .log |
Format file log web yang distandarkan oleh W3C. |
Catatan
- Penyerapan dari sistem penyimpanan data yang menyediakan fungsionalitas ACID di atas file format Parquet reguler (misalnya Apache Iceberg, Apache Hudi, Delta Lake) tidak didukung.
- Avro tanpa skema tidak didukung.
Untuk informasi selengkapnya tentang menyerap data menggunakan json
atau multijson
format, lihat menyerap format json.
Format kompresi data yang didukung
Blob dan file dapat dikompresi melalui salah satu algoritma kompresi berikut:
Kompresi | Ekstensi |
---|---|
gzip | .gz |
zip | .Zip |
Tunjukkan kompresi dengan menambahkan ekstensi ke nama blob atau file.
Contohnya:
MyData.csv.zip
menunjukkan blob atau file yang diformat sebagai CSV, dikompresi dengan zip (arsip atau satu file)MyData.json.gz
menunjukkan blob atau file yang diformat sebagai JSON, dikompresi dengan gzip.
Nama blob atau file yang tidak mencakup ekstensi format, melainkan kompresi saja (misalnya, MyData.zip
) juga didukung. Dalam hal ini, format file harus ditentukan sebagai properti penyerapan karena tidak dapat disimpulkan.
Catatan
- Beberapa format kompresi melacak ekstensi file asli sebagai bagian dari aliran terkompresi. Ekstensi ini umumnya diabaikan untuk menentukan format file. Jika format file tidak dapat ditentukan dari nama blob atau file (terkompresi), format file harus ditentukan melalui properti penyerapan
format
. - Jangan sampai tertukar dengan codec kompresi (tingkat gugus) internal yang digunakan oleh format
Parquet
,AVRO
danORC
. Nama kompresi internal biasanya ditambahkan ke nama file sebelum ekstensi format file, misalnya:file1.gz.parquet
,file1.snappy.avro
, dll. - Metode kompresi zip Deflate64/Enhanced Deflate tidak didukung. Harap dicatat bahwa kompresor zip bawaan Windows dapat memilih untuk menggunakan metode kompresi ini pada file berukuran lebih dari 2GB.
Konten terkait
- Pelajari selengkapnya tentang format data yang didukung
- Pelajari selengkapnya tentang Properti penyerapan data
- Pelajari selengkapnya penyerapan data