Bagikan melalui


Format data yang didukung untuk penyerapan

Berlaku untuk: ✅Microsoft Fabric✅Azure Data Explorer

Penyerapan data adalah proses di mana data ditambahkan ke tabel dan tersedia untuk kueri. Untuk semua metode penyerapan, selain ingest-from-query, data harus dalam salah satu format yang didukung. Tabel berikut ini mencantumkan dan menjelaskan format yang didukung untuk penyerapan data.

Catatan

Sebelum mengonsumsi data, pastikan data Anda diformat dengan benar dan menentukan bidang yang diharapkan. Sebaiknya gunakan validator pilihan Anda untuk mengonfirmasi bahwa format data valid. Misalnya, Anda mungkin menemukan validator berikut berguna untuk memeriksa file CSV atau JSON:

Untuk informasi selengkapnya tentang mengapa penyerapan mungkin gagal, lihat Kegagalan penyerapan

Format Ekstensi Deskripsi
ApacheAvro .avro Format AVRO dengan dukungan untuk jenis logis. Codec kompresi berikut didukung: null, deflate, dan snappy. Implementasi pembaca dari format apacheavro didasarkan pada pustaka Apache Avro resmi. Untuk informasi tentang menyerap file Event Hub Capture Avro, lihat Menyerap file Event Hub Capture Avro.
Avro .avro Implementasi warisan untuk format AVRO berdasarkan pustaka .NET. Codec kompresi berikut didukung: null, deflate (untuk snappy - gunakan format data ApacheAvro).
CSV .csv File teks dengan nilai yang dipisahkan koma (,). Lihat RFC 4180: Format Umum dan Jenis MIME untuk File Nilai yang Dipisahkan Koma (CSV).
JSON .json File teks dengan objek JSON yang dibatasi oleh \n atau \r\n. Lihat Baris JSON (JSONL).
MultiJSON .multijson File teks dengan tas properti array JSON (masing-masing mewakili rekaman), atau jumlah tas properti apa pun yang dibatasi oleh spasi kosong, \n atau \r\n. Setiap tas properti dapat disebarkan di beberapa baris.
ORC .orc File ORC.
Parquet .parquet File Parquet.
PSV .psv File teks dengan nilai yang dipisahkan pipa (|).
RAW .raw File teks yang seluruh isinya adalah nilai string tunggal.
SCsv .scsv File teks dengan nilai yang dipisahkan titik koma (;).
SOHsv .sohsv File teks dengan nilai yang dipisahkan SOH. (SOH adalah ASCII codepoint 1; format ini digunakan oleh Hive pada HDInsight.)
TSV .tsv File teks dengan nilai yang dipisahkan tab (\t).
TSVE .tsv File teks dengan nilai yang dipisahkan tab (\t). Karakter garis miring terbalik (\) digunakan untuk pelepasan.
TXT .txt File teks dengan baris yang dibatasi oleh \n. Baris kosong dilewati.
W3CLOGFILE .log Format file log web yang distandarkan oleh W3C.

Catatan

  • Penyerapan dari sistem penyimpanan data yang menyediakan fungsionalitas ACID di atas file format Parquet reguler (misalnya Apache Iceberg, Apache Hudi, Delta Lake) tidak didukung.
  • Avro tanpa skema tidak didukung.

Untuk informasi selengkapnya tentang menyerap data menggunakan json atau multijson format, lihat menyerap format json.

Format kompresi data yang didukung

Blob dan file dapat dikompresi melalui salah satu algoritma kompresi berikut:

Kompresi Ekstensi
gzip .gz
zip .Zip

Tunjukkan kompresi dengan menambahkan ekstensi ke nama blob atau file.

Contohnya:

  • MyData.csv.zip menunjukkan blob atau file yang diformat sebagai CSV, dikompresi dengan zip (arsip atau satu file)
  • MyData.json.gz menunjukkan blob atau file yang diformat sebagai JSON, dikompresi dengan gzip.

Nama blob atau file yang tidak mencakup ekstensi format, melainkan kompresi saja (misalnya, MyData.zip) juga didukung. Dalam hal ini, format file harus ditentukan sebagai properti penyerapan karena tidak dapat disimpulkan.

Catatan

  • Beberapa format kompresi melacak ekstensi file asli sebagai bagian dari aliran terkompresi. Ekstensi ini umumnya diabaikan untuk menentukan format file. Jika format file tidak dapat ditentukan dari nama blob atau file (terkompresi), format file harus ditentukan melalui properti penyerapan format.
  • Jangan sampai tertukar dengan codec kompresi (tingkat gugus) internal yang digunakan oleh format Parquet, AVRO dan ORC. Nama kompresi internal biasanya ditambahkan ke nama file sebelum ekstensi format file, misalnya: file1.gz.parquet, file1.snappy.avro, dll.
  • Metode kompresi zip Deflate64/Enhanced Deflate tidak didukung. Harap dicatat bahwa kompresor zip bawaan Windows dapat memilih untuk menggunakan metode kompresi ini pada file berukuran lebih dari 2GB.