Bagikan melalui


Format data yang didukung oleh Azure Data Explorer untuk penyerapan

Penyerapan data adalah proses di mana data ditambahkan ke tabel dan tersedia untuk kueri di Azure Data Explorer. Untuk semua metode penyerapan, selain ingest-from-query, data harus dalam salah satu format yang didukung. Tabel berikut ini mencantumkan dan menjelaskan format yang didukung Azure Data Explorer untuk penyerapan data.

Catatan

Sebelum mengonsumsi data, pastikan data Anda diformat dengan benar dan menentukan bidang yang diharapkan. Sebaiknya gunakan validator pilihan Anda untuk mengonfirmasi bahwa format data valid. Misalnya, Anda mungkin menemukan validator berikut berguna untuk memeriksa file CSV atau JSON:

Untuk informasi selengkapnya tentang mengapa penyerapan mungkin gagal, lihat Kegagalan penyerapan dan Kode kesalahan penyerapan di Azure Data Explorer.

Format Ekstensi Deskripsi
ApacheAvro .avro Format AVRO dengan dukungan untuk jenis logis. Codec kompresi berikut didukung: null, deflate, dan snappy. Implementasi pembaca dari format apacheavro didasarkan pada pustaka Apache Avro resmi. Untuk informasi tentang menyerap file Azure Event Hubs Capture Avro, lihat Menyerap file Azure Event Hubs Capture Avro.
Avro .avro Implementasi warisan untuk format AVRO berdasarkan pustaka .NET. Codec kompresi berikut didukung: null, deflate (untuk snappy - gunakan format data ApacheAvro).
CSV .csv File teks dengan nilai yang dipisahkan koma (,). Lihat RFC 4180: Format Umum dan Jenis MIME untuk File Nilai yang Dipisahkan Koma (CSV).
JSON .json File teks dengan objek JSON yang dibatasi oleh \n atau \r\n. Lihat Baris JSON (JSONL).
MultiJSON .multijson File teks dengan tas properti array JSON (masing-masing mewakili rekaman), atau jumlah tas properti apa pun yang dibatasi oleh spasi kosong, \n atau \r\n. Setiap tas properti dapat disebarkan di beberapa baris.
ORC .orc File ORC.
Parquet .parquet File Parquet.
PSV .psv File teks dengan nilai yang dipisahkan pipa (|).
RAW .raw File teks yang seluruh isinya adalah nilai string tunggal.
SCsv .scsv File teks dengan nilai yang dipisahkan titik koma (;).
SOHsv .sohsv File teks dengan nilai yang dipisahkan SOH. (SOH adalah ASCII codepoint 1; format ini digunakan oleh Hive pada HDInsight.)
TSV .tsv File teks dengan nilai yang dipisahkan tab (\t).
TSVE .tsv File teks dengan nilai yang dipisahkan tab (\t). Karakter garis miring terbalik (\) digunakan untuk pelepasan.
TXT .txt File teks dengan baris yang dibatasi oleh \n. Baris kosong dilewati.
W3CLOGFILE .log Format file log web yang distandarkan oleh W3C.

Catatan

  • Penyerapan dari sistem penyimpanan data yang menyediakan fungsionalitas ACID di atas file format Parquet reguler (misalnya Apache Iceberg, Apache Hudi, Delta Lake) tidak didukung.

  • Avro tanpa skema tidak didukung.

  • Untuk informasi selengkapnya tentang menyerap data menggunakan json format atau multijson , silakan lihat dokumen ini.

Format kompresi data yang didukung

Blob dan file dapat dikompresi melalui salah satu algoritma kompresi berikut:

Kompresi Ekstensi
gzip .gz
zip .Zip

Tunjukkan kompresi dengan menambahkan ekstensi ke nama blob atau file.

Contohnya:

  • MyData.csv.zip menunjukkan blob atau file yang diformat sebagai CSV, dikompresi dengan zip (arsip atau satu file)
  • MyData.json.gz menunjukkan blob atau file yang diformat sebagai JSON, dikompresi dengan gGzip.

Nama blob atau file yang tidak mencakup ekstensi format, melainkan kompresi saja (misalnya, MyData.zip) juga didukung. Dalam hal ini, format file harus ditentukan sebagai properti penyerapan karena tidak dapat disimpulkan.

Catatan

  • Beberapa format kompresi melacak ekstensi file asli sebagai bagian dari aliran terkompresi. Ekstensi ini umumnya diabaikan untuk menentukan format file. Jika format file tidak dapat ditentukan dari nama blob atau file (terkompresi), format file harus ditentukan melalui properti penyerapan format.
  • Jangan sampai tertukar dengan codec kompresi (tingkat gugus) internal yang digunakan oleh format Parquet, AVRO dan ORC. Nama kompresi internal biasanya ditambahkan ke nama file sebelum ekstensi format file, misalnya: file1.gz.parquet, file1.snappy.avro, dll.
  • Metode kompresi zip Deflate64/Enhanced Deflate tidak didukung. Harap dicatat bahwa kompresor zip bawaan Windows dapat memilih untuk menggunakan metode kompresi ini pada file berukuran lebih dari 2GB.