Bagikan melalui


Format data yang didukung oleh Real-Time Intelligence

Penyerapan data adalah proses di mana data ditambahkan ke tabel dan tersedia untuk kueri dalam Kecerdasan Real Time. Untuk semua metode penyerapan, selain ingest-from-query, data harus dalam salah satu format yang didukung. Tabel berikut mencantumkan dan menjelaskan format yang didukung Inteligensi Real Time untuk penyerapan data.

Catatan

Sebelum mengonsumsi data, pastikan data Anda diformat dengan benar dan menentukan bidang yang diharapkan. Sebaiknya gunakan validator pilihan Anda untuk mengonfirmasi bahwa format data valid. Misalnya, Anda mungkin menemukan validator berikut berguna untuk memeriksa file CSV atau JSON:

Untuk informasi selengkapnya tentang mengapa penyerapan mungkin gagal, lihat Kegagalan penyerapan.

Format Ekstensi Deskripsi
ApacheAvro .avro Format AVRO dengan dukungan untuk jenis logis. Codec kompresi berikut didukung: null, deflate, dan snappy. Implementasi pembaca dari format apacheavro didasarkan pada pustaka Apache Avro resmi. Untuk informasi tentang menyerap file Azure Event Hubs Capture Avro, lihat Pemetaan skema untuk file Azure Event Hubs Capture Avro.
Avro .avro Implementasi warisan untuk format AVRO berdasarkan pustaka .NET. Codec kompresi berikut didukung: null, deflate (untuk snappy - gunakan format data ApacheAvro).
CSV .csv File teks dengan nilai yang dipisahkan koma (,). Lihat RFC 4180: Format Umum dan Jenis MIME untuk File Nilai yang Dipisahkan Koma (CSV).
JSON .json File teks dengan objek JSON yang dibatasi oleh \n atau \r\n. Lihat Baris JSON (JSONL).
MultiJSON .multijson File teks dengan tas properti array JSON (masing-masing mewakili rekaman), atau jumlah tas properti apa pun yang dibatasi oleh spasi kosong, \n atau \r\n. Setiap tas properti dapat disebarkan di beberapa baris. Format ini lebih disukai daripada JSON, kecuali datanya adalah tas nonproperti.
ORC .orc File ORC.
Parquet .parquet File Parquet.
PSV .psv File teks dengan nilai yang dipisahkan pipa (|).
RAW .raw File teks yang seluruh isinya adalah nilai string tunggal.
SCsv .scsv File teks dengan nilai yang dipisahkan titik koma (;).
SOHsv .sohsv File teks dengan nilai yang dipisahkan SOH. (SOH adalah ASCII codepoint 1; format ini digunakan oleh Hive pada HDInsight.)
TSV .tsv File teks dengan nilai yang dipisahkan tab (\t).
TSVE .tsv File teks dengan nilai yang dipisahkan tab (\t). Karakter garis miring terbalik (\) digunakan untuk pelepasan.
TXT .txt File teks dengan baris yang dibatasi oleh \n. Baris kosong dilewati.
W3CLOGFILE .log Format file log web yang distandarkan oleh W3C.

Catatan

  • Penyerapan dari sistem penyimpanan data yang menyediakan fungsionalitas ACID di atas file format Parquet reguler (misalnya Apache Iceberg, Apache Hudi) tidak didukung.
  • Avro tanpa skema tidak didukung

Format kompresi data yang didukung

Blob dan file dapat dikompresi melalui salah satu algoritma kompresi berikut:

Kompresi Ekstensi
GZip .gz
Kode Pos .Zip

Tunjukkan kompresi dengan menambahkan ekstensi ke nama blob atau file.

Contohnya:

  • MyData.csv.zip menandakan blob atau file yang diformat sebagai CSV, dikompresi dengan ZIP (arsip atau file tunggal)
  • MyData.json.gz menandakan blob atau file yang diformat sebagai JSON, dikompresi dengan GZip.

Nama blob atau file yang tidak mencakup ekstensi format, melainkan kompresi saja (misalnya, MyData.zip) juga didukung. Dalam hal ini, format file harus ditentukan sebagai properti penyerapan karena tidak dapat disimpulkan.

Catatan

  • Beberapa format kompresi melacak ekstensi file asli sebagai bagian dari aliran terkompresi. Ekstensi ini umumnya diabaikan untuk menentukan format file. Jika format file tidak dapat ditentukan dari nama blob atau file (terkompresi), format file harus ditentukan melalui properti penyerapan format.
  • Jangan sampai tertukar dengan codec kompresi (tingkat gugus) internal yang digunakan oleh format Parquet, AVRO dan ORC. Nama kompresi internal biasanya ditambahkan ke nama file sebelum ekstensi format file, misalnya: file1.gz.parquet, file1.snappy.avro, dll.