Format data yang didukung oleh Real-Time Intelligence

Artikel
05/21/2024

Penyerapan data adalah proses di mana data ditambahkan ke tabel dan tersedia untuk kueri dalam Kecerdasan Real Time. Untuk semua metode penyerapan, selain ingest-from-query, data harus dalam salah satu format yang didukung. Tabel berikut mencantumkan dan menjelaskan format yang didukung Inteligensi Real Time untuk penyerapan data.

Catatan

Sebelum mengonsumsi data, pastikan data Anda diformat dengan benar dan menentukan bidang yang diharapkan. Sebaiknya gunakan validator pilihan Anda untuk mengonfirmasi bahwa format data valid. Misalnya, Anda mungkin menemukan validator berikut berguna untuk memeriksa file CSV atau JSON:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Untuk informasi selengkapnya tentang mengapa penyerapan mungkin gagal, lihat Kegagalan penyerapan.

Format	Ekstensi	Deskripsi
ApacheAvro	`.avro`	Format AVRO dengan dukungan untuk jenis logis. Codec kompresi berikut didukung: `null`, `deflate`, dan `snappy`. Implementasi pembaca dari format `apacheavro` didasarkan pada pustaka Apache Avro resmi. Untuk informasi tentang menyerap file Azure Event Hubs Capture Avro, lihat Pemetaan skema untuk file Azure Event Hubs Capture Avro.
Avro	`.avro`	Implementasi warisan untuk format AVRO berdasarkan pustaka .NET. Codec kompresi berikut didukung: `null`, `deflate` (untuk `snappy` - gunakan format data `ApacheAvro`).
CSV	`.csv`	File teks dengan nilai yang dipisahkan koma (`,`). Lihat RFC 4180: Format Umum dan Jenis MIME untuk File Nilai yang Dipisahkan Koma (CSV).
JSON	`.json`	File teks dengan objek JSON yang dibatasi oleh `\n` atau `\r\n`. Lihat Baris JSON (JSONL).
MultiJSON	`.multijson`	File teks dengan tas properti array JSON (masing-masing mewakili rekaman), atau jumlah tas properti apa pun yang dibatasi oleh spasi kosong, `\n` atau `\r\n`. Setiap tas properti dapat disebarkan di beberapa baris. Format ini lebih disukai daripada `JSON`, kecuali datanya adalah tas nonproperti.
ORC	`.orc`	File ORC.
Parquet	`.parquet`	File Parquet.
PSV	`.psv`	File teks dengan nilai yang dipisahkan pipa (`\|`).
RAW	`.raw`	File teks yang seluruh isinya adalah nilai string tunggal.
SCsv	`.scsv`	File teks dengan nilai yang dipisahkan titik koma (`;`).
SOHsv	`.sohsv`	File teks dengan nilai yang dipisahkan SOH. (SOH adalah ASCII codepoint 1; format ini digunakan oleh Hive pada HDInsight.)
TSV	`.tsv`	File teks dengan nilai yang dipisahkan tab (`\t`).
TSVE	`.tsv`	File teks dengan nilai yang dipisahkan tab (`\t`). Karakter garis miring terbalik (`\`) digunakan untuk pelepasan.
TXT	`.txt`	File teks dengan baris yang dibatasi oleh `\n`. Baris kosong dilewati.
W3CLOGFILE	`.log`	Format file log web yang distandarkan oleh W3C.

Catatan

Penyerapan dari sistem penyimpanan data yang menyediakan fungsionalitas ACID di atas file format Parquet reguler (misalnya Apache Iceberg, Apache Hudi) tidak didukung.
Avro tanpa skema tidak didukung

Format kompresi data yang didukung

Blob dan file dapat dikompresi melalui salah satu algoritma kompresi berikut:

Kompresi	Ekstensi
GZip	.gz
Kode Pos	.Zip

Tunjukkan kompresi dengan menambahkan ekstensi ke nama blob atau file.

Contohnya:

MyData.csv.zip menandakan blob atau file yang diformat sebagai CSV, dikompresi dengan ZIP (arsip atau file tunggal)
MyData.json.gz menandakan blob atau file yang diformat sebagai JSON, dikompresi dengan GZip.

Nama blob atau file yang tidak mencakup ekstensi format, melainkan kompresi saja (misalnya, MyData.zip) juga didukung. Dalam hal ini, format file harus ditentukan sebagai properti penyerapan karena tidak dapat disimpulkan.

Catatan

Beberapa format kompresi melacak ekstensi file asli sebagai bagian dari aliran terkompresi. Ekstensi ini umumnya diabaikan untuk menentukan format file. Jika format file tidak dapat ditentukan dari nama blob atau file (terkompresi), format file harus ditentukan melalui properti penyerapan format.
Jangan sampai tertukar dengan codec kompresi (tingkat gugus) internal yang digunakan oleh format Parquet, AVRO dan ORC. Nama kompresi internal biasanya ditambahkan ke nama file sebelum ekstensi format file, misalnya: file1.gz.parquet, file1.snappy.avro, dll.

Bagikan melalui

Format data yang didukung oleh Real-Time Intelligence

Format kompresi data yang didukung

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Format data yang didukung oleh Real-Time Intelligence

Format kompresi data yang didukung

Konten terkait

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: