Ringkasan penyerapan data Azure Data Explorer

2025-05-29

Penyerapan data melibatkan pemuatan data ke dalam tabel di kluster Anda. Azure Data Explorer memastikan validitas data, mengonversi format sesuai kebutuhan, dan melakukan manipulasi seperti pencocokan skema, organisasi, pengindeksan, pengodean, dan pemadatan. Setelah diproses, data tersedia untuk diakses.

Azure Data Explorer menawarkan ingesti sekali atau pembangunan alur ingesti berkelanjutan, menggunakan streaming atau ingesti antrian. Untuk menentukan mana yang tepat untuk Anda, lihat Penyerapan data satu kali dan Penyerapan data berkelanjutan.

Catatan

Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.

Penyerapan data satu kali

Penyerapan satu kali sangat membantu untuk transfer data historis, mengisi data yang hilang, dan tahap awal pembuatan prototipe dan analisis data. Pendekatan ini memfasilitasi integrasi data cepat tanpa perlu komitmen alur berkelanjutan.

Ada beberapa cara untuk melakukan penyerapan data satu kali. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Penanda	Dokumentasi yang relevan
	Lihat format data yang didukung oleh Azure Data Explorer untuk penyerapan.
	Lihat format file yang didukung untuk alur Azure Data Factory.
	Untuk mengimpor data dari sistem penyimpanan yang ada, lihat Cara menyerap data historis ke Azure Data Explorer.
	Di UI web Azure Data Explorer, Anda bisa mendapatkan data dari file lokal, Amazon S3, atau Azure Storage.
	Untuk berintegrasi dengan Azure Data Factory, lihat Menyalin data ke Azure Data Explorer dengan menggunakan Azure Data Factory.
	Perpustakaan klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Penyerapan data berkelanjutan

Penyerapan berkelanjutan unggul dalam situasi yang menuntut wawasan langsung dari data langsung. Misalnya, pengumpulan berkelanjutan berguna untuk memantau sistem, data log dan peristiwa, serta analitik waktu nyata.

Penyerapan data berkelanjutan melibatkan pengaturan jalur penyerapan dengan streaming atau pengantrean.

Penyerapan streaming: Metode ini memastikan latensi mendekati real-time untuk kumpulan data kecil per tabel. Data diserap dalam batch mikro yang berasal dari sumber streaming, awalnya ditempatkan di penyimpanan baris, lalu ditransfer ke segmen penyimpanan kolom. Untuk informasi selengkapnya, lihat Mengonfigurasi ingesti streaming.
Antrean penyerapan: Metode ini dioptimalkan untuk throughput penyerapan tinggi. Data di-batch berdasarkan properti penyerapan, dengan batch kecil kemudian digabungkan dan dioptimalkan untuk hasil kueri cepat. Secara default, nilai antrean maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah pemasukan antrean adalah 6 GB. Metode ini menggunakan mekanisme pengulangan untuk mengurangi kegagalan sementara dan mengikuti semantik pengiriman pesan 'setidaknya sekali' untuk memastikan pesan tidak hilang dalam proses. Untuk informasi selengkapnya tentang pemasukan antrean, lihat Kebijakan pengelompokan pemasukan.

Catatan

Untuk sebagian besar skenario, sebaiknya gunakan pengambilan antrean karena ini adalah opsi yang memiliki kinerja lebih baik.

Catatan

Penyerapan melalui antrean memastikan buffering data yang dapat diandalkan selama hingga 7 hari. Namun, jika kluster tidak memiliki kapasitas yang memadai untuk menyelesaikan penyerapan dalam jendela retensi ini, data akan dihilangkan setelah batas 7 hari terlampaui. Untuk menghindari kehilangan data dan penundaan penyerapan, pastikan kluster Anda memiliki sumber daya yang cukup untuk memproses data yang diantrekan dalam periode 7 hari.

Ada beberapa cara untuk mengonfigurasi penyerapan data berkelanjutan. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Penanda	Dokumentasi yang relevan
	Untuk daftar konektor, lihat Gambaran umum konektor.
	Membuat koneksi data Event Hubs. Integrasi dengan Azure Event Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Menyerap data dari Apache Kafka, platform streaming terdistribusi untuk membangun alur data streaming real time.
	Buat sambungan data IoT Hub. Integrasi dengan IoT Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Membuat sebuah koneksi data Event Grid. Integrasi dengan Event Grid menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Lihat panduan untuk konektor yang relevan, seperti Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk, dan banyak lagi. Untuk informasi selengkapnya, lihat Gambaran umum konektor.
	Perpustakaan klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Catatan

Pemasukan data streaming tidak didukung untuk semua metode pemasukan. Untuk detail dukungan, periksa dokumentasi untuk metode penyerapan tertentu.

Penyerapan langsung dengan perintah manajemen

Azure Data Explorer menawarkan perintah manajemen penyerapan berikut, yang menyerap data langsung ke kluster Anda alih-alih menggunakan layanan manajemen data. Mereka harus digunakan hanya untuk eksplorasi dan prototipe dan bukan dalam skenario produksi atau volume tinggi.

Pengambilan Sebaris: Perintah .ingest inline berisi data untuk diambil sebagai bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.
Menyerap dari kueri: Perintah .set, .append, .set-or-append, atau .set-or-replace secara tidak langsung menentukan data untuk diserap sebagai hasil kueri atau perintah.
Ingest dari penyimpanan: Perintah .ingest into mendapatkan data untuk di-ingest dari penyimpanan eksternal, seperti Azure Blob Storage, yang dapat diakses oleh kluster Anda dan ditunjuk oleh perintah.

Catatan

Jika terjadi kegagalan, penyerapan dilakukan lagi, dan dicoba kembali hingga 48 jam menggunakan metode backoff eksponensial untuk waktu tunggu antara percobaan.

Membandingkan metode penyerapan

Tabel berikut membandingkan metode penyerapan utama:

Nama penyerapan	Jenis Data	Ukuran file maksimal	Streaming, diantrekan, langsung	Skenario paling umum	Pertimbangan
Konektor Apache Spark	Setiap format yang didukung oleh lingkungan Spark	Tidak Terbatas	Dalam antrean	Pipa data yang ada, prapengolahan pada Spark sebelum penyerapan, adalah cara cepat untuk membuat alur streaming (Spark) yang aman dari berbagai sumber yang didukung oleh lingkungan Spark.	Pertimbangkan biaya kluster Spark. Untuk penulisan batch, bandingkan dengan koneksi data Azure Data Explorer untuk Event Grid. Untuk streaming Spark, bandingkan dengan koneksi data untuk pusat aktivitas.
Azure Data Factory (ADF)	Format data yang didukung	Tidak Terbatas. Mewarisi pembatasan ADF.	Antrean atau per pemicu ADF	Mendukung format yang tidak didukung, seperti Excel dan XML, dan dapat menyalin file besar dari lebih dari 90 sumber, dari lokal ke cloud	Metode ini membutuhkan waktu yang relatif lebih lama sampai data diserap. ADF mengunggah semua data ke memori lalu memulai penyerapan.
Event Grid	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Penyerapan berkelanjutan dari penyimpanan Azure, data eksternal di penyimpanan Azure	Penyerapan dapat dipicu oleh tindakan penggantian nama blob atau pembuatan blob
Hub Acara	Format data yang didukung	Tidak Berlaku	Dalam Antrian, streaming	Pesan, peristiwa
Dapatkan pengalaman data	*SV, JSON	1 GB tidak dikompresi	Antrean atau penyerapan langsung	Sekali, buat skema tabel, definisi ingestasi berkelanjutan dengan Event Grid, ingestasi massal dengan kontainer (hingga 5.000 blob; tidak ada batasan saat menggunakan ingestasi historis)
Pusat IoT	Format data yang didukung	Tidak Berlaku	Dalam Antrian, streaming	Pesan IoT, peristiwa IoT, properti IoT
Konektor Kafka	Avro, ApacheAvro, JSON, CSV, Parquet, dan ORC	Tidak Terbatas. Mewarisi pembatasan Java.	Dalam Antrian, streaming	Alur yang ada, konsumsi volume tinggi dari sumbernya.	Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Pustaka klien Kusto	Format data yang didukung	1 GB tidak dikompresi	Diantrekan, streaming, langsung	Menulis kode Anda sendiri sesuai dengan kebutuhan organisasi	Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG) dengan meminimalkan transaksi penyimpanan selama dan mengikuti proses penyerapan.
LightIngest	Format data yang didukung	1 GB tidak dikompresi	Antrean atau penyerapan langsung	Migrasi data, data historis dengan tanda waktu penyerapan yang disesuaikan, penyerapan massal	Peka huruf besar/kecil dan peka spasi
Aplikasi Logika	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Digunakan untuk mengotomatiskan alur
LogStash	JSON	Tidak Terbatas. Mewarisi pembatasan Java.	Dalam antrean	Alur yang ada, gunakan sifat Logstash yang matang dan sumber terbuka untuk konsumsi volume tinggi dari input.	Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Otomatisasi Daya	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Perintah penyerapan sebagai bagian dari alur. Digunakan untuk mengotomatiskan alur.

Untuk informasi tentang konektor lain, lihat Gambaran umum konektor.

Izin

Daftar berikut ini menjelaskan izin yang diperlukan untuk berbagai skenario penyerapan:

Untuk membuat tabel baru, Anda harus memiliki setidaknya izin Pengguna Database.
Untuk menyerap data ke dalam tabel yang ada, tanpa mengubah skemanya, Anda harus memiliki setidaknya izin Table Ingestor.
Untuk mengubah skema tabel yang sudah ada, Anda harus memiliki setidaknya izin Admin Tabel atau Admin Database.

Tabel berikut ini menjelaskan izin yang diperlukan untuk setiap metode penyerapan:

Metode penyerapan	Izin
Penyerapan satu kali	Setidaknya Table Ingestor
Penyerapan streaming berkelanjutan	Setidaknya Table Ingestor
Pengambilan data berurutan berkelanjutan	Setidaknya Table Ingestor
Penyerapan sebaris langsung	Setidaknya Table Ingestor dan Database Viewer
Pengambilan data langsung dari kueri	Setidaknya Table Ingestor dan Database Viewer
Penyerapan langsung dari penyimpanan	Setidaknya Table Ingestor

Untuk informasi selengkapnya, lihat Kontrol akses berbasis peran Kusto.

Proses penyerapan

Langkah-langkah berikut menguraikan proses penyerapan umum:

Atur kebijakan pengelompokan (opsional): Data dikelompokkan berdasarkan kebijakan pengelompokan untuk pemasukan. Untuk panduan, lihat Mengoptimalkan throughput.
Atur kebijakan penyimpanan (opsional): Jika kebijakan penyimpanan database tidak cocok untuk kebutuhan Anda, ambil alih di tingkat tabel. Untuk informasi selengkapnya, lihat Kebijakan retensi.
Buat tabel: Jika Anda menggunakan pengalaman Dapatkan data, Anda bisa membuat tabel sebagai bagian dari alur penyerapan. Jika tidak, buat tabel sebelum penyerapan di UI web Azure Data Explorer atau dengan perintah .create table.
Membuat pemetaan skema: Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Berbagai jenis pemetaan didukung, termasuk format berorientasi baris seperti CSV, JSON, dan AVRO, dan format berorientasi kolom seperti Parquet. Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya pada tabel.
Atur kebijakan pembaruan (opsional): Format data tertentu seperti Parquet, JSON, dan Avro memungkinkan transformasi langsung pada waktu pemasukan data. Untuk pemrosesan yang lebih rumit selama penyerapan, gunakan kebijakan pembaruan. Kebijakan ini secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap dalam tabel asli, lalu menyerap data yang dimodifikasi menjadi satu atau beberapa tabel tujuan.
Menyerap data: Gunakan alat penyerapan, konektor, atau metode pilihan Anda untuk membawa data.

Bagikan melalui

Ringkasan penyerapan data Azure Data Explorer

Penyerapan data satu kali

Penyerapan data berkelanjutan

Penyerapan langsung dengan perintah manajemen

Membandingkan metode penyerapan

Izin

Proses penyerapan

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: