Ringkasan penyerapan data Azure Data Explorer

Artikel
02/16/2024

Penyerapan data melibatkan pemuatan data ke dalam tabel di kluster Anda. Azure Data Explorer memastikan validitas data, mengonversi format sesuai kebutuhan, dan melakukan manipulasi seperti pencocokan skema, organisasi, pengindeksan, pengodean, dan pemadatan. Setelah diserap, data tersedia untuk kueri.

Azure Data Explorer menawarkan penyerapan satu kali atau pembentukan alur penyerapan berkelanjutan, menggunakan streaming atau penyerapan antrean. Untuk menentukan mana yang tepat untuk Anda, lihat Penyerapan data satu kali dan Penyerapan data berkelanjutan.

Catatan

Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.

Penyerapan data satu kali

Penyerapan satu kali sangat membantu untuk transfer data historis, mengisi data yang hilang, dan tahap awal pembuatan prototipe dan analisis data. Pendekatan ini memfasilitasi integrasi data cepat tanpa perlu komitmen alur berkelanjutan.

Ada beberapa cara untuk melakukan penyerapan data satu kali. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Boks keterangan	Dokumentasi yang relevan
	Lihat format data yang didukung oleh Azure Data Explorer untuk penyerapan.
	Lihat format file yang didukung untuk alur Azure Data Factory.
	Untuk mengimpor data dari sistem penyimpanan yang ada, lihat Cara menyerap data historis ke Azure Data Explorer.
	Di UI web Azure Data Explorer, Anda bisa mendapatkan data dari file lokal, Amazon S3, atau Azure Storage.
	Untuk berintegrasi dengan Azure Data Factory, lihat Menyalin data ke Azure Data Explorer dengan menggunakan Azure Data Factory.
	Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Penyerapan data berkelanjutan

Penyerapan berkelanjutan unggul dalam situasi yang menuntut wawasan langsung dari data langsung. Misalnya, penyerapan berkelanjutan berguna untuk memantau sistem, data log dan peristiwa, dan analitik real time.

Penyerapan data berkelanjutan melibatkan pengaturan alur penyerapan dengan streaming atau penyerapan antrean:

Penyerapan streaming: Metode ini memastikan latensi hampir real-time untuk kumpulan data kecil per tabel. Data diserap dalam batch mikro dari sumber streaming, awalnya ditempatkan di penyimpanan baris, lalu ditransfer ke tingkat penyimpanan kolom. Untuk informasi selengkapnya, lihat Mengonfigurasi penyerapan streaming.
Penyerapan antrean: Metode ini dioptimalkan untuk throughput penyerapan tinggi. Data di-batch berdasarkan properti penyerapan, dengan batch kecil kemudian digabungkan dan dioptimalkan untuk hasil kueri cepat. Secara default, nilai antrean maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah penyerapan antrean adalah 6 GB. Metode ini menggunakan mekanisme coba lagi untuk mengurangi kegagalan sementara dan mengikuti semantik olahpesan 'setidaknya sekali' untuk memastikan tidak ada pesan yang hilang dalam proses. Untuk informasi selengkapnya tentang penyerapan antrean, lihat Kebijakan batching penyerapan.

Catatan

Untuk sebagian besar skenario, sebaiknya gunakan penyerapan antrean karena ini adalah opsi yang lebih berkinerja.

Ada beberapa cara untuk mengonfigurasi penyerapan data berkelanjutan. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Boks keterangan	Dokumentasi yang relevan
	Untuk daftar konektor, lihat Gambaran umum konektor.
	Membuat koneksi data Azure Event Hubs. Integrasi dengan Azure Event Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Menyerap data dari Apache Kafka, platform streaming terdistribusi untuk membangun alur data streaming real time.
	Buat koneksi data IoT Hub. Integrasi dengan IoT Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Membuat koneksi data Event Grid. Integrasi dengan Event Grid menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
	Lihat panduan untuk konektor yang relevan, seperti Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk, dan banyak lagi. Untuk informasi selengkapnya, lihat Gambaran umum konektor.
	Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Catatan

Penyerapan streaming tidak didukung untuk semua metode penyerapan. Untuk detail dukungan, periksa dokumentasi untuk metode penyerapan tertentu.

Penyerapan langsung dengan perintah manajemen

Azure Data Explorer menawarkan perintah manajemen penyerapan berikut, yang menyerap data langsung ke kluster Anda alih-alih menggunakan layanan manajemen data. Mereka harus digunakan hanya untuk eksplorasi dan prototipe dan bukan dalam skenario produksi atau volume tinggi.

Penyerapan sebaris: Perintah .ingest inline berisi data untuk diserap menjadi bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.
Menyerap dari kueri: Perintah .set, .append, .set-or-append, atau .set-or-replace secara tidak langsung menentukan data untuk diserap sebagai hasil kueri atau perintah.
Menyerap dari penyimpanan: Perintah .ingest ke dalam mendapatkan data untuk diserap dari penyimpanan eksternal, seperti Azure Blob Storage, dapat diakses oleh kluster Anda dan diarahkan ke oleh perintah .

Catatan

Jika terjadi kegagalan, penyerapan dilakukan lagi dan dicoba kembali hingga 48 jam menggunakan metode backoff eksponensial untuk waktu tunggu antara percobaan.

Membandingkan metode penyerapan

Tabel berikut membandingkan metode penyerapan utama:

Nama penyerapan	Jenis Data	Ukuran file maksimal	Streaming, diantrekan, langsung	Skenario paling umum	Pertimbangan
Konektor Apache Spark	Setiap format yang didukung oleh lingkungan Spark	Tidak Terbatas	Dalam antrean	Alur yang ada, praproscesing pada Spark sebelum penyerapan, cara cepat untuk membuat alur streaming yang aman (Spark) dari berbagai sumber yang dukungan lingkungan Spark.	Pertimbangkan biaya kluster Spark. Untuk penulisan batch, bandingkan dengan koneksi data Azure Data Explorer untuk Event Grid. Untuk streaming Spark, bandingkan dengan koneksi data untuk pusat aktivitas.
Azure Data Factory (ADF)	Format data yang didukung	Tidak Terbatas. Mewarisi pembatasan ADF.	Antrean atau per pemicu ADF	Mendukung format yang tidak didukung, seperti Excel dan XML, dan dapat menyalin file besar dari lebih dari 90 sumber, dari di perm ke cloud	Metode ini membutuhkan waktu yang relatif lebih lama sampai data diserap. ADF mengunggah semua data ke memori lalu memulai penyerapan.
Event Grid	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Penyerapan berkelanjutan dari penyimpanan Azure, data eksternal di penyimpanan Azure	Penyerapan dapat dipicu oleh tindakan penggantian nama blob atau pembuatan blob
Pusat Aktivitas	Format data yang didukung	T/A	Diantrekan, streaming	Pesan, peristiwa
Dapatkan pengalaman data	*SV, JSON	1 GB tidak dikompresi	Antrean atau penyerapan langsung	Satu-off, buat skema tabel, definisi penyerapan berkelanjutan dengan Event Grid, penyerapan massal dengan kontainer (hingga 5.000 blob; tidak ada batasan saat menggunakan penyerapan historis)
Pusat IoT	Format data yang didukung	T/A	Diantrekan, streaming	Pesan IoT, peristiwa IoT, properti IoT
Konektor Kafka	Avro, ApacheAvro, JSON, CSV, Parquet, dan ORC	Tidak Terbatas. Mewarisi pembatasan Java.	Diantrekan, streaming	Alur yang ada, konsumsi volume tinggi dari sumbernya.	Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Pustaka klien Kusto	Format data yang didukung	1 GB tidak dikompresi	Diantrekan, streaming, langsung	Menulis kode Anda sendiri sesuai dengan kebutuhan organisasi	Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG) dengan meminimalkan transaksi penyimpanan selama dan mengikuti proses penyerapan.
LightIngest	Format data yang didukung	1 GB tidak dikompresi	Antrean atau penyerapan langsung	Migrasi data, data historis dengan tanda waktu penyerapan yang disesuaikan, penyerapan massal	Peka huruf besar/kecil dan peka spasi
Aplikasi Logika	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Digunakan untuk mengotomatiskan alur
LogStash	JSON	Tidak Terbatas. Mewarisi pembatasan Java.	Dalam antrean	Alur yang ada, gunakan sifat Logstash yang matang dan sumber terbuka untuk konsumsi volume tinggi dari input.	Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Power Automate	Format data yang didukung	1 GB tidak dikompresi	Dalam antrean	Perintah penyerapan sebagai bagian dari alur. Digunakan untuk mengotomatiskan alur.

Untuk informasi tentang konektor lain, lihat Gambaran umum konektor.

Izin

Daftar berikut ini menjelaskan izin yang diperlukan untuk berbagai skenario penyerapan:

Untuk membuat tabel baru memerlukan setidaknya izin Pengguna Database.
Untuk menyerap data ke dalam tabel yang ada, tanpa mengubah skemanya, memerlukan setidaknya izin Database Ingestor.
Untuk mengubah skema tabel yang ada memerlukan setidaknya izin Admin Tabel atau Admin Database.

Untuk informasi selengkapnya, lihat Kontrol akses berbasis peran Kusto.

Proses penyerapan

Langkah-langkah berikut menguraikan proses penyerapan umum:

Atur kebijakan batching (opsional): Data di-batch berdasarkan kebijakan batching penyerapan. Untuk panduan, lihat Mengoptimalkan throughput.
Atur kebijakan penyimpanan (opsional): Jika kebijakan penyimpanan database tidak cocok untuk kebutuhan Anda, ambil alih di tingkat tabel. Untuk informasi selengkapnya, lihat Kebijakan retensi.
Buat tabel: Jika Anda menggunakan pengalaman Dapatkan data, Anda bisa membuat tabel sebagai bagian dari alur penyerapan. Jika tidak, buat tabel sebelum penyerapan di UI web Azure Data Explorer atau dengan perintah .create table.
Membuat pemetaan skema: Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Berbagai jenis pemetaan didukung, termasuk format berorientasi baris seperti CSV, JSON, dan AVRO, dan format berorientasi kolom seperti Parquet. Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya pada tabel.
Atur kebijakan pembaruan (opsional): Format data tertentu seperti Parquet, JSON, dan Avro mengaktifkan transformasi waktu penyerapan langsung. Untuk pemrosesan yang lebih rumit selama penyerapan, gunakan kebijakan pembaruan. Kebijakan ini secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap dalam tabel asli, lalu menyerap data yang dimodifikasi menjadi satu atau beberapa tabel tujuan.
Menyerap data: Gunakan alat penyerapan, konektor, atau metode pilihan Anda untuk membawa data.

Bagikan melalui

Ringkasan penyerapan data Azure Data Explorer

Penyerapan data satu kali

Penyerapan data berkelanjutan

Penyerapan langsung dengan perintah manajemen

Membandingkan metode penyerapan

Izin

Proses penyerapan

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

Ringkasan penyerapan data Azure Data Explorer

Penyerapan data satu kali

Penyerapan data berkelanjutan

Penyerapan langsung dengan perintah manajemen

Membandingkan metode penyerapan

Izin

Proses penyerapan

Konten terkait

Saran dan Komentar

Sumber Daya Tambahan: