Ringkasan penyerapan data Azure Data Explorer

Penyerapan data melibatkan pemuatan data ke dalam tabel di kluster Anda. Azure Data Explorer memastikan validitas data, mengonversi format sesuai kebutuhan, dan melakukan manipulasi seperti pencocokan skema, organisasi, pengindeksan, pengodean, dan pemadatan. Setelah diserap, data tersedia untuk kueri.

Azure Data Explorer menawarkan penyerapan satu kali atau pembentukan alur penyerapan berkelanjutan, menggunakan penyerapan streaming atau antrean. Untuk menentukan mana yang tepat untuk Anda, lihat Penyerapan data satu kali dan Penyerapan data berkelanjutan.

Catatan

Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.

Penyerapan data satu kali

Penyerapan satu kali sangat membantu untuk transfer data historis, mengisi data yang hilang, dan tahap awal pembuatan prototipe dan analisis data. Pendekatan ini memfasilitasi integrasi data yang cepat tanpa perlu komitmen alur berkelanjutan.

Ada beberapa cara untuk melakukan penyerapan data satu kali. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Bagan alur untuk pengambilan keputusan penyerapan satu kali.

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Boks keterangan Dokumentasi yang relevan
Lihat format data yang didukung oleh Azure Data Explorer untuk penyerapan.
Lihat format file yang didukung untuk alur Azure Data Factory.
Untuk mengimpor data dari sistem penyimpanan yang ada, lihat Cara menyerap data historis ke Azure Data Explorer.
Di antarmuka pengguna web Azure Data Explorer, Anda bisa mendapatkan data dari file lokal, Amazon S3, atau Azure Storage.
Untuk berintegrasi dengan Azure Data Factory, lihat Menyalin data ke Azure Data Explorer dengan menggunakan Azure Data Factory.
Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Penyerapan data berkelanjutan

Penyerapan berkelanjutan unggul dalam situasi yang menuntut wawasan langsung dari data langsung. Misalnya, penyerapan berkelanjutan berguna untuk sistem pemantauan, data log dan peristiwa, dan analitik real time.

Penyerapan data berkelanjutan melibatkan pengaturan alur penyerapan dengan penyerapan streaming atau antrean:

  • Penyerapan streaming: Metode ini memastikan latensi hampir real-time untuk sekumpulan kecil data per tabel. Data diserap dalam batch mikro dari sumber streaming, awalnya ditempatkan di penyimpanan baris, lalu ditransfer ke tingkat penyimpanan kolom. Untuk informasi selengkapnya, lihat Mengonfigurasi penyerapan streaming.

  • Penyerapan antrean: Metode ini dioptimalkan untuk throughput penyerapan tinggi. Data di-batch berdasarkan properti penyerapan, dengan batch kecil kemudian digabungkan dan dioptimalkan untuk hasil kueri yang cepat. Secara default, nilai antrean maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah penyerapan antrean adalah 6 GB. Metode ini menggunakan mekanisme coba lagi untuk mengurangi kegagalan sementara dan mengikuti semantik pesan 'setidaknya sekali' untuk memastikan tidak ada pesan yang hilang dalam prosesnya. Untuk informasi selengkapnya tentang penyerapan antrean, lihat Kebijakan batching penyerapan.

Catatan

Untuk sebagian besar skenario, sebaiknya gunakan penyerapan antrean karena ini adalah opsi yang lebih berkinerja.

Ada beberapa cara untuk mengonfigurasi penyerapan data berkelanjutan. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:

Diagram pohon keputusan untuk penyerapan berkelanjutan.

Untuk informasi selengkapnya, lihat dokumentasi yang relevan:

Boks keterangan Dokumentasi yang relevan
Untuk daftar konektor, lihat Gambaran umum konektor.
Membuat koneksi data Azure Event Hubs. Integrasi dengan Azure Event Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
Menyerap data dari Apache Kafka, platform streaming terdistribusi untuk membangun alur data streaming real time.
Membuat koneksi data IoT Hub. Integrasi dengan IoT Hub menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
Membuat koneksi data Event Grid. Integrasi dengan Event Grid menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan.
Lihat panduan untuk konektor yang relevan, seperti Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk, dan banyak lagi. Untuk informasi selengkapnya, lihat Gambaran umum konektor.
Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan.

Catatan

Penyerapan streaming tidak didukung untuk semua metode penyerapan. Untuk detail dukungan, periksa dokumentasi untuk metode penyerapan tertentu.

Penyerapan langsung dengan perintah manajemen

Azure Data Explorer menawarkan perintah manajemen penyerapan berikut, yang menyerap data langsung ke kluster Anda alih-alih menggunakan layanan manajemen data. Mereka harus digunakan hanya untuk eksplorasi dan prototipe dan bukan dalam skenario produksi atau volume tinggi.

  • Penyerapan sebaris: Perintah .ingest inline berisi data untuk diserap menjadi bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.
  • Menyerap dari kueri: Perintah .set, .append, .set-or-append, atau .set-or-replace secara tidak langsung menentukan data untuk diserap sebagai hasil kueri atau perintah.
  • Menyerap dari penyimpanan: Perintah .ingest into mendapatkan data untuk diserap dari penyimpanan eksternal, seperti Azure Blob Storage, dapat diakses oleh kluster Anda dan diarahkan ke oleh perintah .

Membandingkan metode penyerapan

Tabel berikut membandingkan metode penyerapan utama:

Nama penyerapan Jenis Data Ukuran file maksimal Streaming, diantrekan, langsung Skenario paling umum Pertimbangan
Konektor Apache Spark Setiap format yang didukung oleh lingkungan Spark Tidak Terbatas Dalam antrean Alur yang ada, praproscessing pada Spark sebelum penyerapan, cara cepat untuk membuat alur streaming yang aman (Spark) dari berbagai sumber yang didukung lingkungan Spark. Pertimbangkan biaya kluster Spark. Untuk penulisan batch, bandingkan dengan koneksi data Azure Data Explorer untuk Event Grid. Untuk streaming Spark, bandingkan dengan koneksi data untuk pusat aktivitas.
Azure Data Factory (ADF) Format data yang didukung Tidak Terbatas. Mewarisi pembatasan ADF. Antrean atau per pemicu ADF Mendukung format yang tidak didukung, seperti Excel dan XML, dan dapat menyalin file besar dari lebih dari 90 sumber, dari perm ke cloud Metode ini membutuhkan waktu yang relatif lebih lama sampai data diserap. ADF mengunggah semua data ke memori lalu memulai penyerapan.
Event Grid Format data yang didukung 1 GB tidak dikompresi Dalam antrean Penyerapan berkelanjutan dari penyimpanan Azure, data eksternal di penyimpanan Azure Penyerapan dapat dipicu oleh penggantian nama blob atau tindakan pembuatan blob
Pusat Aktivitas Format data yang didukung T/A Diantrekan, streaming Pesan, peristiwa
Mendapatkan pengalaman data *SV, JSON 1 GB tidak dikompresi Penyerapan antrean atau langsung Satu-off, buat skema tabel, definisi penyerapan berkelanjutan dengan Event Grid, penyerapan massal dengan kontainer (hingga 5.000 blob; tidak ada batasan saat menggunakan penyerapan historis)
IoT Hub Format data yang didukung T/A Diantrekan, streaming Pesan IoT, peristiwa IoT, properti IoT
Konektor Kafka Avro, ApacheAvro, JSON, CSV, Parquet, dan ORC Tidak Terbatas. Mewarisi pembatasan Java. Diantrekan, streaming Alur yang ada, konsumsi volume tinggi dari sumbernya. Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Pustaka klien Kusto Format data yang didukung 1 GB tidak dikompresi Diantrekan, streaming, langsung Tulis kode Anda sendiri sesuai dengan kebutuhan organisasi Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG) dengan meminimalkan transaksi penyimpanan selama dan mengikuti proses penyerapan.
LightIngest Format data yang didukung 1 GB tidak dikompresi Penyerapan antrean atau langsung Migrasi data, data historis dengan tanda waktu penyerapan yang disesuaikan, penyerapan massal Peka huruf besar/kecil dan peka spasi
Logic Apps Format data yang didukung 1 GB tidak dikompresi Dalam antrean Digunakan untuk mengotomatiskan alur
LogStash JSON Tidak Terbatas. Mewarisi pembatasan Java. Dalam antrean Alur yang ada, gunakan sifat Logstash yang matang dan sumber terbuka untuk konsumsi volume tinggi dari input. Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan.
Power Automate Format data yang didukung 1 GB tidak dikompresi Dalam antrean Perintah penyerapan sebagai bagian dari alur. Digunakan untuk mengotomatiskan alur.

Untuk informasi tentang konektor lain, lihat Gambaran umum konektor.

Izin

Daftar berikut ini menjelaskan izin yang diperlukan untuk berbagai skenario penyerapan:

  • Untuk membuat tabel baru memerlukan setidaknya izin Pengguna Database.
  • Untuk menyerap data ke dalam tabel yang sudah ada, tanpa mengubah skemanya, memerlukan setidaknya izin Database Ingestor.
  • Untuk mengubah skema tabel yang sudah ada memerlukan setidaknya izin Admin Tabel atau Admin Database.

Untuk informasi selengkapnya, lihat Kontrol akses berbasis peran Kusto.

Proses penyerapan

Langkah-langkah berikut menguraikan proses penyerapan umum:

  1. Atur kebijakan batching (opsional): Data di-batch berdasarkan kebijakan batching penyerapan. Untuk panduan, lihat Mengoptimalkan throughput.

  2. Atur kebijakan penyimpanan (opsional): Jika kebijakan penyimpanan database tidak cocok untuk kebutuhan Anda, ganti di tingkat tabel. Untuk informasi selengkapnya, lihat Kebijakan retensi.

  3. Buat tabel: Jika Anda menggunakan pengalaman Dapatkan data, Anda bisa membuat tabel sebagai bagian dari alur penyerapan. Jika tidak, buat tabel sebelum penyerapan di antarmuka pengguna web Azure Data Explorer atau dengan perintah .create table.

  4. Membuat pemetaan skema: Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Berbagai jenis pemetaan didukung, termasuk format berorientasi baris seperti CSV, JSON, dan AVRO, dan format berorientasi kolom seperti Parquet. Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya pada tabel.

  5. Atur kebijakan pembaruan (opsional): Format data tertentu seperti Parquet, JSON, dan Avro memungkinkan transformasi ingest-time yang mudah. Untuk pemrosesan yang lebih rumit selama penyerapan, gunakan kebijakan pembaruan. Kebijakan ini secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap dalam tabel asli, lalu menyerap data yang dimodifikasi menjadi satu atau beberapa tabel tujuan.

  6. Menyerap data: Gunakan alat penyerapan, konektor, atau metode pilihan Anda untuk membawa data.