Ringkasan penyerapan data Azure Data Explorer
Penyerapan data melibatkan pemuatan data ke dalam tabel di kluster Anda. Azure Data Explorer memastikan validitas data, mengonversi format sesuai kebutuhan, dan melakukan manipulasi seperti pencocokan skema, organisasi, pengindeksan, pengodean, dan pemadatan. Setelah diserap, data tersedia untuk kueri.
Azure Data Explorer menawarkan penyerapan satu kali atau pembentukan alur penyerapan berkelanjutan, menggunakan streaming atau penyerapan antrean. Untuk menentukan mana yang tepat untuk Anda, lihat Penyerapan data satu kali dan Penyerapan data berkelanjutan.
Catatan
Data disimpan dalam penyimpanan sesuai dengan kebijakan penyimpanan yang ditetapkan.
Penyerapan data satu kali
Penyerapan satu kali sangat membantu untuk transfer data historis, mengisi data yang hilang, dan tahap awal pembuatan prototipe dan analisis data. Pendekatan ini memfasilitasi integrasi data cepat tanpa perlu komitmen alur berkelanjutan.
Ada beberapa cara untuk melakukan penyerapan data satu kali. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:
Untuk informasi selengkapnya, lihat dokumentasi yang relevan:
Boks keterangan | Dokumentasi yang relevan |
---|---|
Lihat format data yang didukung oleh Azure Data Explorer untuk penyerapan. | |
Lihat format file yang didukung untuk alur Azure Data Factory. | |
Untuk mengimpor data dari sistem penyimpanan yang ada, lihat Cara menyerap data historis ke Azure Data Explorer. | |
Di UI web Azure Data Explorer, Anda bisa mendapatkan data dari file lokal, Amazon S3, atau Azure Storage. | |
Untuk berintegrasi dengan Azure Data Factory, lihat Menyalin data ke Azure Data Explorer dengan menggunakan Azure Data Factory. | |
Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan. |
Penyerapan data berkelanjutan
Penyerapan berkelanjutan unggul dalam situasi yang menuntut wawasan langsung dari data langsung. Misalnya, penyerapan berkelanjutan berguna untuk memantau sistem, data log dan peristiwa, dan analitik real time.
Penyerapan data berkelanjutan melibatkan pengaturan alur penyerapan dengan streaming atau penyerapan antrean:
Penyerapan streaming: Metode ini memastikan latensi hampir real-time untuk kumpulan data kecil per tabel. Data diserap dalam batch mikro dari sumber streaming, awalnya ditempatkan di penyimpanan baris, lalu ditransfer ke tingkat penyimpanan kolom. Untuk informasi selengkapnya, lihat Mengonfigurasi penyerapan streaming.
Penyerapan antrean: Metode ini dioptimalkan untuk throughput penyerapan tinggi. Data di-batch berdasarkan properti penyerapan, dengan batch kecil kemudian digabungkan dan dioptimalkan untuk hasil kueri cepat. Secara default, nilai antrean maksimum adalah 5 menit, 1000 item, atau ukuran total 1 GB. Batas ukuran data untuk perintah penyerapan antrean adalah 6 GB. Metode ini menggunakan mekanisme coba lagi untuk mengurangi kegagalan sementara dan mengikuti semantik olahpesan 'setidaknya sekali' untuk memastikan tidak ada pesan yang hilang dalam proses. Untuk informasi selengkapnya tentang penyerapan antrean, lihat Kebijakan batching penyerapan.
Catatan
Untuk sebagian besar skenario, sebaiknya gunakan penyerapan antrean karena ini adalah opsi yang lebih berkinerja.
Ada beberapa cara untuk mengonfigurasi penyerapan data berkelanjutan. Gunakan pohon keputusan berikut untuk menentukan opsi yang paling cocok untuk kasus penggunaan Anda:
Untuk informasi selengkapnya, lihat dokumentasi yang relevan:
Boks keterangan | Dokumentasi yang relevan |
---|---|
Untuk daftar konektor, lihat Gambaran umum konektor. | |
Membuat koneksi data Azure Event Hubs. Integrasi dengan Azure Event Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. | |
Menyerap data dari Apache Kafka, platform streaming terdistribusi untuk membangun alur data streaming real time. | |
Buat koneksi data IoT Hub. Integrasi dengan IoT Hubs menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. | |
Membuat koneksi data Event Grid. Integrasi dengan Event Grid menyediakan layanan seperti pembatasan, percobaan ulang, pemantauan, dan pemberitahuan. | |
Lihat panduan untuk konektor yang relevan, seperti Apache Spark, Apache Kafka, Azure Cosmos DB, Fluent Bit, Logstash, Open Telemetry, Power Automate, Splunk, dan banyak lagi. Untuk informasi selengkapnya, lihat Gambaran umum konektor. | |
Pustaka klien Kusto tersedia untuk C#, Python, Java, JavaScript, TypeScript, dan Go. Anda dapat menulis kode untuk memanipulasi data Anda lalu menggunakan pustaka Kusto Ingest untuk menyerap data ke dalam tabel Azure Data Explorer Anda. Data harus dalam salah satu format yang didukung sebelum penyerapan. |
Catatan
Penyerapan streaming tidak didukung untuk semua metode penyerapan. Untuk detail dukungan, periksa dokumentasi untuk metode penyerapan tertentu.
Penyerapan langsung dengan perintah manajemen
Azure Data Explorer menawarkan perintah manajemen penyerapan berikut, yang menyerap data langsung ke kluster Anda alih-alih menggunakan layanan manajemen data. Mereka harus digunakan hanya untuk eksplorasi dan prototipe dan bukan dalam skenario produksi atau volume tinggi.
- Penyerapan sebaris: Perintah .ingest inline berisi data untuk diserap menjadi bagian dari teks perintah itu sendiri. Metode ini dimaksudkan untuk tujuan pengujian improvisasi.
- Menyerap dari kueri: Perintah .set, .append, .set-or-append, atau .set-or-replace secara tidak langsung menentukan data untuk diserap sebagai hasil kueri atau perintah.
- Menyerap dari penyimpanan: Perintah .ingest ke dalam mendapatkan data untuk diserap dari penyimpanan eksternal, seperti Azure Blob Storage, dapat diakses oleh kluster Anda dan diarahkan ke oleh perintah .
Catatan
Jika terjadi kegagalan, penyerapan dilakukan lagi dan dicoba kembali hingga 48 jam menggunakan metode backoff eksponensial untuk waktu tunggu antara percobaan.
Membandingkan metode penyerapan
Tabel berikut membandingkan metode penyerapan utama:
Nama penyerapan | Jenis Data | Ukuran file maksimal | Streaming, diantrekan, langsung | Skenario paling umum | Pertimbangan |
---|---|---|---|---|---|
Konektor Apache Spark | Setiap format yang didukung oleh lingkungan Spark | Tidak Terbatas | Dalam antrean | Alur yang ada, praproscesing pada Spark sebelum penyerapan, cara cepat untuk membuat alur streaming yang aman (Spark) dari berbagai sumber yang dukungan lingkungan Spark. | Pertimbangkan biaya kluster Spark. Untuk penulisan batch, bandingkan dengan koneksi data Azure Data Explorer untuk Event Grid. Untuk streaming Spark, bandingkan dengan koneksi data untuk pusat aktivitas. |
Azure Data Factory (ADF) | Format data yang didukung | Tidak Terbatas. Mewarisi pembatasan ADF. | Antrean atau per pemicu ADF | Mendukung format yang tidak didukung, seperti Excel dan XML, dan dapat menyalin file besar dari lebih dari 90 sumber, dari di perm ke cloud | Metode ini membutuhkan waktu yang relatif lebih lama sampai data diserap. ADF mengunggah semua data ke memori lalu memulai penyerapan. |
Event Grid | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Penyerapan berkelanjutan dari penyimpanan Azure, data eksternal di penyimpanan Azure | Penyerapan dapat dipicu oleh tindakan penggantian nama blob atau pembuatan blob |
Pusat Aktivitas | Format data yang didukung | T/A | Diantrekan, streaming | Pesan, peristiwa | |
Dapatkan pengalaman data | *SV, JSON | 1 GB tidak dikompresi | Antrean atau penyerapan langsung | Satu-off, buat skema tabel, definisi penyerapan berkelanjutan dengan Event Grid, penyerapan massal dengan kontainer (hingga 5.000 blob; tidak ada batasan saat menggunakan penyerapan historis) | |
Pusat IoT | Format data yang didukung | T/A | Diantrekan, streaming | Pesan IoT, peristiwa IoT, properti IoT | |
Konektor Kafka | Avro, ApacheAvro, JSON, CSV, Parquet, dan ORC | Tidak Terbatas. Mewarisi pembatasan Java. | Diantrekan, streaming | Alur yang ada, konsumsi volume tinggi dari sumbernya. | Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan. |
Pustaka klien Kusto | Format data yang didukung | 1 GB tidak dikompresi | Diantrekan, streaming, langsung | Menulis kode Anda sendiri sesuai dengan kebutuhan organisasi | Penyerapan terprogram dioptimalkan untuk mengurangi biaya penyerapan (COG) dengan meminimalkan transaksi penyimpanan selama dan mengikuti proses penyerapan. |
LightIngest | Format data yang didukung | 1 GB tidak dikompresi | Antrean atau penyerapan langsung | Migrasi data, data historis dengan tanda waktu penyerapan yang disesuaikan, penyerapan massal | Peka huruf besar/kecil dan peka spasi |
Aplikasi Logika | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Digunakan untuk mengotomatiskan alur | |
LogStash | JSON | Tidak Terbatas. Mewarisi pembatasan Java. | Dalam antrean | Alur yang ada, gunakan sifat Logstash yang matang dan sumber terbuka untuk konsumsi volume tinggi dari input. | Preferensi dapat ditentukan oleh penggunaan beberapa produsen atau layanan konsumen yang ada atau tingkat manajemen layanan yang diinginkan. |
Power Automate | Format data yang didukung | 1 GB tidak dikompresi | Dalam antrean | Perintah penyerapan sebagai bagian dari alur. Digunakan untuk mengotomatiskan alur. |
Untuk informasi tentang konektor lain, lihat Gambaran umum konektor.
Izin
Daftar berikut ini menjelaskan izin yang diperlukan untuk berbagai skenario penyerapan:
- Untuk membuat tabel baru memerlukan setidaknya izin Pengguna Database.
- Untuk menyerap data ke dalam tabel yang ada, tanpa mengubah skemanya, memerlukan setidaknya izin Database Ingestor.
- Untuk mengubah skema tabel yang ada memerlukan setidaknya izin Admin Tabel atau Admin Database.
Untuk informasi selengkapnya, lihat Kontrol akses berbasis peran Kusto.
Proses penyerapan
Langkah-langkah berikut menguraikan proses penyerapan umum:
Atur kebijakan batching (opsional): Data di-batch berdasarkan kebijakan batching penyerapan. Untuk panduan, lihat Mengoptimalkan throughput.
Atur kebijakan penyimpanan (opsional): Jika kebijakan penyimpanan database tidak cocok untuk kebutuhan Anda, ambil alih di tingkat tabel. Untuk informasi selengkapnya, lihat Kebijakan retensi.
Buat tabel: Jika Anda menggunakan pengalaman Dapatkan data, Anda bisa membuat tabel sebagai bagian dari alur penyerapan. Jika tidak, buat tabel sebelum penyerapan di UI web Azure Data Explorer atau dengan perintah .create table.
Membuat pemetaan skema: Pemetaan skema membantu mengikat bidang data sumber ke kolom tabel tujuan. Berbagai jenis pemetaan didukung, termasuk format berorientasi baris seperti CSV, JSON, dan AVRO, dan format berorientasi kolom seperti Parquet. Di sebagian besar metode, pemetaan juga dapat dibuat sebelumnya pada tabel.
Atur kebijakan pembaruan (opsional): Format data tertentu seperti Parquet, JSON, dan Avro mengaktifkan transformasi waktu penyerapan langsung. Untuk pemrosesan yang lebih rumit selama penyerapan, gunakan kebijakan pembaruan. Kebijakan ini secara otomatis menjalankan ekstraksi dan transformasi pada data yang diserap dalam tabel asli, lalu menyerap data yang dimodifikasi menjadi satu atau beberapa tabel tujuan.
Menyerap data: Gunakan alat penyerapan, konektor, atau metode pilihan Anda untuk membawa data.