Cara kerja Azure Data Explorer
Azure Data Explorer menyediakan performa yang tak tertandingi untuk menyerap dan mengkueri telemetri, log, peristiwa, jejak, dan data rangkaian waktu. Ini fitur format penyimpanan yang dioptimalkan, indeks, dan menggunakan statistik data tingkat lanjut untuk perencanaan kueri yang efisien dan eksekusi kueri yang dikompilasi just-in-time.
Penyimpanan vs. komputasi
Azure Data Explorer memisahkan sumber daya penyimpanan dan komputasi. Data persisten berada di Azure Blob Storage, sementara sumber daya komputasi dapat menyimpan data sementara atau bertindak sebagai cache untuk penyimpanan persisten.
Pemisahan ini memberikan keuntungan berikut:
- Peluasan skala independen penyimpanan dan sumber daya komputasi.
- Aksesibilitas ke data yang identik di beberapa kluster komputasi. Untuk informasi selengkapnya, lihat Berbagi data.
- Pengoptimalan SKU. Untuk informasi selengkapnya, lihat Memilih SKU untuk kluster Anda.
Penyimpanan data
Azure Data Explorer mempartisi semua data yang diserap ke dalam jangkauan, atau pecahan data, yang merupakan irisan horizontal tabel target. Tingkat dapat dimulai sekecil satu rekaman. Saat data terakumulasi dalam tabel, Azure Data Explorer secara otomatis menggabungkan sejauh mana hingga data bertambah untuk mencakup jutaan rekaman. Setiap tingkatan dikodekan dan diindeks secara independen dari tingkat lain. Fungsionalitas ini berkontribusi pada skala linier dalam throughput penyerapan.
Jangkauan tersebar merata di seluruh node kluster, di mana mereka di-cache baik di SSD lokal maupun dalam memori. Distribusi ini meningkatkan kapasitas untuk menyiapkan dan menjalankan kueri yang sangat terdistribusi dan paralel.
Untuk informasi selengkapnya tentang penyimpanan data, lihat Gambaran umum tingkat.
Catatan
Azure Data Explorer juga mempertahankan metadata penting seperti skema tabel dan objek kebijakan. Untuk daftar kebijakan, lihat Gambaran umum kebijakan.
Cache data
Azure Data Explorer memiliki sistem cache data multi-hierarki untuk memastikan bahwa data yang paling relevan di-cache sedekat mungkin dengan CPU. Sistem cache tergantung pada kekekalan jangkauan, dan berfungsi sepenuhnya dengan data terkompresi. Untuk meningkatkan performa kueri, data tetap dikompresi bahkan dalam RAM dan hanya didekompresi saat diperlukan untuk kueri.
Untuk informasi selengkapnya tentang penembolokan, lihat Kebijakan cache.
Pengindeksan teks
Azure Data Explorer dirancang untuk mengindeks kolom teks bebas (string) dan seperti JSON (dinamis) secara efisien saat data diserap. Indeks mempertahankan tingkat granularitas yang memungkinkan evaluasi bagian kueri berdasarkan indeks tanpa memindai data.
Pengoptimalan latar belakang berkelanjutan sejauh mana melalui penggabungan meningkatkan kompresi dan pengindeksan, memastikan penyimpanan yang efisien dan latensi kueri yang rendah. Setelah jangkauan mencapai ukuran tertentu, hanya indeks yang digabungkan untuk meningkatkan performa kueri tanpa mengorbankan efisiensi.
Untuk informasi selengkapnya tentang penggabungan tingkat dan indeks, lihat Menggabungkan kebijakan.
Penyimpanan baris
Azure Data Explorer menawarkan solusi penyimpanan menengah yang disebut penyimpanan baris. Penyimpanan baris memungkinkan asupan data kecil yang efisien dan memastikan data ini segera tersedia untuk kueri. Saat Anda mengaktifkan penyerapan streaming pada kluster Anda, data awalnya diserap ke penyimpanan baris lalu dipindahkan ke tingkat penyimpanan kolom.
Untuk informasi selengkapnya, lihat Batching vs. penyerapan streaming.
Pemadatan kolom
Azure Data Explorer menyimpan data dalam keadaan terkompresi, mengurangi jumlah memori yang diperlukan untuk menyimpan dan memproses data. Perilaku ini menghasilkan performa kueri yang lebih cepat dan penggunaan sumber daya sistem yang lebih efisien.
Azure Data Explorer menghindari kompresi vertikal, yang melibatkan pengurutan data untuk meningkatkan pemadatan, karena biaya CPU yang tinggi dalam skenario data teks bebas atau semi terstruktur. Sebagai gantinya, Anda dapat menentukan urutan pengurutan data pilihan untuk skenario dengan pola kueri yang dominan. Trade-off ini memprioritaskan ketersediaan data cepat untuk kueri.
Untuk informasi selengkapnya tentang menentukan urutan pengurutan data, lihat Kebijakan urutan baris.
Kueri data terdistribusi
Azure Data Explorer menggunakan teknologi kueri data terdistribusi yang ditujukan untuk analitik ad hoc cepat pada himpunan data besar yang tidak terstruktur. Fitur utama teknologi ini meliputi:
- Data sementara yang dihasilkan kueri disimpan dalam RAM agregat
- Tingkat yang relevan ditandai pada rencana kueri, menyediakan isolasi rekam jepret
- Kueri yang cepat dan efisien diprioritaskan dengan batas waktu default yang singkat
- Dukungan asli untuk kueri lintas kluster yang meminimalkan pertukaran data antar kluster
- Kueri just-in-time dikompilasi ke dalam kode mesin yang sangat efisien, menggunakan statistik data dari semua tingkatan dan disesuaikan dengan spesifik pengodean kolom
Catatan
Azure Data Explorer dirancang untuk bekerja dengan Bahasa Kueri Kusto (KQL), yang dibuat khusus untuk Azure Data Explorer. Selain itu, T-SQL didukung.