Bagikan melalui


plugin autocluster

autocluster menemukan pola umum atribut diskrit (dimensi) dalam data. Kemudian mengurangi hasil kueri asli, apakah itu baris 100 atau 100.000, menjadi beberapa pola. Plugin dikembangkan untuk membantu menganalisis kegagalan (seperti pengecualian atau crash) tetapi berpotensi bekerja pada himpunan data yang difilter. Plugin dipanggil dengan operator evaluate.

Catatan

autocluster sebagian besar didasarkan pada algoritma Seed-Expand dari makalah berikut: Algorithms for Telemetry Data Mining using Discrete Attributes.

Sintaks

T evaluate (| autocluster [SizeWeight [, WeightColumn [, NumSeeds [, CustomWildcard [, ... ]]]]])

Pelajari selengkapnya tentang konvensi sintaksis.

Parameter

Parameter harus diurutkan seperti yang ditentukan dalam sintaks. Untuk menunjukkan bahwa nilai default harus digunakan, letakkan nilai ~tilde string . Untuk informasi selengkapnya, lihat Contoh.

Nama Tipe Wajib Deskripsi
T string ✔️ Ekspresi tabular input.
SizeWeight ganda Ganda antara 0 dan 1 yang mengontrol keseimbangan antara nilai generik (cakupan tinggi) dan informatif (banyak bersama). Meningkatkan nilai ini biasanya mengurangi kuantitas pola saat memperluas cakupan. Sebaliknya, penurunan nilai ini menghasilkan pola yang lebih spesifik yang ditandai dengan peningkatan nilai bersama dan cakupan persentase yang lebih kecil. Default adalah 0.5. Rumus adalah rata-rata geometrik tertimbang dengan bobot SizeWeight dan 1-SizeWeight.
WeightColumn string Mempertimbangkan setiap baris dalam input sesuai dengan berat yang ditentukan. Setiap baris memiliki berat 1default . Argumen harus berupa nama kolom bilangan bulat numerik. Penggunaan umum kolom berat adalah memperhitungkan pengambilan sampel atau wadah atau agregasi data yang sudah disematkan ke dalam setiap baris.
NumSeeds int Menentukan jumlah titik pencarian lokal awal. Menyesuaikan jumlah benih berdampak pada kuantitas hasil atau kualitas berdasarkan struktur data. Meningkatkan benih dapat meningkatkan hasil tetapi dengan tradeoff kueri yang lebih lambat. Penurunan di bawah lima menghasilkan peningkatan yang dapat diabaikan, sementara meningkat di atas 50 jarang menghasilkan lebih banyak pola. Default adalah 25.
Kartu KustomWild string Jenis harfiah yang mengatur nilai kartubebas untuk jenis tertentu dalam tabel hasil, yang menunjukkan tidak ada batasan pada kolom ini. Defaultnya adalah null, yang mewakili string kosong. Jika default adalah nilai yang baik dalam data, nilai kartubebas yang berbeda harus digunakan, seperti *. Anda dapat menyertakan beberapa wildcard kustom dengan menambahkannya secara berturut-turut.

Mengembalikan

Plugin autocluster biasanya mengembalikan set kecil pola. Pola menangkap bagian data dengan nilai umum bersama di beberapa atribut diskrit. Setiap pola diwakili oleh baris dalam hasil.

Kolom pertama adalah ID segmen. Dua kolom berikutnya adalah jumlah dan persentase baris dari kueri asli yang ditangkap oleh pola. Kolom yang tersisa berasal dari kueri asli. Nilainya adalah nilai tertentu dari kolom, atau nilai wildcard (yang secara default null) yang berarti nilai variabel.

Polanya tidak berbeda, mungkin tumpang tindih, dan biasanya tidak mencakup semua baris asli. Beberapa baris mungkin tidak termasuk dalam pola apa pun.

Tip

Gunakan tempat dan proyek dalam alur input untuk mengurangi data menjadi apa yang Anda minati.

Saat menemukan baris yang menarik, Anda mungkin ingin menelusurinya lebih jauh dengan menambahkan nilai spesifiknya ke filter where Anda.

Contoh

Menggunakan evaluasi

T | evaluate autocluster()

Menggunakan autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Hasil

SegmentId Hitung Persen Provinsi EventType Damage
0 2278 38.7 Hujan es TIDAK
1 512 8.7 Angin Badai Petir YA
2 898 15.3 TEXAS

Menggunakan wildcard kustom

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Hasil

SegmentId Hitung Persen Provinsi EventType Damage
0 2278 38.7 * Hujan es TIDAK
1 512 8.7 * Angin Badai Petir YA
2 898 15.3 TEXAS * *