plugin autocluster

autocluster menemukan pola umum atribut diskrit (dimensi) dalam data. Kemudian mengurangi hasil kueri asli, apakah itu baris 100 atau 100.000, menjadi beberapa pola. Plugin ini dikembangkan untuk membantu menganalisis kegagalan (seperti pengecualian atau crash) tetapi berpotensi bekerja pada himpunan data yang difilter. Plugin dipanggil dengan operator evaluate.

Catatan

autocluster sebagian besar didasarkan pada algoritma Seed-Expand dari makalah berikut: Algorithms for Telemetry Data Mining using Discrete Attributes.

Sintaks

T|evaluateautocluster([SizeWeight [,WeightColumn [,NumSeeds [,CustomWildcard [, ... ]]]]])

Pelajari selengkapnya tentang konvensi sintaksis.

Parameter

Parameter harus diurutkan seperti yang ditentukan dalam sintaks. Untuk menunjukkan bahwa nilai default harus digunakan, letakkan nilai ~tilde string . Untuk informasi selengkapnya, lihat Contoh.

Nama Jenis Diperlukan Deskripsi
T string ✔️ Ekspresi tabular input.
SizeWeight double Ganda antara 0 dan 1 yang mengontrol keseimbangan antara nilai generik (cakupan tinggi) dan informatif (banyak bersama). Meningkatkan nilai ini biasanya mengurangi kuantitas pola sambil memperluas cakupan. Sebaliknya, mengurangi nilai ini menghasilkan pola yang lebih spesifik yang ditandai dengan peningkatan nilai bersama dan cakupan persentase yang lebih kecil. Default adalah 0.5. Rumus adalah rata-rata geometris SizeWeight tertimbang dengan bobot dan 1-SizeWeight.
WeightColumn string Mempertimbangkan setiap baris dalam input sesuai dengan berat yang ditentukan. Setiap baris memiliki bobot 1default . Argumen harus berupa nama kolom bilangan bulat numerik. Penggunaan umum kolom bobot adalah mempertimbangkan pengambilan sampel atau bucketing atau agregasi data yang sudah disematkan ke dalam setiap baris.
NumSeeds int Menentukan jumlah titik pencarian lokal awal. Menyesuaikan jumlah benih berdampak pada kuantitas hasil atau kualitas berdasarkan struktur data. Meningkatkan benih dapat meningkatkan hasil tetapi dengan tradeoff kueri yang lebih lambat. Mengurangi di bawah lima menghasilkan peningkatan yang dapat diabaikan, sementara meningkat di atas 50 jarang menghasilkan lebih banyak pola. Default adalah 25.
CustomWildcard string Jenis harfiah yang mengatur nilai kartubebas untuk jenis tertentu dalam tabel hasil, menunjukkan tidak ada batasan pada kolom ini. Defaultnya adalah null, yang mewakili string kosong. Jika default adalah nilai yang baik dalam data, nilai kartubebas yang berbeda harus digunakan, seperti *. Anda dapat menyertakan beberapa wildcard kustom dengan menambahkannya secara berturut-turut.

Mengembalikan

Plugin autocluster biasanya mengembalikan set kecil pola. Pola menangkap bagian data dengan nilai umum bersama di beberapa atribut diskrit. Setiap pola diwakili oleh baris dalam hasil.

Kolom pertama adalah ID segmen. Dua kolom berikutnya adalah jumlah dan persentase baris dari kueri asli yang ditangkap oleh pola. Kolom yang tersisa berasal dari kueri asli. Nilainya adalah nilai tertentu dari kolom, atau nilai wildcard (yang secara default null) yang berarti nilai variabel.

Polanya tidak berbeda, mungkin tumpang tindih, dan biasanya tidak mencakup semua baris asli. Beberapa baris mungkin tidak termasuk dalam pola apa pun.

Tip

Gunakan di mana dan proyek dalam pipa input untuk mengurangi data menjadi apa yang Anda minati.

Saat menemukan baris yang menarik, Anda mungkin ingin menelusurinya lebih jauh dengan menambahkan nilai spesifiknya ke filter where Anda.

Contoh

Menggunakan evaluasi

T | evaluate autocluster()

Menggunakan autocluster

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Output

SegmentId Menghitung Persen Provinsi EventType Merusakkan
0 2278 38.7 Hail TIDAK
1 512 8.7 Angin Badai Petir YA
2 898 15.3 TEXAS

Menggunakan wildcard kustom

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Output

SegmentId Menghitung Persen Provinsi EventType Merusakkan
0 2278 38.7 * Hail TIDAK
1 512 8.7 * Angin Badai Petir YA
2 898 15.3 TEXAS * *