plugin autocluster

Artikel
07/04/2024

autocluster menemukan pola umum atribut diskrit (dimensi) dalam data. Kemudian mengurangi hasil kueri asli, apakah itu baris 100 atau 100.000, menjadi beberapa pola. Plugin dikembangkan untuk membantu menganalisis kegagalan (seperti pengecualian atau crash) tetapi berpotensi bekerja pada himpunan data yang difilter. Plugin dipanggil dengan operator evaluate.

Catatan

autocluster sebagian besar didasarkan pada algoritma Seed-Expand dari makalah berikut: Algorithms for Telemetry Data Mining using Discrete Attributes.

Sintaks

T evaluate (| autocluster [SizeWeight [, WeightColumn [, NumSeeds [, CustomWildcard [, ... ]]]]])

Pelajari selengkapnya tentang konvensi sintaksis.

Parameter

Parameter harus diurutkan seperti yang ditentukan dalam sintaks. Untuk menunjukkan bahwa nilai default harus digunakan, letakkan nilai ~tilde string . Untuk informasi selengkapnya, lihat Contoh.

Nama	Tipe	Wajib	Deskripsi
T	`string`	✔️	Ekspresi tabular input.
SizeWeight	ganda		Ganda antara 0 dan 1 yang mengontrol keseimbangan antara nilai generik (cakupan tinggi) dan informatif (banyak bersama). Meningkatkan nilai ini biasanya mengurangi kuantitas pola saat memperluas cakupan. Sebaliknya, penurunan nilai ini menghasilkan pola yang lebih spesifik yang ditandai dengan peningkatan nilai bersama dan cakupan persentase yang lebih kecil. Default adalah `0.5`. Rumus adalah rata-rata geometrik tertimbang dengan bobot `SizeWeight` dan `1-SizeWeight`.
WeightColumn	`string`		Mempertimbangkan setiap baris dalam input sesuai dengan berat yang ditentukan. Setiap baris memiliki berat `1`default . Argumen harus berupa nama kolom bilangan bulat numerik. Penggunaan umum kolom berat adalah memperhitungkan pengambilan sampel atau wadah atau agregasi data yang sudah disematkan ke dalam setiap baris.
NumSeeds	`int`		Menentukan jumlah titik pencarian lokal awal. Menyesuaikan jumlah benih berdampak pada kuantitas hasil atau kualitas berdasarkan struktur data. Meningkatkan benih dapat meningkatkan hasil tetapi dengan tradeoff kueri yang lebih lambat. Penurunan di bawah lima menghasilkan peningkatan yang dapat diabaikan, sementara meningkat di atas 50 jarang menghasilkan lebih banyak pola. Default adalah `25`.
Kartu KustomWild	`string`		Jenis harfiah yang mengatur nilai kartubebas untuk jenis tertentu dalam tabel hasil, yang menunjukkan tidak ada batasan pada kolom ini. Defaultnya adalah `null`, yang mewakili string kosong. Jika default adalah nilai yang baik dalam data, nilai kartubebas yang berbeda harus digunakan, seperti `*`. Anda dapat menyertakan beberapa wildcard kustom dengan menambahkannya secara berturut-turut.

Mengembalikan

Plugin autocluster biasanya mengembalikan set kecil pola. Pola menangkap bagian data dengan nilai umum bersama di beberapa atribut diskrit. Setiap pola diwakili oleh baris dalam hasil.

Kolom pertama adalah ID segmen. Dua kolom berikutnya adalah jumlah dan persentase baris dari kueri asli yang ditangkap oleh pola. Kolom yang tersisa berasal dari kueri asli. Nilainya adalah nilai tertentu dari kolom, atau nilai wildcard (yang secara default null) yang berarti nilai variabel.

Polanya tidak berbeda, mungkin tumpang tindih, dan biasanya tidak mencakup semua baris asli. Beberapa baris mungkin tidak termasuk dalam pola apa pun.

Tip

Gunakan tempat dan proyek dalam alur input untuk mengurangi data menjadi apa yang Anda minati.

Saat menemukan baris yang menarik, Anda mungkin ingin menelusurinya lebih jauh dengan menambahkan nilai spesifiknya ke filter where Anda.

Contoh

Menggunakan evaluasi

T | evaluate autocluster()

Menggunakan autocluster

Menjalankan kueri

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.6)

Hasil

SegmentId	Hitung	Persen	Provinsi	EventType	Damage
0	2278	38.7		Hujan es	TIDAK
1	512	8.7		Angin Badai Petir	YA
2	898	15.3	TEXAS

Menggunakan wildcard kustom

Menjalankan kueri

StormEvents
| where monthofyear(StartTime) == 5
| extend Damage = iff(DamageCrops + DamageProperty > 0 , "YES" , "NO")
| project State , EventType , Damage
| evaluate autocluster(0.2, '~', '~', '*')

Hasil

SegmentId	Hitung	Persen	Provinsi	EventType	Damage
0	2278	38.7	*	Hujan es	TIDAK
1	512	8.7	*	Angin Badai Petir	YA
2	898	15.3	TEXAS	*	*

Bagikan melalui

plugin autocluster

Sintaks

Parameter

Mengembalikan

Contoh

Menggunakan evaluasi

Menggunakan autocluster

Menggunakan wildcard kustom

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan:

Bagikan melalui

plugin autocluster

Sintaks

Parameter

Mengembalikan

Contoh

Menggunakan evaluasi

Menggunakan autocluster

Menggunakan wildcard kustom

Konten terkait

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: