Ekstrak Fitur N-Gram dari Teks
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Membuat fitur kamus N-Gram dan melakukan pemilihan fitur pada mereka
Kategori: Analiză text
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Ringkasan Modul
Artikel ini menjelaskan cara menggunakan ekstrak fitur N-Gram dari modul Teks di Pembelajaran Mesin Studio (klasik), untuk melakukan featurize teks, dan mengekstrak hanya potongan informasi yang paling penting dari string teks panjang.
Modul ini bekerja dengan membuat kamus n-gram dari kolom teks gratis yang Anda tentukan sebagai input. Modul ini menerapkan berbagai metrik informasi ke daftar n-gram untuk mengurangi dimensi data dan mengidentifikasi n-gram yang memiliki nilai informasi paling banyak.
Jika Anda telah membuat kosakata n-gram, Anda dapat memperbarui statistiknya, atau bergabung dalam istilah baru, menggunakan algoritma pembobotan pilihan Anda.
Karena modul ini mendukung featurization dari n-gram, itu juga dapat digunakan saat mencetak gol.
Cara mengonfigurasi Ekstrak Fitur N-Gram dari Teks
Modul tersebut mendukung skenario berikut untuk membuat, memperbarui, atau menerapkan kamus n-gram:
Anda sedang mengembangkan model baru menggunakan kolom kolom teks gratis dan ingin mengekstrak fitur teks murni berdasarkan data input. Lihat instruksi.
Anda memiliki serangkaian fitur teks yang ada, dan ingin memperbarui bobot dengan memproses input teks baru. Lihat instruksi.
Anda menghasilkan skor dari model prediktif dan perlu menghasilkan dan menggunakan input teks dengan kamus n-gram sebagai bagian dari proses penilaian. Lihat instruksi.
Anda dapat menggunakan contoh eksperimen untuk referensi.
Membuat kamus n-gram baru dari kolom teks
Tambahkan Ekstrak Fitur N-Gram dari modul Teks ke eksperimen Anda dan hubungkan himpunan data yang memiliki teks yang ingin Anda proses.
Untuk kolom Teks, pilih kolom jenis string yang berisi teks yang ingin Anda ekstrak.
Secara default, modul memilih semua kolom string. Namun, karena hasilnya bertele-tele, Anda mungkin perlu memproses satu kolom pada satu waktu.
Untuk mode Kosakata, pilih Buat untuk menunjukkan bahwa Anda membuat daftar fitur n-gram baru.
Untuk informasi tentang cara memperbarui kumpulan fitur n-gram yang ada, lihat bagian ini.
Untuk ukuran N-Grams, ketik angka yang menunjukkan ukuran maksimum n-gram untuk mengekstrak dan menyimpan.
Misalnya, jika Anda mengetik
3
, unigram, bigram, dan trigram akan dibuat.Untuk ukuran K-Skip, ketik jumlah maksimum karakter yang bisa berbeda saat mengidentifikasi varian n-gram. Jika nilai k diatur ke 0, n-gram hanya dapat dibuat dari urutan karakter yang unik dan bersebelahan.
Misalnya, asumsikan bahwa kamus Anda berisi "komputer" unigram. Nilai k 0 berarti bahwa "komputer" adalah satu-satunya unigram yang valid. Jika Anda meningkatkan nilai k menjadi 1, Anda dapat melewati satu karakter intervensi, yang memungkinkan Anda menemukan urutan yang lebih mirip. Skip-gram dengan nilai k 1 akan berbeda satu karakter dari unigram 0-k . Dengan demikian, skip-grams "conputer" dan "compuuter" keduanya akan dianggap sebagai bagian dari entri kamus yang sama dengan "komputer". Mengatur nilai k ke 2 akan cocok dengan kata-kata yang lebih berbeda.
Untuk informasi selengkapnya tentang bagaimana skip-grams digunakan dalam analisis teks, lihat makalah ini: Generasi Kandidat dan Rekayasa Fitur untuk Normalisasi Leksikal yang Diawasi
Opsi, fungsi Pembobotan, hanya diperlukan jika Anda menggabungkan atau memperbarui kosakata. Ini menentukan bagaimana istilah dalam dua kosa kata dan skor mereka harus ditimbang satu sama lain.
Untuk Panjang kata minimum, ketik panjang kata minimum string yang dapat dianalisis.
Misalnya, asumsikan panjang kata minimum diatur ke 3 (nilai default), dan Anda memiliki satu input yang memiliki satu kata, dan yang lain yang memiliki beberapa teks pendek seperti "tempat yang bagus". Kedua baris akan diabaikan.
Untuk Panjang kata maksimum, ketik jumlah maksimum huruf yang dapat digunakan dalam satu kata dalam n-gram.
Secara default, hingga 25 karakter per kata atau token diperbolehkan. Kata-kata yang lebih panjang dari itu dihapus, dengan asumsi bahwa mereka mungkin urutan karakter sewenang-wenang daripada item leksikal yang sebenarnya.
Untuk Frekuensi absolut dokumen n-gram minimum, ketik angka yang menunjukkan kejadian minimum yang diperlukan untuk setiap kata atau token tunggal untuk dimasukkan dalam kamus n-gram.
Misalnya, jika Anda menggunakan nilai default 5, n-gram atau skip-gram apa pun harus muncul setidaknya lima kali dalam korpus untuk dimasukkan dalam kamus n-gram.
Untuk Rasio dokumen n-gram maksimum, ketik angka yang mewakili rasio ini: jumlah baris yang berisi n-gram tertentu, di atas jumlah baris dalam korpus keseluruhan.
Misalnya, rasio 1 akan menunjukkan bahwa, bahkan jika n-gram tertentu ada di setiap baris, n-gram dapat ditambahkan ke kamus n-gram. Lebih biasanya, kata yang terjadi di setiap baris akan dianggap sebagai kata tidak penting dan akan dihapus. Untuk memfilter kata tidak penting yang bergantung pada domain, coba kurangi rasio ini.
Penting
Tingkat terjadinya kata-kata tertentu tidak seragam, tetapi bervariasi dari dokumen ke dokumen. Misalnya, jika Anda menganalisis komentar pelanggan tentang produk tertentu, nama produk mungkin frekuensinya sangat tinggi dan dekat dengan kata kebisingan, tetapi menjadi istilah yang signifikan dalam konteks lain.
Pilih opsi, Deteksi baris di luar kosakata, jika Anda ingin menghasilkan indikator untuk setiap baris yang berisi kata-kata yang tidak ada dalam kosakata n-gram, yang disebut kata "out of vocabulary" (OOV).
Semua leksikon terbatas; oleh karena itu, korpus teks Anda hampir dijamin untuk memasukkan kata-kata yang tidak ada dalam kamus leksikon atau n-gram. Namun, kata-kata seperti itu dapat memiliki berbagai efek pada model bahasa, termasuk tingkat kesalahan yang lebih tinggi dibandingkan dengan kata-kata dalam kosa kata (IV). Bergantung pada domain Anda, kata-kata OOV ini mungkin mewakili kata-kata konten penting.
Dengan mengidentifikasi baris yang berisi kata-kata ini, Anda dapat mengkompensasi efek dari istilah-istilah ini, atau menangani istilah dan baris terkait secara terpisah.
Pilih opsi, Tandai awal kalimat, untuk menambahkan urutan karakter khusus yang menunjukkan awal kalimat dalam kamus n-gram Anda. Awalan n-gram yang memulai kalimat dengan karakter khusus adalah umum dalam analisis teks dan dapat berguna dalam menganalisis batas-batas wacana.
Azure ML Studio (klasik) menyisipkan simbol
|||
. Anda tidak dapat menentukan karakter kustom.Pilih opsi Normalisasi vektor fitur n-gram jika Anda ingin menormalkan vektor fitur. Ketika Anda melakukan ini, setiap vektor fitur n-gram dibagi dengan norma L2-nya.
Normalisasi digunakan secara default.
Atur Gunakan pilihan fitur berbasis filter ke True jika Anda ingin mengaktifkan opsi tambahan untuk mengelola ukuran vektor fitur teks Anda.
- Pemilihan fitur dapat membantu dalam mengurangi dimensi n-gram Anda.
- Ketika Anda tidak menerapkan pemilihan filter, semua n-gram yang mungkin dibuat, meningkatkan cakupan dengan mengorbankan membuat kamus lebih lama dan mungkin termasuk banyak istilah yang jarang.
- Dalam korpus kecil, menggunakan pemilihan fitur dapat sangat mengurangi jumlah istilah yang dibuat.
- Untuk informasi selengkapnya, lihat Pemilihan Fitur Berbasis Filter.
Jika Anda menggunakan pemilihan fitur, Anda harus memilih metode dari daftar turun bawah metode penilaian fitur :
- PearsonCorrelation: Menghitung korelasi Pearson berdasarkan nilai kolom label dan vektor teks.
- MutualInformation: Menghitung skor informasi bersama, berdasarkan nilai kolom label dan vektor teks.
- KendallCorrelation: Menghitung korelasi Kendall, berdasarkan nilai kolom label dan vektor teks.
- SpearmanCorrelation: Menghitung korelasi Spearman, berdasarkan nilai kolom label dan vektor teks.
- ChiSquared: Menggunakan metode chi-kuadrat untuk menghitung korelasi antara nilai kolom label dan vektor teks.
- FisherScore: Menghitung skor Fisher untuk nilai kolom label dan vektor teks.
- Pemilihan fitur berbasis hitungan: Membuat fitur baru berdasarkan jumlah nilai. Kolom label tidak diperlukan dengan metode ini.
Bergantung pada metode yang Anda pilih, tetapkan salah satu opsi berikut:
Jumlah fitur yang diinginkan: Diperlukan jika Anda menggunakan metode pemilihan fitur apa pun selain pemilihan fitur berbasis hitungan.
Dalam proses pemilihan fitur, semua n-gram mendapatkan skor fitur, dan n-gram diberi peringkat berdasarkan skor. Nilai yang Anda tetapkan di sini menentukan berapa banyak fitur yang paling berperingkat tinggi yang dihasilkan. N-gram dengan skor fitur yang lebih rendah dibuang.
Jumlah minimum elemen non-nol: Diperlukan jika Anda menggunakan pemilihan fitur berbasis hitungan.
Ketik bilangan keseluruhan yang mewakili jumlah minimum total instans yang diperlukan untuk mentabulasi jumlah untuk fitur potensial.
Jalankan eksperimen.
Lihat bagian ini untuk penjelasan tentang hasil dan formatnya.
Memperbarui kamus n-gram yang ada, atau menggabungkan kamus
Tambahkan Ekstrak Fitur N-Gram dari modul Teks ke eksperimen Anda dan hubungkan himpunan data yang memiliki teks yang ingin Anda proses ke port Himpunan Data .
Untuk kolom Teks, pilih kolom teks yang berisi teks yang ingin Anda featurize. Secara default, modul memilih semua kolom jenis string. Untuk hasil terbaik, proses satu kolom setiap satu waktu.
Tambahkan himpunan data yang disimpan yang berisi kamus n-gram yang dihasilkan sebelumnya, dan hubungkan ke port kosakata Input . Anda juga dapat menghubungkan output kosakata Hasil dari instans hulu modul Ekstrak N-Gram Features from Text .
Untuk menggabungkan atau memperbarui kosakata, skema kosakata input harus sama persis dengan format yang diharapkan. Jangan menghapus kolom apa pun dari atau menambahkan kolom apa pun ke kosakata input.
Untuk mode Kosakata, pilih salah satu opsi pembaruan berikut dari daftar turun bawah:
ReadOnly: Mewakili korpus input dalam hal kosakata input. Artinya, daripada menghitung frekuensi istilah dari dataset teks baru (di input kiri), bobot n-gram dari kosakata input diterapkan apa adanya.
Tip
Gunakan opsi ini saat mencetak pengklasifikasi teks.
Pembaruan: Membuat kosakata n-gram baru dari korpus input, dan menggabungkannya dengan kosakata input. Dengan kata lain, Anda dapat menambahkan entri baru ke kosakata yang dibuat dari kosakata input, atau Anda dapat memperbarui entri yang ada.
Tip
Gunakan opsi ini untuk pembaruan kosakata tambahan dengan kumpulan data yang masuk.
Merge: Menghasilkan kosakata n-gram baru dari korpus input.
Opsi ini berguna jika Anda meneruskan kosakata latar belakang sebagai input ke modul dan ingin mengurangi berat kata berhenti. Dengan kata lain, setiap entri yang memiliki skor frekuensi dokumen tinggi dalam kosakata latar belakang akan diberi skor frekuensi dokumen terbalik yang lebih rendah dalam kosakata yang dibuat.
Tip
Gunakan opsi ini jika Anda tidak ingin menambahkan entri baru ke kosakata yang dibuat dari input, dan hanya ingin menyesuaikan skor entri yang ada.
Opsi, Pilih fungsi pembobotan, diperlukan jika Anda menggabungkan atau memperbarui kosakata. Fungsi pembobotan menentukan bagaimana skor DF dan IDF dalam dua kosa kata harus ditimbang satu sama lain:
- Bobot Biner: Menetapkan nilai kehadiran biner ke n-gram yang diekstrak. Dengan kata lain, nilai untuk setiap n-gram adalah 1 ketika ada dalam dokumen yang diberikan, dan 0 sebaliknya.
- Berat TF: Menetapkan skor frekuensi jangka (TF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah frekuensi kejadiannya dalam dokumen yang diberikan.
- Berat IDF: Menetapkan skor frekuensi dokumen terbalik (IDF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah log ukuran korpus dibagi dengan frekuensi kejadiannya di seluruh korpus. Yaitu:
IDF = log of corpus_size / document_frequency
- Berat TF-IDF: Menetapkan skor frekuensi istilah / frekuensi dokumen terbalik (TF / IDF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah skor TF-nya dikalikan dengan skor IDF-nya.
- berat Graph: Menetapkan skor ke n-gram yang diekstraksi berdasarkan peringkat grafik TextRank. TextRank adalah model peringkat berbasis grafik untuk pemrosesan teks. Algoritma peringkat berbasis Graph pada dasarnya adalah cara untuk menentukan kepentingan berdasarkan informasi global. Untuk informasi lebih lanjut, lihat TextRank: Membawa Ketertiban ke dalam Teks oleh Rada Mihalcea dan Paul Tarau.
Untuk semua opsi lainnya, lihat deskripsi properti di bagian sebelumnya.
Jalankan eksperimen.
Lihat bagian ini untuk penjelasan tentang hasil dan formatnya.
Skor atau publikasikan model yang menggunakan n-gram
Salin Ekstrak Fitur N-Gram dari modul Teks dari aliran data pelatihan ke aliran data penilaian.
Koneksi output Kosakata Hasil dari aliran data pelatihan ke Kosakata Input pada aliran data penilaian.
Dalam alur kerja penilaian, ubah ekstrak fitur N-Gram dari modul Teks dan buat perubahan ini, biarkan yang lain sama:
Atur parameter mode Kosakata ke ReadOnly.
Ubah opsi Gunakan pemilihan fitur berbasis filter menjadi
False
.
Untuk memublikasikan eksperimen, simpan Kosakata Hasil sebagai himpunan data.
Kemudian, hubungkan himpunan data yang disimpan ke modul Ekstrak Fitur N-Gram dari Teks dalam grafik penilaian Anda.
Hasil
Ekstrak Fitur N-Gram dari modul Teks menciptakan dua jenis output:
Kumpulan data hasil: Ringkasan teks yang dianalisis bersama dengan n-gram yang diekstraksi. Kolom yang tidak Anda pilih di opsi kolom Teks diteruskan ke output. Untuk setiap kolom teks yang Anda analisis, modul menghasilkan kolom ini:
- NgramsString: String yang berisi semua n-gram unik.
- NumUniqueNgrams: Jumlah n-gram yang diekstraksi menggunakan properti yang ditentukan.
- Matriks jarang kejadian n-gram: Modul menghasilkan kolom untuk setiap n-gram yang ditemukan dalam total korpus dan menambahkan skor di setiap kolom untuk menunjukkan berat n-gram untuk baris itu.
Kosakata hasil: Kosakata berisi kamus n-gram aktual, bersama dengan skor frekuensi istilah yang dihasilkan sebagai bagian dari analisis. Anda dapat menyimpan himpunan data untuk digunakan kembali dengan kumpulan input yang berbeda, atau untuk pembaruan nanti. Anda juga dapat memperbarui skor, atau menggunakan kembali kosakata untuk pemodelan dan penilaian.
Hasil sampel
Untuk mengilustrasikan bagaimana Anda dapat menggunakan hasilnya, contoh singkat berikut menggunakan himpunan data Amazon Book Review yang tersedia di Studio (klasik). Dataaset disaring untuk hanya menampilkan ulasan dengan skor 4 atau 5, dan ulasan dengan panjang string di bawah 300 karakter.
Dari himpunan data ini, tinjauan singkat dipilih, hanya berisi 92 kata. Di sini nama penulis telah diganti dengan Xxx
dan judul buku diganti dengan Yyy
:
"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."
Data hasil untuk teks tinjauan sampel
Untuk sampel ini, modul menghasilkan kolom-kolom ini:
NumUniqueNgrams: Untuk ulasan 92 kata ini, menggunakan pengaturan default, 11 n-gram diekstraksi dari tinjauan sampel.
Ketika panjang n-gram ditingkatkan menjadi 3 dan nilai skip-gram ditetapkan menjadi 1, 15 n-gram ditemukan.
Ketika pemilihan fitur diterapkan ke default, tidak ada n-gram yang diekstraksi.
NgramsString:Dengan pengaturan default, n-gram ini dikembalikan: ["his","best","one","highly","recommend","this","novel","his_best",highly_recommend",recommend_this","this_novel"]
Dengan panjang n-gram 3 dan nilai skip-gram 1, n-gram ini dikembalikan: ["his"," best"," one", highly","recommend","this","novel",his_best",highly_recommend",recommend_this",this_novel","best_one",one_best",highly_this","highly_recommend_this"]
Matriks jarang kejadian n-gram
Untuk ulasan khusus ini, hasilnya termasuk kolom-kolom ini:
Tinjau Teks. [mengelola] Tinjau Teks. [and_highly] Tinjau Teks. [sangat] Tinjau Teks. [highly_recommend] 0 0 0.301511 0.301511 Tip
Jika Anda mengalami masalah saat melihat kolom tertentu, lampirkan modul Pilih Kolom dalam Himpunan Data ke output, lalu gunakan fungsi pencarian untuk memfilter kolom berdasarkan nama.
Kosakata hasil untuk teks ulasan sampel
Kosakata berisi kamus n-gram yang sebenarnya, bersama dengan skor frekuensi istilah yang dihasilkan sebagai bagian dari analisis. Anda dapat menyimpan himpunan data untuk digunakan kembali dengan kumpulan input yang berbeda, atau untuk pembaruan nanti. Skor DF dan IDF dihasilkan terlepas dari opsi lain. Saat Anda menggabungkan kosakata, nilai yang disimpan ini digunakan sebagai input ke fungsi pembobotan yang Anda pilih.
- Id: Pengidentifikasi yang dihasilkan untuk setiap n-gram unik.
- Ngram: N-gram. Spasi atau pemisah kata lainnya digantikan oleh karakter garis bawah.
- DF: Skor frekuensi istilah untuk n-gram dalam korpus asli.
- IDF: Skor frekuensi dokumen terbalik untuk n-gram dalam korpus asli.
Dimungkinkan untuk memperbarui himpunan data ini secara manual; namun, berhati-hatilah, karena Anda dapat memperkenalkan kesalahan. Contohnya:
- Kesalahan dinaikkan jika modul menemukan baris duplikat dengan kunci yang sama dalam kosakata input. Pastikan bahwa tidak ada dua baris dalam kosakata yang memiliki kata yang sama.
- Skema input himpunan data kosakata harus sama persis, termasuk nama kolom dan tipe kolom.
- Kolom ID dan kolom skor DF harus dari tipe integer.
- Kolom IDF harus dari tipe FLOAT (floating point).
Catatan teknis
Sebaiknya bereksperimen dengan rentang nilai yang berbeda untuk panjang n-gram, jumlah skip-gram, dan penggunaan pemilihan fitur untuk menentukan dimensi korpus teks Anda dan rasio fitur optimal.
Untuk informasi selengkapnya tentang n-gram dan skip-grams, lihat sumber daya ini:
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Data input |
Masukkan kosakata | Tabel Data | Masukkan kosakata |
Parameter modul
Nama | Jenis | Rentang | Opsional | Default | Deskripsi |
---|---|---|---|---|---|
Jumlah minimum elemen non-nol | Bilangan bulat | >=1 | Hanya berlaku saat menggunakan metode berikut: Hitung Berdasarkan |
1 | Tentukan jumlah fitur yang akan dikeluarkan (untuk metode CountBased) |
Kolom teks | Pilihan Kolom | Diperlukan | StringFeature | Nama atau indeks kolom teks satu berbasis | |
Mode kosakata | Mode Kosakata | Buat ReadOnly Pembaruan Penggabungan |
Diperlukan | Buat | Tentukan bagaimana kosakata n-gram harus dibuat dari korpus |
Ukuran N-Grams | Bilangan bulat | >=1 | Diperlukan | 1 | Menunjukkan ukuran maksimum n-gram untuk dibuat |
Ukuran K-Skip | Bilangan bulat | >=0 | Diperlukan | 0 | Menunjukkan ukuran k-skip |
Fungsi pembobotan | Fungsi Pembobotan | Berat Biner Berat TF Berat IDF Berat TF-IDF Berat Graph |
Diperlukan | Berat Biner | Pilih fungsi pembobotan yang akan diterapkan pada setiap nilai n-gram |
Panjang kata minimum | Bilangan bulat | >=1 | Diperlukan | 3 | Tentukan panjang minimum kata-kata yang akan disertakan dalam n-gram |
Panjang kata maksimum | Bilangan bulat | >=2 | Diperlukan | 25 | Tentukan panjang maksimum kata-kata yang akan disertakan dalam n-gram |
Frekuensi absolut dokumen n-gram minimum | Mengambang | >=1,0 | Diperlukan | 5.0 | Frekuensi absolut dokumen n-gram minimum |
Rasio dokumen n-gram maksimum | Mengambang | >=0,0001 | Diperlukan | 1,0 | Rasio dokumen n-gram maksimum |
Mendeteksi baris di luar kosakata | Boolean | Diperlukan | true | Mendeteksi baris yang memiliki kata-kata tidak dalam kosakata n-gram (OOV) | |
Tandai awal kalimat | Boolean | Diperlukan | salah | Tunjukkan apakah tanda mulai kalimat harus ditambahkan ke n-gram | |
Menormalkan vektor fitur n-gram | Boolean | Diperlukan | Menormalkan vektor fitur n-gram. Jika benar, maka vektor fitur n-gram dibagi dengan norma L2-nya. | ||
Menggunakan pemilihan fitur berbasis filter | Tipe Palsu Sejati | True Salah |
Diperlukan | True | Gunakan pemilihan fitur berbasis filter untuk mengurangi dimensi |
Metode penilaian fitur | Metode Penilaian | Korelasi Pearson Informasi Bersama Korelasi Kendall Korelasi Spearman Chi Kuadrat Skor Fisher Hitung Berdasarkan |
Hanya berlaku ketika opsi Gunakan pilihan fitur berbasis filter adalah True | Skor Fisher | Pilih metode yang akan digunakan untuk penilaian |
Kolom target | Pilihan Kolom | Berlaku saat menggunakan salah satu metode berikut: Korelasi Pearson Informasi Bersama Korelasi Kendall Korelasi Spearman Chi Kuadrat Skor Fisher |
Tentukan kolom target | ||
Jumlah fitur yang diinginkan | Bilangan bulat | >=1 | Berlaku saat menggunakan salah satu metode berikut: Korelasi Pearson Informasi Bersama Korelasi Kendall Korelasi Spearman Chi Kuadrat Skor Fisher |
1 | Tentukan jumlah fitur yang akan dihasilkan dalam hasil |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Fitur yang diekstraksi |
Kosakata hasil | Tabel Data | Kosakata hasil |