Bagikan melalui


Ekstrak Fitur N-Gram dari Teks

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Membuat fitur kamus N-Gram dan melakukan pemilihan fitur pada mereka

Kategori: Analiză text

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Ringkasan Modul

Artikel ini menjelaskan cara menggunakan ekstrak fitur N-Gram dari modul Teks di Pembelajaran Mesin Studio (klasik), untuk melakukan featurize teks, dan mengekstrak hanya potongan informasi yang paling penting dari string teks panjang.

Modul ini bekerja dengan membuat kamus n-gram dari kolom teks gratis yang Anda tentukan sebagai input. Modul ini menerapkan berbagai metrik informasi ke daftar n-gram untuk mengurangi dimensi data dan mengidentifikasi n-gram yang memiliki nilai informasi paling banyak.

Jika Anda telah membuat kosakata n-gram, Anda dapat memperbarui statistiknya, atau bergabung dalam istilah baru, menggunakan algoritma pembobotan pilihan Anda.

Karena modul ini mendukung featurization dari n-gram, itu juga dapat digunakan saat mencetak gol.

Cara mengonfigurasi Ekstrak Fitur N-Gram dari Teks

Modul tersebut mendukung skenario berikut untuk membuat, memperbarui, atau menerapkan kamus n-gram:

  • Anda sedang mengembangkan model baru menggunakan kolom kolom teks gratis dan ingin mengekstrak fitur teks murni berdasarkan data input. Lihat instruksi.

  • Anda memiliki serangkaian fitur teks yang ada, dan ingin memperbarui bobot dengan memproses input teks baru. Lihat instruksi.

  • Anda menghasilkan skor dari model prediktif dan perlu menghasilkan dan menggunakan input teks dengan kamus n-gram sebagai bagian dari proses penilaian. Lihat instruksi.

Anda dapat menggunakan contoh eksperimen untuk referensi.

Membuat kamus n-gram baru dari kolom teks

  1. Tambahkan Ekstrak Fitur N-Gram dari modul Teks ke eksperimen Anda dan hubungkan himpunan data yang memiliki teks yang ingin Anda proses.

  2. Untuk kolom Teks, pilih kolom jenis string yang berisi teks yang ingin Anda ekstrak.

    Secara default, modul memilih semua kolom string. Namun, karena hasilnya bertele-tele, Anda mungkin perlu memproses satu kolom pada satu waktu.

  3. Untuk mode Kosakata, pilih Buat untuk menunjukkan bahwa Anda membuat daftar fitur n-gram baru.

    Untuk informasi tentang cara memperbarui kumpulan fitur n-gram yang ada, lihat bagian ini.

  4. Untuk ukuran N-Grams, ketik angka yang menunjukkan ukuran maksimum n-gram untuk mengekstrak dan menyimpan.

    Misalnya, jika Anda mengetik 3, unigram, bigram, dan trigram akan dibuat.

  5. Untuk ukuran K-Skip, ketik jumlah maksimum karakter yang bisa berbeda saat mengidentifikasi varian n-gram. Jika nilai k diatur ke 0, n-gram hanya dapat dibuat dari urutan karakter yang unik dan bersebelahan.

    Misalnya, asumsikan bahwa kamus Anda berisi "komputer" unigram. Nilai k 0 berarti bahwa "komputer" adalah satu-satunya unigram yang valid. Jika Anda meningkatkan nilai k menjadi 1, Anda dapat melewati satu karakter intervensi, yang memungkinkan Anda menemukan urutan yang lebih mirip. Skip-gram dengan nilai k 1 akan berbeda satu karakter dari unigram 0-k . Dengan demikian, skip-grams "conputer" dan "compuuter" keduanya akan dianggap sebagai bagian dari entri kamus yang sama dengan "komputer". Mengatur nilai k ke 2 akan cocok dengan kata-kata yang lebih berbeda.

    Untuk informasi selengkapnya tentang bagaimana skip-grams digunakan dalam analisis teks, lihat makalah ini: Generasi Kandidat dan Rekayasa Fitur untuk Normalisasi Leksikal yang Diawasi

  6. Opsi, fungsi Pembobotan, hanya diperlukan jika Anda menggabungkan atau memperbarui kosakata. Ini menentukan bagaimana istilah dalam dua kosa kata dan skor mereka harus ditimbang satu sama lain.

  7. Untuk Panjang kata minimum, ketik panjang kata minimum string yang dapat dianalisis.

    Misalnya, asumsikan panjang kata minimum diatur ke 3 (nilai default), dan Anda memiliki satu input yang memiliki satu kata, dan yang lain yang memiliki beberapa teks pendek seperti "tempat yang bagus". Kedua baris akan diabaikan.

  8. Untuk Panjang kata maksimum, ketik jumlah maksimum huruf yang dapat digunakan dalam satu kata dalam n-gram.

    Secara default, hingga 25 karakter per kata atau token diperbolehkan. Kata-kata yang lebih panjang dari itu dihapus, dengan asumsi bahwa mereka mungkin urutan karakter sewenang-wenang daripada item leksikal yang sebenarnya.

  9. Untuk Frekuensi absolut dokumen n-gram minimum, ketik angka yang menunjukkan kejadian minimum yang diperlukan untuk setiap kata atau token tunggal untuk dimasukkan dalam kamus n-gram.

    Misalnya, jika Anda menggunakan nilai default 5, n-gram atau skip-gram apa pun harus muncul setidaknya lima kali dalam korpus untuk dimasukkan dalam kamus n-gram.

  10. Untuk Rasio dokumen n-gram maksimum, ketik angka yang mewakili rasio ini: jumlah baris yang berisi n-gram tertentu, di atas jumlah baris dalam korpus keseluruhan.

    Misalnya, rasio 1 akan menunjukkan bahwa, bahkan jika n-gram tertentu ada di setiap baris, n-gram dapat ditambahkan ke kamus n-gram. Lebih biasanya, kata yang terjadi di setiap baris akan dianggap sebagai kata tidak penting dan akan dihapus. Untuk memfilter kata tidak penting yang bergantung pada domain, coba kurangi rasio ini.

    Penting

    Tingkat terjadinya kata-kata tertentu tidak seragam, tetapi bervariasi dari dokumen ke dokumen. Misalnya, jika Anda menganalisis komentar pelanggan tentang produk tertentu, nama produk mungkin frekuensinya sangat tinggi dan dekat dengan kata kebisingan, tetapi menjadi istilah yang signifikan dalam konteks lain.

  11. Pilih opsi, Deteksi baris di luar kosakata, jika Anda ingin menghasilkan indikator untuk setiap baris yang berisi kata-kata yang tidak ada dalam kosakata n-gram, yang disebut kata "out of vocabulary" (OOV).

    Semua leksikon terbatas; oleh karena itu, korpus teks Anda hampir dijamin untuk memasukkan kata-kata yang tidak ada dalam kamus leksikon atau n-gram. Namun, kata-kata seperti itu dapat memiliki berbagai efek pada model bahasa, termasuk tingkat kesalahan yang lebih tinggi dibandingkan dengan kata-kata dalam kosa kata (IV). Bergantung pada domain Anda, kata-kata OOV ini mungkin mewakili kata-kata konten penting.

    Dengan mengidentifikasi baris yang berisi kata-kata ini, Anda dapat mengkompensasi efek dari istilah-istilah ini, atau menangani istilah dan baris terkait secara terpisah.

  12. Pilih opsi, Tandai awal kalimat, untuk menambahkan urutan karakter khusus yang menunjukkan awal kalimat dalam kamus n-gram Anda. Awalan n-gram yang memulai kalimat dengan karakter khusus adalah umum dalam analisis teks dan dapat berguna dalam menganalisis batas-batas wacana.

    Azure ML Studio (klasik) menyisipkan simbol |||. Anda tidak dapat menentukan karakter kustom.

  13. Pilih opsi Normalisasi vektor fitur n-gram jika Anda ingin menormalkan vektor fitur. Ketika Anda melakukan ini, setiap vektor fitur n-gram dibagi dengan norma L2-nya.

    Normalisasi digunakan secara default.

  14. Atur Gunakan pilihan fitur berbasis filter ke True jika Anda ingin mengaktifkan opsi tambahan untuk mengelola ukuran vektor fitur teks Anda.

    • Pemilihan fitur dapat membantu dalam mengurangi dimensi n-gram Anda.
    • Ketika Anda tidak menerapkan pemilihan filter, semua n-gram yang mungkin dibuat, meningkatkan cakupan dengan mengorbankan membuat kamus lebih lama dan mungkin termasuk banyak istilah yang jarang.
    • Dalam korpus kecil, menggunakan pemilihan fitur dapat sangat mengurangi jumlah istilah yang dibuat.
    • Untuk informasi selengkapnya, lihat Pemilihan Fitur Berbasis Filter.

    Jika Anda menggunakan pemilihan fitur, Anda harus memilih metode dari daftar turun bawah metode penilaian fitur :

    • PearsonCorrelation: Menghitung korelasi Pearson berdasarkan nilai kolom label dan vektor teks.
    • MutualInformation: Menghitung skor informasi bersama, berdasarkan nilai kolom label dan vektor teks.
    • KendallCorrelation: Menghitung korelasi Kendall, berdasarkan nilai kolom label dan vektor teks.
    • SpearmanCorrelation: Menghitung korelasi Spearman, berdasarkan nilai kolom label dan vektor teks.
    • ChiSquared: Menggunakan metode chi-kuadrat untuk menghitung korelasi antara nilai kolom label dan vektor teks.
    • FisherScore: Menghitung skor Fisher untuk nilai kolom label dan vektor teks.
    • Pemilihan fitur berbasis hitungan: Membuat fitur baru berdasarkan jumlah nilai. Kolom label tidak diperlukan dengan metode ini.

    Bergantung pada metode yang Anda pilih, tetapkan salah satu opsi berikut:

    • Jumlah fitur yang diinginkan: Diperlukan jika Anda menggunakan metode pemilihan fitur apa pun selain pemilihan fitur berbasis hitungan.

      Dalam proses pemilihan fitur, semua n-gram mendapatkan skor fitur, dan n-gram diberi peringkat berdasarkan skor. Nilai yang Anda tetapkan di sini menentukan berapa banyak fitur yang paling berperingkat tinggi yang dihasilkan. N-gram dengan skor fitur yang lebih rendah dibuang.

    • Jumlah minimum elemen non-nol: Diperlukan jika Anda menggunakan pemilihan fitur berbasis hitungan.

      Ketik bilangan keseluruhan yang mewakili jumlah minimum total instans yang diperlukan untuk mentabulasi jumlah untuk fitur potensial.

  15. Jalankan eksperimen.

    Lihat bagian ini untuk penjelasan tentang hasil dan formatnya.

Memperbarui kamus n-gram yang ada, atau menggabungkan kamus

  1. Tambahkan Ekstrak Fitur N-Gram dari modul Teks ke eksperimen Anda dan hubungkan himpunan data yang memiliki teks yang ingin Anda proses ke port Himpunan Data .

  2. Untuk kolom Teks, pilih kolom teks yang berisi teks yang ingin Anda featurize. Secara default, modul memilih semua kolom jenis string. Untuk hasil terbaik, proses satu kolom setiap satu waktu.

  3. Tambahkan himpunan data yang disimpan yang berisi kamus n-gram yang dihasilkan sebelumnya, dan hubungkan ke port kosakata Input . Anda juga dapat menghubungkan output kosakata Hasil dari instans hulu modul Ekstrak N-Gram Features from Text .

    Untuk menggabungkan atau memperbarui kosakata, skema kosakata input harus sama persis dengan format yang diharapkan. Jangan menghapus kolom apa pun dari atau menambahkan kolom apa pun ke kosakata input.

  4. Untuk mode Kosakata, pilih salah satu opsi pembaruan berikut dari daftar turun bawah:

    • ReadOnly: Mewakili korpus input dalam hal kosakata input. Artinya, daripada menghitung frekuensi istilah dari dataset teks baru (di input kiri), bobot n-gram dari kosakata input diterapkan apa adanya.

      Tip

      Gunakan opsi ini saat mencetak pengklasifikasi teks.

    • Pembaruan: Membuat kosakata n-gram baru dari korpus input, dan menggabungkannya dengan kosakata input. Dengan kata lain, Anda dapat menambahkan entri baru ke kosakata yang dibuat dari kosakata input, atau Anda dapat memperbarui entri yang ada.

      Tip

      Gunakan opsi ini untuk pembaruan kosakata tambahan dengan kumpulan data yang masuk.

    • Merge: Menghasilkan kosakata n-gram baru dari korpus input.

      Opsi ini berguna jika Anda meneruskan kosakata latar belakang sebagai input ke modul dan ingin mengurangi berat kata berhenti. Dengan kata lain, setiap entri yang memiliki skor frekuensi dokumen tinggi dalam kosakata latar belakang akan diberi skor frekuensi dokumen terbalik yang lebih rendah dalam kosakata yang dibuat.

      Tip

      Gunakan opsi ini jika Anda tidak ingin menambahkan entri baru ke kosakata yang dibuat dari input, dan hanya ingin menyesuaikan skor entri yang ada.

  5. Opsi, Pilih fungsi pembobotan, diperlukan jika Anda menggabungkan atau memperbarui kosakata. Fungsi pembobotan menentukan bagaimana skor DF dan IDF dalam dua kosa kata harus ditimbang satu sama lain:

    • Bobot Biner: Menetapkan nilai kehadiran biner ke n-gram yang diekstrak. Dengan kata lain, nilai untuk setiap n-gram adalah 1 ketika ada dalam dokumen yang diberikan, dan 0 sebaliknya.
    • Berat TF: Menetapkan skor frekuensi jangka (TF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah frekuensi kejadiannya dalam dokumen yang diberikan.
    • Berat IDF: Menetapkan skor frekuensi dokumen terbalik (IDF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah log ukuran korpus dibagi dengan frekuensi kejadiannya di seluruh korpus. Yaitu: IDF = log of corpus_size / document_frequency
    • Berat TF-IDF: Menetapkan skor frekuensi istilah / frekuensi dokumen terbalik (TF / IDF) ke n-gram yang diekstraksi. Nilai untuk setiap n-gram adalah skor TF-nya dikalikan dengan skor IDF-nya.
    • berat Graph: Menetapkan skor ke n-gram yang diekstraksi berdasarkan peringkat grafik TextRank. TextRank adalah model peringkat berbasis grafik untuk pemrosesan teks. Algoritma peringkat berbasis Graph pada dasarnya adalah cara untuk menentukan kepentingan berdasarkan informasi global. Untuk informasi lebih lanjut, lihat TextRank: Membawa Ketertiban ke dalam Teks oleh Rada Mihalcea dan Paul Tarau.
  6. Untuk semua opsi lainnya, lihat deskripsi properti di bagian sebelumnya.

  7. Jalankan eksperimen.

    Lihat bagian ini untuk penjelasan tentang hasil dan formatnya.

Skor atau publikasikan model yang menggunakan n-gram

  1. Salin Ekstrak Fitur N-Gram dari modul Teks dari aliran data pelatihan ke aliran data penilaian.

  2. Koneksi output Kosakata Hasil dari aliran data pelatihan ke Kosakata Input pada aliran data penilaian.

  3. Dalam alur kerja penilaian, ubah ekstrak fitur N-Gram dari modul Teks dan buat perubahan ini, biarkan yang lain sama:

    • Atur parameter mode Kosakata ke ReadOnly.

    • Ubah opsi Gunakan pemilihan fitur berbasis filter menjadi False.

  4. Untuk memublikasikan eksperimen, simpan Kosakata Hasil sebagai himpunan data.

    Kemudian, hubungkan himpunan data yang disimpan ke modul Ekstrak Fitur N-Gram dari Teks dalam grafik penilaian Anda.

Hasil

Ekstrak Fitur N-Gram dari modul Teks menciptakan dua jenis output:

  • Kumpulan data hasil: Ringkasan teks yang dianalisis bersama dengan n-gram yang diekstraksi. Kolom yang tidak Anda pilih di opsi kolom Teks diteruskan ke output. Untuk setiap kolom teks yang Anda analisis, modul menghasilkan kolom ini:

    • NgramsString: String yang berisi semua n-gram unik.
    • NumUniqueNgrams: Jumlah n-gram yang diekstraksi menggunakan properti yang ditentukan.
    • Matriks jarang kejadian n-gram: Modul menghasilkan kolom untuk setiap n-gram yang ditemukan dalam total korpus dan menambahkan skor di setiap kolom untuk menunjukkan berat n-gram untuk baris itu.
  • Kosakata hasil: Kosakata berisi kamus n-gram aktual, bersama dengan skor frekuensi istilah yang dihasilkan sebagai bagian dari analisis. Anda dapat menyimpan himpunan data untuk digunakan kembali dengan kumpulan input yang berbeda, atau untuk pembaruan nanti. Anda juga dapat memperbarui skor, atau menggunakan kembali kosakata untuk pemodelan dan penilaian.

Hasil sampel

Untuk mengilustrasikan bagaimana Anda dapat menggunakan hasilnya, contoh singkat berikut menggunakan himpunan data Amazon Book Review yang tersedia di Studio (klasik). Dataaset disaring untuk hanya menampilkan ulasan dengan skor 4 atau 5, dan ulasan dengan panjang string di bawah 300 karakter.

Dari himpunan data ini, tinjauan singkat dipilih, hanya berisi 92 kata. Di sini nama penulis telah diganti dengan Xxx dan judul buku diganti dengan Yyy:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Data hasil untuk teks tinjauan sampel

Untuk sampel ini, modul menghasilkan kolom-kolom ini:

  • NumUniqueNgrams: Untuk ulasan 92 kata ini, menggunakan pengaturan default, 11 n-gram diekstraksi dari tinjauan sampel.

    Ketika panjang n-gram ditingkatkan menjadi 3 dan nilai skip-gram ditetapkan menjadi 1, 15 n-gram ditemukan.

    Ketika pemilihan fitur diterapkan ke default, tidak ada n-gram yang diekstraksi.

  • NgramsString:Dengan pengaturan default, n-gram ini dikembalikan: ["his","best","one","highly","recommend","this","novel","his_best",highly_recommend",recommend_this","this_novel"]

    Dengan panjang n-gram 3 dan nilai skip-gram 1, n-gram ini dikembalikan: ["his"," best"," one", highly","recommend","this","novel",his_best",highly_recommend",recommend_this",this_novel","best_one",one_best",highly_this","highly_recommend_this"]

  • Matriks jarang kejadian n-gram

    Untuk ulasan khusus ini, hasilnya termasuk kolom-kolom ini:

    Tinjau Teks. [mengelola] Tinjau Teks. [and_highly] Tinjau Teks. [sangat] Tinjau Teks. [highly_recommend]
    0 0 0.301511 0.301511

    Tip

    Jika Anda mengalami masalah saat melihat kolom tertentu, lampirkan modul Pilih Kolom dalam Himpunan Data ke output, lalu gunakan fungsi pencarian untuk memfilter kolom berdasarkan nama.

Kosakata hasil untuk teks ulasan sampel

Kosakata berisi kamus n-gram yang sebenarnya, bersama dengan skor frekuensi istilah yang dihasilkan sebagai bagian dari analisis. Anda dapat menyimpan himpunan data untuk digunakan kembali dengan kumpulan input yang berbeda, atau untuk pembaruan nanti. Skor DF dan IDF dihasilkan terlepas dari opsi lain. Saat Anda menggabungkan kosakata, nilai yang disimpan ini digunakan sebagai input ke fungsi pembobotan yang Anda pilih.

  • Id: Pengidentifikasi yang dihasilkan untuk setiap n-gram unik.
  • Ngram: N-gram. Spasi atau pemisah kata lainnya digantikan oleh karakter garis bawah.
  • DF: Skor frekuensi istilah untuk n-gram dalam korpus asli.
  • IDF: Skor frekuensi dokumen terbalik untuk n-gram dalam korpus asli.

Dimungkinkan untuk memperbarui himpunan data ini secara manual; namun, berhati-hatilah, karena Anda dapat memperkenalkan kesalahan. Contohnya:

  • Kesalahan dinaikkan jika modul menemukan baris duplikat dengan kunci yang sama dalam kosakata input. Pastikan bahwa tidak ada dua baris dalam kosakata yang memiliki kata yang sama.
  • Skema input himpunan data kosakata harus sama persis, termasuk nama kolom dan tipe kolom.
  • Kolom ID dan kolom skor DF harus dari tipe integer.
  • Kolom IDF harus dari tipe FLOAT (floating point).

Catatan teknis

Sebaiknya bereksperimen dengan rentang nilai yang berbeda untuk panjang n-gram, jumlah skip-gram, dan penggunaan pemilihan fitur untuk menentukan dimensi korpus teks Anda dan rasio fitur optimal.

Untuk informasi selengkapnya tentang n-gram dan skip-grams, lihat sumber daya ini:

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Data input
Masukkan kosakata Tabel Data Masukkan kosakata

Parameter modul

Nama Jenis Rentang Opsional Default Deskripsi
Jumlah minimum elemen non-nol Bilangan bulat >=1 Hanya berlaku saat menggunakan metode berikut:

Hitung Berdasarkan
1 Tentukan jumlah fitur yang akan dikeluarkan (untuk metode CountBased)
Kolom teks Pilihan Kolom Diperlukan StringFeature Nama atau indeks kolom teks satu berbasis
Mode kosakata Mode Kosakata Buat

ReadOnly

Pembaruan

Penggabungan
Diperlukan Buat Tentukan bagaimana kosakata n-gram harus dibuat dari korpus
Ukuran N-Grams Bilangan bulat >=1 Diperlukan 1 Menunjukkan ukuran maksimum n-gram untuk dibuat
Ukuran K-Skip Bilangan bulat >=0 Diperlukan 0 Menunjukkan ukuran k-skip
Fungsi pembobotan Fungsi Pembobotan Berat Biner

Berat TF

Berat IDF

Berat TF-IDF

Berat Graph
Diperlukan Berat Biner Pilih fungsi pembobotan yang akan diterapkan pada setiap nilai n-gram
Panjang kata minimum Bilangan bulat >=1 Diperlukan 3 Tentukan panjang minimum kata-kata yang akan disertakan dalam n-gram
Panjang kata maksimum Bilangan bulat >=2 Diperlukan 25 Tentukan panjang maksimum kata-kata yang akan disertakan dalam n-gram
Frekuensi absolut dokumen n-gram minimum Mengambang >=1,0 Diperlukan 5.0 Frekuensi absolut dokumen n-gram minimum
Rasio dokumen n-gram maksimum Mengambang >=0,0001 Diperlukan 1,0 Rasio dokumen n-gram maksimum
Mendeteksi baris di luar kosakata Boolean Diperlukan true Mendeteksi baris yang memiliki kata-kata tidak dalam kosakata n-gram (OOV)
Tandai awal kalimat Boolean Diperlukan salah Tunjukkan apakah tanda mulai kalimat harus ditambahkan ke n-gram
Menormalkan vektor fitur n-gram Boolean Diperlukan Menormalkan vektor fitur n-gram. Jika benar, maka vektor fitur n-gram dibagi dengan norma L2-nya.
Menggunakan pemilihan fitur berbasis filter Tipe Palsu Sejati True

Salah
Diperlukan True Gunakan pemilihan fitur berbasis filter untuk mengurangi dimensi
Metode penilaian fitur Metode Penilaian Korelasi Pearson

Informasi Bersama

Korelasi Kendall

Korelasi Spearman

Chi Kuadrat

Skor Fisher

Hitung Berdasarkan
Hanya berlaku ketika opsi Gunakan pilihan fitur berbasis filter adalah True Skor Fisher Pilih metode yang akan digunakan untuk penilaian
Kolom target Pilihan Kolom Berlaku saat menggunakan salah satu metode berikut:

Korelasi Pearson

Informasi Bersama

Korelasi Kendall

Korelasi Spearman

Chi Kuadrat

Skor Fisher
Tentukan kolom target
Jumlah fitur yang diinginkan Bilangan bulat >=1 Berlaku saat menggunakan salah satu metode berikut:

Korelasi Pearson

Informasi Bersama

Korelasi Kendall

Korelasi Spearman

Chi Kuadrat

Skor Fisher
1 Tentukan jumlah fitur yang akan dihasilkan dalam hasil

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Fitur yang diekstraksi
Kosakata hasil Tabel Data Kosakata hasil

Lihat juga

Text Analytics
Daftar Modul Pembelajaran Mesin A-Z