Text Analytics
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Artikel ini menjelaskan modul analisis teks yang disertakan dalam Pembelajaran Mesin Studio (klasik). Modul-modul ini menyediakan alat komputasi khusus untuk bekerja dengan teks terstruktur dan tidak terstruktur, termasuk:
- Beberapa opsi untuk praprosesing teks.
- Deteksi bahasa.
- Pembuatan fitur dari teks menggunakan kamus n-gram yang dapat disesuaikan.
- Fitur hashing, untuk menganalisis teks secara efisien tanpa preprocessing atau analisis linguistik lanjutan.
- Vowpal Wabbit, untuk pembelajaran mesin yang sangat cepat pada teks. Vowpal Wabbit mendukung hashing fitur, pemodelan topik (LDA), dan klasifikasi.
- Dinamakan pengakuan entitas, untuk mengekstrak nama orang, tempat, dan organisasi dari teks yang tidak terstruktur.
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Contoh
Untuk contoh analisis teks menggunakan Pembelajaran Mesin, lihat Galeri AI Azure:
Kategorisasi berita: Menggunakan hashing fitur untuk mengklasifikasikan artikel ke dalam daftar kategori yang telah ditentukan.
Temukan perusahaan serupa: Menggunakan teks artikel Wikipedia untuk mengkategorikan perusahaan.
Klasifikasi teks: Menunjukkan proses end-to-end menggunakan teks dari pesan Twitter dalam analisis sentimen (sampel lima bagian).
Daftar modul
Kategori Analiză text di Pembelajaran Mesin Studio (klasik) mencakup modul-modul berikut:
- Mendeteksi Bahasa: Mendeteksi bahasa setiap baris dalam file input.
- Ekstrak Frasa Kunci dari Teks: Mengekstrak frasa kunci dari teks tertentu.
- Ekstrak Fitur N-Gram dari Teks: Membuat fitur kamus N-Gram, dan melakukan pemilihan fitur pada mereka.
- Hashing Fitur: Mengonversi data teks menjadi fitur yang dikodekan integer dengan menggunakan pustaka Vowpal Wabbit.
- Alokasi Dirichlet Laten: Melakukan pemodelan topik dengan menggunakan perpustakaan Vowpal Wabbit untuk LDA.
- Pengakuan Entitas Bernama: Mengenali entitas bernama di kolom teks.
- Teks Praproses: Melakukan operasi pembersihan pada teks.
- Skor Vowpal Wabbit 7-4 Model: Skor input dari Azure dengan menggunakan versi 7-4 dari sistem pembelajaran mesin Vowpal Wabbit.
- Skor Vowpal Wabbit 7-10 Model: Skor input dari Azure dengan menggunakan versi 7-10 dari sistem pembelajaran mesin Vowpal Wabbit.
- Skor Vowpal Wabbit 8 Model: Skor input dari Azure dengan menggunakan versi 8 dari sistem pembelajaran mesin Vowpal Wabbit.
- Train Vowpal Wabbit 7-4 Model: Melatih model dengan menggunakan versi 7-4 dari sistem pembelajaran mesin Vowpal Wabbit.
- Train Vowpal Wabbit 7-10 Model: Melatih model dengan menggunakan versi 7-10 dari sistem pembelajaran mesin Vowpal Wabbit.
- Train Vowpal Wabbit 8 Model: Melatih model dengan menggunakan versi 8 dari sistem pembelajaran mesin Vowpal Wabbit.