Mendeteksi Bahasa
Penting
Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.
Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.
- Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
- Mer informasjon tentang Azure Machine Learning.
ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.
Mendeteksi bahasa setiap baris dalam file input
Kategori: Analiză text
Catatan
Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja
Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.
Gambaran Umum Modul
Artikel ini menjelaskan cara menggunakan modul Deteksi Bahasa di Pembelajaran Mesin Studio (klasik) untuk menganalisis input teks dan mengidentifikasi bahasa yang terkait dengan setiap rekaman dalam input.
Algoritma deteksi bahasa dapat mengidentifikasi berbagai bahasa. Cukup tentukan kolom string untuk dianalisis, dan jumlah total bahasa yang akan dideteksi. Algoritma akan menganalisis setiap baris teks, dan menetapkan skor probabilitas untuk setiap bahasa. Bahasa di kolom hasil pertama adalah bahasa yang mendapat skor tertinggi.
Cara mengkonfigurasi Bahasa Deteksi
Tambahkan himpunan data yang berisi teks yang ingin Anda analisis ke eksperimen di Pembelajaran Mesin Studio (klasik). Kolom dengan teks untuk dianalisis harus merupakan tipe data string.
Datset tidak perlu berisi kolom label; algoritma deteksi bahasa bekerja murni pada fitur linguistik dari bahasa yang didukung.
Jika Anda mengimpor data baru, pastikan data Anda disimpan dalam format UTF-8. Format Unicode lainnya tidak didukung.
Tambahkan modul Deteksi Bahasa ke eksperimen Anda, dan hubungkan himpunan data dengan teks untuk deteksi bahasa.
Untuk kolom Teks, pilih kolom yang ingin Anda analisis.
Untuk Batas atas pada jumlah bahasa yang akan dideteksi, tunjukkan jumlah maksimum bahasa yang akan dideteksi.
Menetapkan batas atas pada jumlah bahasa dapat meningkatkan kinerja.
Jalankan eksperimen.
Hasil
Modul Deteksi Bahasa mengeluarkan pengenal bahasa dan skor untuk setiap baris.
Misalnya, tabel berikut berisi analisis sampel pada data pengujian.
Dua kolom pertama col1 dan label bahasa adalah kolom yang diteruskan dari himpunan data input. Dalam contoh ini, karena himpunan data input dirancang untuk menguji modul, bahasa yang diharapkan sudah diketahui, dan disediakan di kolom label.
Kolom yang tersisa dihasilkan oleh modul Deteksi Bahasa . Jika ada kecocokan bahasa yang mungkin, beberapa bahasa mungkin terdaftar, dengan skor untuk masing-masing. Dalam hal ini, modul memprediksi hanya satu bahasa untuk setiap baris, bersama dengan skor probabilitas untuk bahasa itu.
Jika modul gagal mendeteksi bahasa apa pun dengan skor yang cukup tinggi, hasil (Tidak Diketahui) dengan skor 0 adalah output. Namun, bahasa yang didukung oleh modul dapat berubah seiring waktu saat API diperbarui.
Col1 | Label bahasa | Bahasa Col1 | Bahasa Col1 Iso6391 | Skor Bahasa Col1 Iso6391 |
---|---|---|---|---|
Itu adalah hotel yang indah dengan staf yang ramah dan layanan yang baik | Inggris | Inggris | id | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | Jerman | Jerman | de | 100 |
C'est un magnifique hôtel avec un personnel sympathique et un service de qualité | Prancis | Prancis | fr | 100 |
Det var et dejligt hotel med et venligt personale og god service | Dansk | Dansk | nl | 100 |
Va ser un magnífic hotel amb un personal amable i bon servei | Katalan | Katalan | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | Jepang | (Tidak diketahui) | 0 | |
qu mebpa'mey naQ ramah QaQ chavmoH je | Klingon | Prancis | fr | 77.5 |
Contoh
Untuk contoh bagaimana modul Deteksi Bahasa digunakan dalam eksperimen, lihat Galeri AI Azure:
- Memfilter Judul Film menurut Bahasa: Mendeteksi bahasa yang digunakan dalam nama film, lalu menggunakan pengenal bahasa untuk membagi himpunan data menjadi film bahasa Inggris vs non-Inggris.
Catatan teknis
Untuk gambaran umum tentang bahasa yang berpotensi dapat dideteksi, lihat Bing Penerjemah.
Lebih banyak bahasa dapat dideteksi daripada Pembelajaran Mesin saat ini mendukung analisis teks tingkat lanjut. Sebaiknya gunakan hasil Deteksi Bahasa untuk memfilter hasil yang Anda kirim ke modul lain yang memerlukan pemrosesan khusus bahasa.
Layanan linguistik yang mendasarinya juga digunakan oleh layanan Analiză text di Azure Cognitive Services.
Input yang diharapkan
Nama | Jenis | Deskripsi |
---|---|---|
Himpunan Data | Tabel Data | Input |
Parameter modul
Nama | Jenis | Rentang | Opsional | Default | Deskripsi |
---|---|---|---|---|---|
Batas atas pada jumlah bahasa untuk dideteksi | Bilangan bulat | [1;184] | Diperlukan | 1 | Batas atas pada jumlah bahasa untuk dideteksi. |
Kolom teks | Pilihan Kolom | Diperlukan | Nama atau indeks kolom teks satu berbasis. |
Output
Nama | Jenis | Deskripsi |
---|---|---|
Kumpulan data hasil | Tabel Data | Hasilnya |
Pengecualian
Pengecualian | Deskripsi |
---|---|
Kesalahan 0003 | Pengecualian terjadi jika satu atau beberapa input null atau kosong. |
Kesalahan 0010 | Pengecualian terjadi jika himpunan data input memiliki nama kolom yang seharusnya cocok tetapi tidak cocok. |
Kesalahan 0016 | Pengecualian terjadi jika input himpunan data yang diteruskan ke modul harus memiliki jenis kolom yang kompatibel tetapi tidak. |
Kesalahan 0008 | Pengecualian terjadi jika parameter tidak dalam jangkauan. |
Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.
Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.