Bagikan melalui


Mendeteksi Bahasa

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mendeteksi bahasa setiap baris dalam file input

Kategori: Analiză text

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Gambaran Umum Modul

Artikel ini menjelaskan cara menggunakan modul Deteksi Bahasa di Pembelajaran Mesin Studio (klasik) untuk menganalisis input teks dan mengidentifikasi bahasa yang terkait dengan setiap rekaman dalam input.

Algoritma deteksi bahasa dapat mengidentifikasi berbagai bahasa. Cukup tentukan kolom string untuk dianalisis, dan jumlah total bahasa yang akan dideteksi. Algoritma akan menganalisis setiap baris teks, dan menetapkan skor probabilitas untuk setiap bahasa. Bahasa di kolom hasil pertama adalah bahasa yang mendapat skor tertinggi.

Cara mengkonfigurasi Bahasa Deteksi

  1. Tambahkan himpunan data yang berisi teks yang ingin Anda analisis ke eksperimen di Pembelajaran Mesin Studio (klasik). Kolom dengan teks untuk dianalisis harus merupakan tipe data string.

    Datset tidak perlu berisi kolom label; algoritma deteksi bahasa bekerja murni pada fitur linguistik dari bahasa yang didukung.

    Jika Anda mengimpor data baru, pastikan data Anda disimpan dalam format UTF-8. Format Unicode lainnya tidak didukung.

  2. Tambahkan modul Deteksi Bahasa ke eksperimen Anda, dan hubungkan himpunan data dengan teks untuk deteksi bahasa.

  3. Untuk kolom Teks, pilih kolom yang ingin Anda analisis.

  4. Untuk Batas atas pada jumlah bahasa yang akan dideteksi, tunjukkan jumlah maksimum bahasa yang akan dideteksi.

    Menetapkan batas atas pada jumlah bahasa dapat meningkatkan kinerja.

  5. Jalankan eksperimen.

Hasil

Modul Deteksi Bahasa mengeluarkan pengenal bahasa dan skor untuk setiap baris.

Misalnya, tabel berikut berisi analisis sampel pada data pengujian.

  • Dua kolom pertama col1 dan label bahasa adalah kolom yang diteruskan dari himpunan data input. Dalam contoh ini, karena himpunan data input dirancang untuk menguji modul, bahasa yang diharapkan sudah diketahui, dan disediakan di kolom label.

  • Kolom yang tersisa dihasilkan oleh modul Deteksi Bahasa . Jika ada kecocokan bahasa yang mungkin, beberapa bahasa mungkin terdaftar, dengan skor untuk masing-masing. Dalam hal ini, modul memprediksi hanya satu bahasa untuk setiap baris, bersama dengan skor probabilitas untuk bahasa itu.

    Jika modul gagal mendeteksi bahasa apa pun dengan skor yang cukup tinggi, hasil (Tidak Diketahui) dengan skor 0 adalah output. Namun, bahasa yang didukung oleh modul dapat berubah seiring waktu saat API diperbarui.

Col1 Label bahasa Bahasa Col1 Bahasa Col1 Iso6391 Skor Bahasa Col1 Iso6391
Itu adalah hotel yang indah dengan staf yang ramah dan layanan yang baik Inggris Inggris id 100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service Jerman Jerman de 100
C'est un magnifique hôtel avec un personnel sympathique et un service de qualité Prancis Prancis fr 100
Det var et dejligt hotel med et venligt personale og god service Dansk Dansk nl 100
Va ser un magnífic hotel amb un personal amable i bon servei Katalan Katalan ca 92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった Jepang (Tidak diketahui) 0
qu mebpa'mey naQ ramah QaQ chavmoH je Klingon Prancis fr 77.5

Contoh

Untuk contoh bagaimana modul Deteksi Bahasa digunakan dalam eksperimen, lihat Galeri AI Azure:

  • Memfilter Judul Film menurut Bahasa: Mendeteksi bahasa yang digunakan dalam nama film, lalu menggunakan pengenal bahasa untuk membagi himpunan data menjadi film bahasa Inggris vs non-Inggris.

Catatan teknis

Untuk gambaran umum tentang bahasa yang berpotensi dapat dideteksi, lihat Bing Penerjemah.

Lebih banyak bahasa dapat dideteksi daripada Pembelajaran Mesin saat ini mendukung analisis teks tingkat lanjut. Sebaiknya gunakan hasil Deteksi Bahasa untuk memfilter hasil yang Anda kirim ke modul lain yang memerlukan pemrosesan khusus bahasa.

Layanan linguistik yang mendasarinya juga digunakan oleh layanan Analiză text di Azure Cognitive Services.

Input yang diharapkan

Nama Jenis Deskripsi
Himpunan Data Tabel Data Input

Parameter modul

Nama Jenis Rentang Opsional Default Deskripsi
Batas atas pada jumlah bahasa untuk dideteksi Bilangan bulat [1;184] Diperlukan 1 Batas atas pada jumlah bahasa untuk dideteksi.
Kolom teks Pilihan Kolom Diperlukan Nama atau indeks kolom teks satu berbasis.

Output

Nama Jenis Deskripsi
Kumpulan data hasil Tabel Data Hasilnya

Pengecualian

Pengecualian Deskripsi
Kesalahan 0003 Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0010 Pengecualian terjadi jika himpunan data input memiliki nama kolom yang seharusnya cocok tetapi tidak cocok.
Kesalahan 0016 Pengecualian terjadi jika input himpunan data yang diteruskan ke modul harus memiliki jenis kolom yang kompatibel tetapi tidak.
Kesalahan 0008 Pengecualian terjadi jika parameter tidak dalam jangkauan.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Text Analytics
Daftar Modul A-Z