Mendeteksi Bahasa

Artikel
07/03/2019

Penting

Dukungan untuk Studio Azure Machine Learning (klasik) akan berakhir pada 31 Agustus 2024. Sebaiknya Anda transisi ke Azure Machine Learning sebelum tanggal tersebut.

Mulai 1 Desember 2021, Anda tidak akan dapat membuat sumber daya Studio Azure Machine Learning (klasik) baru. Hingga 31 Agustus 2024, Anda dapat terus menggunakan sumber daya Pembelajaran Mesin Studio (klasik) yang ada.

Lihat informasi tentang memindahkan proyek pembelajaran mesin dari ML Studio (klasik) ke Azure Machine Learning.
Mer informasjon tentang Azure Machine Learning.

ML Dokumentasi Studio (klasik) sedang berhenti dan mungkin tidak diperbarui di masa mendatang.

Mendeteksi bahasa setiap baris dalam file input

Kategori: Analiză text

Catatan

Berlaku untuk: Pembelajaran Mesin Studio (klasik) saja

Modul drag-and-drop serupa tersedia di Azure Machine Learning desainer.

Gambaran Umum Modul

Artikel ini menjelaskan cara menggunakan modul Deteksi Bahasa di Pembelajaran Mesin Studio (klasik) untuk menganalisis input teks dan mengidentifikasi bahasa yang terkait dengan setiap rekaman dalam input.

Algoritma deteksi bahasa dapat mengidentifikasi berbagai bahasa. Cukup tentukan kolom string untuk dianalisis, dan jumlah total bahasa yang akan dideteksi. Algoritma akan menganalisis setiap baris teks, dan menetapkan skor probabilitas untuk setiap bahasa. Bahasa di kolom hasil pertama adalah bahasa yang mendapat skor tertinggi.

Cara mengkonfigurasi Bahasa Deteksi

Tambahkan himpunan data yang berisi teks yang ingin Anda analisis ke eksperimen di Pembelajaran Mesin Studio (klasik). Kolom dengan teks untuk dianalisis harus merupakan tipe data string.

Datset tidak perlu berisi kolom label; algoritma deteksi bahasa bekerja murni pada fitur linguistik dari bahasa yang didukung.

Jika Anda mengimpor data baru, pastikan data Anda disimpan dalam format UTF-8. Format Unicode lainnya tidak didukung.
Tambahkan modul Deteksi Bahasa ke eksperimen Anda, dan hubungkan himpunan data dengan teks untuk deteksi bahasa.
Untuk kolom Teks, pilih kolom yang ingin Anda analisis.
Untuk Batas atas pada jumlah bahasa yang akan dideteksi, tunjukkan jumlah maksimum bahasa yang akan dideteksi.

Menetapkan batas atas pada jumlah bahasa dapat meningkatkan kinerja.
Jalankan eksperimen.

Hasil

Modul Deteksi Bahasa mengeluarkan pengenal bahasa dan skor untuk setiap baris.

Misalnya, tabel berikut berisi analisis sampel pada data pengujian.

Dua kolom pertama col1 dan label bahasa adalah kolom yang diteruskan dari himpunan data input. Dalam contoh ini, karena himpunan data input dirancang untuk menguji modul, bahasa yang diharapkan sudah diketahui, dan disediakan di kolom label.
Kolom yang tersisa dihasilkan oleh modul Deteksi Bahasa . Jika ada kecocokan bahasa yang mungkin, beberapa bahasa mungkin terdaftar, dengan skor untuk masing-masing. Dalam hal ini, modul memprediksi hanya satu bahasa untuk setiap baris, bersama dengan skor probabilitas untuk bahasa itu.

Jika modul gagal mendeteksi bahasa apa pun dengan skor yang cukup tinggi, hasil (Tidak Diketahui) dengan skor 0 adalah output. Namun, bahasa yang didukung oleh modul dapat berubah seiring waktu saat API diperbarui.

Col1	Label bahasa	Bahasa Col1	Bahasa Col1 Iso6391	Skor Bahasa Col1 Iso6391
Itu adalah hotel yang indah dengan staf yang ramah dan layanan yang baik	Inggris	Inggris	id	100
Es war ein wunderbares Hotel mit freundlichem Personal und guter service	Jerman	Jerman	de	100
C'est un magnifique hôtel avec un personnel sympathique et un service de qualité	Prancis	Prancis	fr	100
Det var et dejligt hotel med et venligt personale og god service	Dansk	Dansk	nl	100
Va ser un magnífic hotel amb un personal amable i bon servei	Katalan	Katalan	ca	92.30769348
とても素敵なホテルで、スタッフは親切で、サービスもよかった	Jepang	(Tidak diketahui)		0
qu mebpa'mey naQ ramah QaQ chavmoH je	Klingon	Prancis	fr	77.5

Contoh

Untuk contoh bagaimana modul Deteksi Bahasa digunakan dalam eksperimen, lihat Galeri AI Azure:

Memfilter Judul Film menurut Bahasa: Mendeteksi bahasa yang digunakan dalam nama film, lalu menggunakan pengenal bahasa untuk membagi himpunan data menjadi film bahasa Inggris vs non-Inggris.

Catatan teknis

Untuk gambaran umum tentang bahasa yang berpotensi dapat dideteksi, lihat Bing Penerjemah.

Lebih banyak bahasa dapat dideteksi daripada Pembelajaran Mesin saat ini mendukung analisis teks tingkat lanjut. Sebaiknya gunakan hasil Deteksi Bahasa untuk memfilter hasil yang Anda kirim ke modul lain yang memerlukan pemrosesan khusus bahasa.

Layanan linguistik yang mendasarinya juga digunakan oleh layanan Analiză text di Azure Cognitive Services.

Input yang diharapkan

Nama	Jenis	Deskripsi
Himpunan Data	Tabel Data	Input

Parameter modul

Nama	Jenis	Rentang	Opsional	Default	Deskripsi
Batas atas pada jumlah bahasa untuk dideteksi	Bilangan bulat	[1;184]	Diperlukan	1	Batas atas pada jumlah bahasa untuk dideteksi.
Kolom teks	Pilihan Kolom		Diperlukan		Nama atau indeks kolom teks satu berbasis.

Output

Nama	Jenis	Deskripsi
Kumpulan data hasil	Tabel Data	Hasilnya

Pengecualian

Pengecualian	Deskripsi
Kesalahan 0003	Pengecualian terjadi jika satu atau beberapa input null atau kosong.
Kesalahan 0010	Pengecualian terjadi jika himpunan data input memiliki nama kolom yang seharusnya cocok tetapi tidak cocok.
Kesalahan 0016	Pengecualian terjadi jika input himpunan data yang diteruskan ke modul harus memiliki jenis kolom yang kompatibel tetapi tidak.
Kesalahan 0008	Pengecualian terjadi jika parameter tidak dalam jangkauan.

Untuk daftar kesalahan khusus untuk modul Studio (klasik), lihat Pembelajaran Mesin Kode kesalahan.

Untuk daftar pengecualian API, lihat Pembelajaran Mesin Kode Kesalahan REST API.

Lihat juga

Text Analytics
Daftar Modul A-Z

Bagikan melalui