Dukungan bahasa dan kawasan untuk LUIS

Penting

LUIS akan dihentikan pada 1 Oktober 2025 dan mulai 1 April 2023 Anda tidak akan dapat membuat sumber daya LUIS baru. Sebaiknya migrasikan aplikasi LUIS Anda ke pemahaman bahasa percakapan untuk mendapatkan manfaat dari dukungan produk berkelanjutan dan kemampuan multibahasa.

LUIS memiliki berbagai fitur dalam layanan ini. Tidak semua fitur berada pada kelompok bahasa yang sama. Pastikan fitur yang Anda minati didukung dalam budaya bahasa sasaran Anda. Aplikasi LUIS digunakan untuk budaya tertentu dan tidak dapat diubah setelah ditetapkan.

Aplikasi LUIS multibahasa

Jika Anda memerlukan aplikasi klien LUIS multibahasa seperti chatbot, Anda memiliki beberapa opsi. Jika LUIS mendukung semua bahasa, Anda mengembangkan aplikasi LUIS untuk setiap bahasa. Setiap aplikasi LUIS memiliki ID aplikasi yang unik, dan log titik akhir. Jika Anda perlu memberikan pemahaman bahasa untuk bahasa yang tidak didukung LUIS, Anda dapat menggunakan Layanan penerjemah untuk menerjemahkan ucapan ke dalam bahasa yang didukung, mengirimkan ucapan itu ke titik akhir LUIS, dan menerima skor yang dihasilkan.

Catatan

Versi kemampuan LUIS yang lebih baru sekarang tersedia sebagai bagian dari Bahasa Azure AI. Untuk informasi selengkapnya, lihat Dokumentasi Bahasa Azure AI. Untuk kemampuan pemahaman bahasa yang mendukung beberapa bahasa dalam Layanan Bahasa, lihat Pemahaman Bahasa Percakapan.

Bahasa yang didukung

LUIS memahami ujaran dalam bahasa berikut:

Bahasa Lokal Domain bawaan Entitas bawaan Rekomendasi daftar frasa **Analisis sentimen dan ekstraksi frase kunci
Arab (pratinjau - Arab standar modern) ar-AR - - - -
*Mandarin zh-CN -
Belanda nl-NL - -
Inggris (Amerika Serikat) en-US
Bahasa Inggris (UK) en-GB
Prancis (Kanada) fr-CA - - -
Prancis (Prancis) fr-FR
Jerman de-DE
Gujarati (pratinjau) gu-IN - - - -
Hindi (pratinjau) hi-IN - - -
Italia it-IT
*Jepang ja-JP Frasa kunci saja
Korea ko-KR - - Frasa kunci saja
Marathi (pratinjau) mr-IN - - - -
Portugis (Brasil) pt-BR tidak semua sub-budaya
Spanyol (Meksiko) es-MX -
Spanyol (Spanyol) es-ES
Tamil (pratinjau) ta-IN - - - -
Telugu (pratinjau) te-IN - - - -
Turki tr-TR - Hanya sentimen

Dukungan bahasa beragam untuk entitas bawaan dan domain bawaan.

*Catatan dukungan bahasa Cina

  • Dalam budaya zh-CN, LUIS mengharapkan tataan karakter Cina sederhana alih-alih tataan karakter tradisional.
  • Nama niat, entitas, fitur, dan ekspresi reguler mungkin ada dalam karakter Tionghoa atau Romawi.
  • Lihat referensi domain bawaan untuk informasi tentang domain bawaan mana yang didukung dalam budaya zh-CN.

*Catatan dukungan bahasa Jepang

  • Karena LUIS tidak memberikan analisis sintaktik dan tidak akan memahami perbedaan antara Keigo dan Jepang informal, Anda perlu memasukkan berbagai tingkat formalitas sebagai contoh pelatihan untuk aplikasi Anda.
    • でございます tidak sama dengan です.
    • です tidak sama dengan だ.

** Catatan dukungan layanan Bahasa

Layanan Bahasa mencakup entitas keyPhrase prebuilt dan analisis sentimen. Hanya bahasa Portugis yang didukung untuk subkultur: pt-PT dan pt-BR. Semua budaya lain didukung di tingkat budaya primer.

Bahasa yang didukung API Ucapan

Lihat Bahasa yang didukung Ucapan untuk bahasa mode dikte Ucapan.

Bahasa yang didukung Bing Spell Check

Lihat Bahasa yang didukung Bing Spell Check untuk daftar bahasa dan status yang didukung.

Kata-kata langka atau asing dalam aplikasi

Dalam budaya en-us, LUIS belajar membedakan sebagian besar kata-kata bahasa Inggris, termasuk bahasa gaul. Dalam budaya zh-cn, LUIS belajar membedakan sebagian besar karakter Mandarin. Jika Anda menggunakan kata langka dalam en-us atau karakter langka dalam zh-cn, dan Anda melihat bahwa LUIS tampaknya tidak dapat membedakan kata atau karakter tersebut, Anda dapat menambahkan kata atau karakter itu ke fitur daftar frasa. Misalnya, kata-kata di luar budaya aplikasi -- yaitu, kata-kata asing -- harus ditambahkan ke fitur daftar frasa.

Bahasa hibrid

Bahasa hibrid menggabungkan kata-kata dari dua budaya seperti Inggris dan Mandarin. Bahasa-bahasa ini tidak didukung di LUIS karena aplikasi didasarkan pada satu budaya.

Tokenisasi

Untuk melakukan pembelajaran mesin, LUIS memecah ujaran menjadi beberapa token bersadarkan budaya.

Bahasa setiap spasi atau karakter khusus tingkat karakter kata-kata majemuk
Arab
Mandarin
Belanda
Inggris (en-us)
Bahasa Inggris (en-GB)
Prancis (fr-FR)
Prancis (fr-CA)
Jerman
Gujarat
Hindi
Italia
Jepang
Korea
Marathi
Portugis (Brasil)
Spanyol (es-ES)
Spanyol (es-MX)
Tamil
Telugu
Turki

Versi tokenizer kustom

Budaya berikut memiliki versi tokenizer kustom:

Budaya Versi Tujuan
Jerman
de-de
1.0.0 Membuat token kata-kata dengan membaginya menggunakan tokenizer berbasis pembelajaran mesin yang mencoba memecah kata-kata komposit ke dalam komponen tunggal mereka.
Jika pengguna memasukkan Ich fahre einen krankenwagen sebagai sebuah ujaran, ujaran tersebut akan diubah menjadi Ich fahre einen kranken wagen. Memungkinkan penandaan kranken dan wagen yang secara independen sebagai entitas yang berbeda.
Jerman
de-de
1.0.2 Membuat token kata-kata dengan membaginya di spasi.
Jika pengguna memasukkan Ich fahre einen krankenwagen sebagai ujaran, ujaran tersebut tetap menjadi satu token. Dengan demikian, krankenwagen ditandai sebagai entitas tunggal.
Belanda
nl-nl
1.0.0 Membuat token kata-kata dengan membaginya menggunakan tokenizer berbasis pembelajaran mesin yang mencoba memecah kata-kata komposit ke dalam komponen tunggal mereka.
Jika pengguna memasukkan Ik ga naar de kleuterschool sebagai sebuah ujaran, ujaran tersebut akan diubah menjadi Ik ga naar de kleuter school. Memungkinkan penandaan kleuter dan school yang secara independen sebagai entitas yang berbeda.
Belanda
nl-nl
1.0.1 Membuat token kata-kata dengan membaginya di spasi.
Jika pengguna memasukkan Ik ga naar de kleuterschool sebagai ujaran, ujaran tersebut tetap menjadi satu token. Dengan demikian, kleuterschool ditandai sebagai entitas tunggal.

Bermigrasi antar-versi tokenizer

Tokenisasi terjadi di tingkat aplikasi. Tidak ada dukungan untuk tokenisasi tingkat versi.

Mengimpor file sebagai aplikasi baru, bukan versi. Tindakan ini berarti aplikasi baru memiliki ID aplikasi yang berbeda tetapi menggunakan versi tokenizer yang ditentukan dalam file.