Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Fitur Deteksi Bahasa dapat mengevaluasi teks, dan mengembalikan pengenal bahasa yang menunjukkan bahasa yang ditulis dokumen.
Deteksi bahasa berguna untuk penyimpanan konten yang mengumpulkan teks arbitrer, di mana bahasa tidak diketahui. Anda dapat mengurai hasil analisis ini untuk menentukan bahasa mana yang digunakan dalam dokumen input. Respons juga mengembalikan skor antara 0 dan 1 yang mencerminkan kepercayaan diri model.
Fitur Language Detection dapat mendeteksi berbagai bahasa, varian, dialek, dan beberapa bahasa daerah atau budaya.
Opsi pengembangan
Untuk menggunakan deteksi bahasa, Anda mengirimkan teks mentah yang tidak terstruktur untuk analisis dan menangani output API di aplikasi Anda. Analisis dilakukan sebagaimana adanya, tanpa penyesuaian tambahan untuk model yang digunakan pada data Anda. Ada tiga cara untuk menggunakan deteksi bahasa:
Opsi pengembangan | Deskripsi |
---|---|
Azure AI Foundry | Azure AI Foundry adalah platform berbasis web yang memungkinkan Anda menggunakan penautan entitas dengan contoh teks dengan data Anda sendiri saat mendaftar. Untuk informasi selengkapnya, lihat situs web Azure AI Foundry atau dokumentasi Azure AI Foundry. |
REST API atau Pustaka Klien (Azure SDK) | Integrasikan deteksi bahasa ke dalam aplikasi Anda menggunakan REST API, atau pustaka klien yang tersedia dalam berbagai bahasa. Untuk informasi selengkapnya, lihat panduan cepat deteksi bahasa. |
Kontainer Docker | Gunakan kontainer Docker yang tersedia untuk menyebarkan fitur ini di lokal. Dengan kontainer docker ini, Anda dapat mendekatkan layanan ke data Anda untuk kebutuhan kepatuhan, keamanan, atau kebutuhan operasional lainnya. |
Menentukan cara memproses data (opsional)
Menentukan model deteksi bahasa
Secara default, deteksi bahasa akan menggunakan model AI terbaru yang tersedia pada teks Anda. Anda juga dapat mengonfigurasikan permintaan API untuk menggunakan versi model tertentu.
Bahasa untuk input
Ketika Anda mengirimkan dokumen untuk dievaluasi, deteksi bahasa akan mencoba untuk menentukan apakah teks ditulis dalam salah satu bahasa yang didukung.
Jika Anda memiliki konten yang dinyatakan dalam bahasa yang tidak terlalu sering digunakan, Anda dapat mencoba fitur Language Detection untuk melihat apakah konten tersebut menampilkan kode. Respons untuk bahasa yang tidak dapat dideteksi adalah unknown
.
Mengirimkan data
Petunjuk / Saran
Anda dapat menggunakan wadah Dockeruntuk deteksi bahasa, sehingga Anda dapat menggunakan API di tempat.
Analisis dilakukan setelah permintaan diterima. Menggunakan fitur deteksi bahasa secara sinkron tidak memiliki kewarganegaraan. Tidak ada data yang disimpan di akun Anda, dan hasilnya segera dikembalikan sebagai respons.
Saat menggunakan fitur ini secara asinkron, hasil API tersedia selama 24 jam sejak permintaan diterima, dan ditunjukkan dalam respons. Setelah jangka waktu ini, hasilnya akan dihapus menyeluruh dan tidak lagi tersedia untuk diambil.
Mendapatkan hasil deteksi bahasa
Saat Anda mendapatkan hasil dari deteksi bahasa, Anda dapat mengalirkan hasilnya ke aplikasi atau menyimpan output ke file di sistem lokal.
Deteksi bahasa akan mengembalikan satu bahasa dominan untuk setiap dokumen yang Anda kirimkan, bersama dengan nama ISO 639-1 , nama yang dapat dibaca manusia, skor keyakinan, nama skrip, dan kode skrip sesuai dengan standar ISO 15924. Skor positif 1 menunjukkan tingkat kepercayaan tertinggi dari analisis.
Konten ambigu
Dalam beberapa kasus mungkin sulit untuk membedakan bahasa berdasarkan input. Anda bisa menggunakan parameter countryHint
untuk menentukan kode negara/wilayah ISO 3166-1 alpha-2. Secara default API menggunakan "US" sebagai petunjuk negara default. Untuk menghapus perilaku ini, Anda dapat mengatur ulang parameter ini dengan mengatur nilai ini ke string kosong countryHint = ""
.
Misalnya, "komunikasi" umum untuk bahasa Inggris dan Prancis dan jika diberikan dengan konteks terbatas, respons akan didasarkan pada petunjuk negara/wilayah "AS". Jika asal teks diketahui berasal dari Prancis yang bisa diberikan sebagai petunjuk.
Catatan
Konten ambigu dapat menyebabkan skor keyakinan menjadi lebih rendah.
countryHint
dalam respons hanya berlaku jika skor kepercayaan kurang dari 0,8.
Masukan
{
"documents": [
{
"id": "1",
"text": "communication"
},
{
"id": "2",
"text": "communication",
"countryHint": "fr"
}
]
}
Dengan dokumen kedua, model deteksi bahasa memiliki konteks tambahan untuk membuat penilaian yang lebih baik karena berisi countryHint
properti dalam input di atas. Ini akan mengembalikan output berikut.
Hasil
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2022-10-01"
}
Jika penganalisa tidak dapat menguraikan input, ia akan mengembalikan (Unknown)
. Contohnya adalah jika Anda mengirimkan string teks yang hanya terdiri dari angka.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2023-12-01"
}
Konten berbahasa campuran
Konten berbahasa campuran dalam dokumen yang sama mengembalikan bahasa yang representasinya terbesar dalam konten, tetapi dengan peringkat positif yang lebih rendah. Peringkat ini mencerminkan kekuatan marginal dari penilaian. Dalam contoh berikut, inputnya adalah perpaduan dari bahasa Inggris, Spanyol, dan Prancis. Penganalisis menghitung karakter di setiap segmen untuk menentukan bahasa yang dominan.
Masukan
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Hasil
Output yang dihasilkan terdiri dari bahasa yang dominan, dengan skor kurang dari 1,0, yang menunjukkan tingkat keyakinan yang lebih lemah.
{
"kind": "LanguageDetectionResults",
"results": {
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.97,
"script": "Latin",
"scriptCode": "Latn"
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2023-12-01"
}
}
Nama skrip dan kode skrip
Catatan
- Deteksi skrip saat ini terbatas pada bahasa pemilihan.
- Deteksi skrip hanya tersedia untuk input tekstual yang panjangnya lebih besar dari 12 karakter.
Deteksi bahasa menawarkan kemampuan untuk mendeteksi lebih dari satu skrip per bahasa sesuai dengan standar ISO 15924. Secara khusus, Deteksi Bahasa mengembalikan dua properti terkait skrip:
-
script
: Nama skrip yang bisa dibaca oleh manusia -
scriptCode
: Kode ISO 15924 untuk skrip yang diidentifikasi
Output API mencakup nilai scriptCode
properti untuk dokumen yang memiliki panjang minimal 12 karakter atau lebih besar dan cocok dengan daftar bahasa dan skrip yang didukung. Deteksi skrip dirancang untuk menguntungkan pengguna yang bahasanya dapat ditransliterasi atau ditulis dalam lebih dari satu skrip, seperti bahasa Kazakh atau Hindi.
Sebelumnya, deteksi bahasa dirancang untuk mendeteksi bahasa dokumen dalam berbagai bahasa, dialek, dan varian regional, tetapi dibatasi oleh "Romanisasi". Romanisasi mengacu pada konversi teks dari satu sistem penulisan ke skrip Romawi (Latin), dan diperlukan untuk mendeteksi banyak bahasa Indo-Eropa. Namun, ada bahasa lain yang ditulis dalam beberapa skrip, seperti Kazakh, yang dapat ditulis dalam skrip Sirilik, Perso-Arab, dan Latin. Ada juga kasus lain di mana pengguna dapat memilih atau diharuskan untuk mentransliterasi bahasa mereka dalam lebih dari satu skrip, seperti Hindi yang ditransliterasi dalam skrip Latin, karena ketersediaan keyboard yang terbatas yang mendukung skrip Devanagari-nya.
Akibatnya, dukungan deteksi bahasa yang diperluas untuk deteksi skrip berperilaku sebagai berikut:
Masukan
{
"kind": "LanguageDetection",
"parameters": {
"modelVersion": "latest"
},
"analysisInput": {
"documents": [
{
"id": "1",
"text": "आप कहाँ जा रहे हैं?"
},
{
"id": "2",
"text": "Туған жерім менің - Қазақстаным"
}
]
}
}
Hasil
Output yang dihasilkan terdiri dari bahasa yang dominan, bersama dengan nama skrip, kode skrip, dan skor keyakinan.
{
"kind": "LanguageDetectionResults",
"results": {
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Hindi",
"iso6391Name": "hi",
"confidenceScore": 1.0,
"script": "Devanagari",
"scriptCode": "Deva"
},
"warnings": []
},
{
"id": "2",
"detectedLanguage": {
"name": "Kazakh",
"iso6391Name": "kk",
"confidenceScore": 1.0,
"script": "Cyrillic",
"scriptCode": "Cyrl"
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2023-12-01"
}
}
Batas layanan dan data
Untuk informasi tentang ukuran dan jumlah permintaan yang dapat Anda kirim per menit dan detik, lihat artikel batas layanan.