Özel metin sınıflandırması için dil desteği
Şu anda özel metin sınıflandırma özelliği tarafından desteklenen diller hakkında bilgi edinmek için bu makaleyi kullanın.
Çok dilli seçenek
Özel metin sınıflandırmasıyla bir modeli bir dilde eğitebilir ve belgeleri başka bir dilde sınıflandırmak için kullanabilirsiniz. Bu özellik, zamandan ve çabadan tasarruf etmenizi sağladığından yararlıdır. Her dil için ayrı projeler oluşturmak yerine tek bir projede çok dilli veri kümesini işleyebilirsiniz. Veri kümenizin tamamen aynı dilde olması gerekmez, ancak proje ayarları oluştururken veya daha sonra projeniz için çok dilli seçeneğini etkinleştirmeniz gerekir. Değerlendirme işlemi sırasında modelinizin belirli dillerde kötü performans sergilediğini fark ederseniz, eğitim kümenize bu dillerde daha fazla veri eklemeyi göz önünde bulundurun.
Projenizi tamamen İngilizce belgelerle eğitebilir ve şu şekilde sorgulayabilirsiniz: Fransızca, Almanca, Mandarin, Japonca, Korece ve diğerleri. Özel metin sınıflandırması, modellerinizi eğitmek için çok dilli teknoloji kullanarak projelerinizi birden çok dile ölçeklendirmenizi kolaylaştırır.
Belirli bir dilin ve diğer dillerin çalışmadığını her tanımladığınızda, projenize bu dil için daha fazla belge ekleyebilirsiniz. Language Studio'daki veri etiketleme sayfasında, eklediğiniz belgenin dilini seçebilirsiniz. Modele bu dil için daha fazla belge eklediğinizde, bu dilin söz diziminin daha fazlası tanıtılır ve daha iyi tahmin etmeyi öğrenir.
Her dil için aynı sayıda belge eklemeniz beklenmez. Projenizin büyük bölümünü tek bir dilde oluşturmanız ve yalnızca iyi performans göstermediğiniz dillerde birkaç belge eklemeniz gerekir. Öncelikle İngilizce olan bir proje oluşturur ve bunu Fransızca, Almanca ve İspanyolca olarak test etmeye başlarsanız, Almancanın diğer iki dilin yanı sıra performans göstermediğini de gözlemleyebilirsiniz. Bu durumda, orijinal İngilizce belgelerinizin %5'ini Almanca olarak eklemeyi, yeni bir model eğitip tekrar Almanca test etmeyi göz önünde bulundurun. Almanca sorgular için daha iyi sonuçlar görmeniz gerekir. Ne kadar çok etiketli belge eklerseniz, sonuçların daha iyi olma olasılığı o kadar artar.
Başka bir dilde veri eklediğinizde, diğer dilleri olumsuz etkilemesini beklememelisiniz.
Özel metin sınıflandırması tarafından desteklenen diller
Özel metin sınıflandırması aşağıdaki dillerde dosyaları destekler .txt
:
Dil | Dil Kodu |
---|---|
Afrikaner | af |
Amharca | am |
Arapça | ar |
Assamca | as |
Azerbaycan | az |
Beyaz Rusça | be |
Bulgarca | bg |
Bengali | bn |
Breton | br |
Boşnakça | bs |
Katalanca | ca |
Çekçe | cs |
Galce | cy |
Danca | da |
Almanca | de |
Yunanca | el |
İngilizce (ABD) | en-us |
Esperanto | eo |
İspanyolca | es |
Estonya Dili | et |
Baskça | eu |
Farsça | fa |
Fince | fi |
Fransızca | fr |
Batı Frizce | fy |
İrlandaca | ga |
İskoç Gaelik dili | gd |
Galiçya Dili | gl |
Gucerat dili | gu |
Hausa | ha |
İbranice | he |
Hintçe | hi |
Hırvatça | hr |
Macarca | hu |
Ermenice | hy |
Endonezce | id |
İtalyanca | it |
Japonca | ja |
Cava | jv |
Gürcüce | ka |
Kazakça | kk |
Khmer | km |
Kannada dili | kn |
Korece | ko |
Kürtçe (Kurmanji) | ku |
Kırgızca | ky |
Latin | la |
Lao | lo |
Litvanca | lt |
Letonca | lv |
Malagasy | mg |
Makedon | mk |
Malayalam dili | ml |
Moğolca | mn |
Marathi | mr |
Malayca | ms |
Birmanya | my |
Nepalce | ne |
Felemenkçe | nl |
Norveççe (Bokmal) | nb |
Okur | or |
Pencap dili | pa |
Lehçe | pl |
Peştuca | ps |
Portekizce (Brezilya) | pt-br |
Portekizce (Portekiz) | pt-pt |
Rumence | ro |
Rusça | ru |
Sanskrit | sa |
Sindhi dili | sd |
Seylanca | si |
Slovakça | sk |
Slovence | sl |
Somali | so |
Arnavutça | sq |
Sırpça | sr |
Sundane dili | su |
İsveççe | sv |
Svahili dili | sw |
Tamil dili | ta |
Telugu dili | te |
Tayca | th |
Filipino | tl |
Türkçe | tr |
Uygur | ug |
Ukraynaca | uk |
Urduca | ur |
Özbekçe | uz |
Vietnamca | vi |
Zosa dili | xh |
Yidiş | yi |
Basitleştirilmiş Çince | zh-hans |
Zulu dili | zu |