Suporte de idiomas para classificação de textos personalizados
Utilize este artigo para saber mais sobre os idiomas atualmente suportados pela funcionalidade de classificação de textos personalizada.
Opção multilingue
Com a classificação de textos personalizada, pode preparar um modelo num idioma e utilizá-lo para classificar documentos noutro idioma. Esta funcionalidade é útil porque ajuda a poupar tempo e esforço. Em vez de criar projetos separados para cada linguagem, pode processar um conjunto de dados multilinngue num só projeto. O conjunto de dados não tem de estar totalmente no mesmo idioma, mas deve ativar a opção multilingue para o seu projeto durante a criação ou posterior nas definições do projeto. Se notar que o modelo tem um mau desempenho em determinados idiomas durante o processo de avaliação, considere adicionar mais dados nestes idiomas ao seu conjunto de preparação.
Pode preparar o seu projeto inteiramente com documentos em inglês e utilizá-lo em: francês, alemão, mandarim, japonês, coreano e outros. A classificação de textos personalizada torna mais fácil dimensionar os seus projetos para vários idiomas através da utilização de tecnologia multilingue para preparar os seus modelos.
Sempre que identificar que um determinado idioma não está a funcionar, bem como outros idiomas, pode adicionar mais documentos para esse idioma no seu projeto. Na página de etiquetagem de dados no Language Studio, pode selecionar o idioma do documento que está a adicionar. Quando apresenta mais documentos para esse idioma ao modelo, este é introduzido em mais sintaxe desse idioma e aprende a prever melhor.
Não se espera que adicione o mesmo número de documentos para cada idioma. Deve criar a maioria do seu projeto num idioma e adicionar apenas alguns documentos em idiomas que observar que não estão a ter um bom desempenho. Se criar um projeto principalmente em inglês e começar a testá-lo em francês, alemão e espanhol, poderá observar que o alemão não funciona tão bem como os outros dois idiomas. Nesse caso, considere adicionar 5% dos seus documentos originais em inglês em alemão, preparar um novo modelo e testar novamente em alemão. Deverá ver melhores resultados para consultas alemãs. Quanto mais documentos etiquetados adicionar, maior será a probabilidade de os resultados melhorarem.
Quando adiciona dados noutro idioma, não deve esperar que a afete negativamente outros idiomas.
Idiomas suportados pela classificação de textos personalizada
A classificação de textos personalizados suporta ficheiros .txt
nos seguintes idiomas:
Linguagem | Código do Idioma |
---|---|
Afrikaans | af |
Amárico | am |
Árabe | ar |
Assamese | as |
Azerbaijão | az |
Bielorrusso | be |
Búlgaro | bg |
Bengali | bn |
Breton | br |
Bósnio | bs |
Catalão | ca |
Checo | cs |
Galês | cy |
Dinamarquês | da |
Alemão | de |
Grego | el |
Inglês (E.U.A.) | en-us |
Esperanto | eo |
Espanhol | es |
Estónio | et |
Basco | eu |
Persa | fa |
Finlandês | fi |
Francês | fr |
Friso Ocidental | fy |
Irlandês | ga |
Gaélico Escocês | gd |
Galego | gl |
Guatesi | gu |
Hausa | ha |
Hebraico | he |
Hindi | hi |
Croata | hr |
Húngaro | hu |
Arménio | hy |
Indonésio | id |
Italiano | it |
Japonês | ja |
Javanês | jv |
Georgiano | ka |
Cazaque | kk |
Khmer | km |
Kannada | kn |
Coreano | ko |
Curdo (Kurmanji) | ku |
Quirguistão | ky |
Latim | la |
Lao | lo |
Lituano | lt |
Letão | lv |
Malgaxe | mg |
Macedónio | mk |
Malayalam | ml |
Mongol | mn |
Marathi | mr |
Malaio | ms |
Birmanês | my |
Nepalês | ne |
Neerlandês | nl |
Norueguês (Bokmal) | nb |
Odia | or |
Punjabi | pa |
Polaco | pl |
Pashto | ps |
Português (Brasil) | pt-br |
Português (Portugal) | pt-pt |
Romeno | ro |
Russo | ru |
Sânscrito | sa |
Sindhi | sd |
Sinhala | si |
Eslovaco | sk |
Esloveno | sl |
Somália | so |
Albanês | sq |
Sérvio | sr |
Sundanese | su |
Sueco | sv |
Suaíli | sw |
Tamil | ta |
Telugu | te |
Tailandês | th |
Filipino | tl |
Turco | tr |
Uyghur | ug |
Ucraniano | uk |
Urdu | ur |
Usbeque | uz |
Vietnamita | vi |
Xhosa | xh |
Iídiche | yi |
Chinês (Simplificado) | zh-hans |
Zulu | zu |