Suporte de idiomas e regiões para o LUIS

Importante

O LUIS será descontinuado a 1 de outubro de 2025 e a partir de 1 de abril de 2023 não poderá criar novos recursos do LUIS. Recomendamos que migre as suas aplicações LUIS para a compreensão de linguagem de conversação para beneficiar do suporte contínuo do produto e das capacidades multilingues.

O LUIS tem uma variedade de funcionalidades dentro do serviço. Nem todas as funcionalidades estão na mesma paridade de idiomas. Confirme que as funcionalidades que lhe interessam são suportadas na cultura do idioma que está a segmentar. Uma aplicação LUIS é específica da cultura e não pode ser alterada depois de ser definida.

Aplicações LUIS multilingues

Se precisar de uma aplicação cliente LUIS multilinngue, como um chatbot, tem algumas opções. Se o LUIS suportar todos os idiomas, pode desenvolver uma aplicação LUIS para cada idioma. Cada aplicação LUIS tem um ID de aplicação exclusivo e um registo de ponto final. Se precisar de fornecer compreensão de idioma para um idioma que o LUIS não suporta, pode utilizar o serviço Tradutor para traduzir a expressão para um idioma suportado, submeter a expressão para o ponto final do LUIS e receber as pontuações resultantes.

Nota

Uma versão mais recente das capacidades de Language Understanding está agora disponível como parte da Linguagem de IA do Azure. Para obter mais informações, veja Documentação da Linguagem do Azure AI. Para obter capacidades de compreensão de idiomas que suportam vários idiomas no Serviço de Idiomas, veja Language Understanding conversacional.

Idiomas suportados

O LUIS compreende as expressões nos seguintes idiomas:

Linguagem Região Domínio pré-criado Entidade pré-criada Recomendações de lista de expressões **Análise de sentimentos e extração de expressões-chave
Árabe (pré-visualização - árabe padrão moderno) ar-AR - - - -
*Chinês zh-CN -
Neerlandês nl-NL - -
Inglês (Estados Unidos) en-US
Inglês (Reino Unido) en-GB
Francês (Canadá) fr-CA - - -
Francês (França) fr-FR
Alemão de-DE
Guássia (pré-visualização) gu-IN - - - -
Hindi (pré-visualização) hi-IN - - -
Italiano it-IT
*Japonês ja-JP Apenas expressão-chave
Coreano ko-KR - - Apenas expressão-chave
Marathi (pré-visualização) mr-IN - - - -
Português (Brasil) pt-BR nem todas as subculturas
Espanhol (México) es-MX -
Espanhol (Espanha) es-ES
Tamil (pré-visualização) ta-IN - - - -
Telugu (pré-visualização) te-IN - - - -
Turco tr-TR - Apenas sentimento

O suporte de idioma varia para entidades pré-criadas e domínios pré-criados.

*Notas de suporte em chinês

  • Na cultura, o zh-CN LUIS espera o conjunto de carateres chinês simplificado em vez do conjunto de carateres tradicional.
  • Os nomes de intenções, entidades, características e expressões regulares podem estar em carateres chineses ou romanos.
  • Veja a referência de domínios pré-criados para obter informações sobre os domínios pré-criados suportados na zh-CN cultura.

*Notas de suporte japonesas

  • Uma vez que o LUIS não fornece análises sintaticas e não compreende a diferença entre Keigo e japonês informal, tem de incorporar os diferentes níveis de formalidade como exemplos de preparação para as suas aplicações.
    • でございます não é o mesmo que です.
    • です não é o mesmo que だ.

**Notas de suporte do serviço de idiomas

O serviço Idioma inclui a entidade pré-criada keyPhrase e a análise de sentimentos. Apenas o português é suportado para subculturas: pt-PT e pt-BR. Todas as outras culturas são suportadas ao nível da cultura primária.

Idiomas suportados pela API de Voz

Veja Idiomas suportados por Voz para idiomas do modo de ditado de Voz.

Idiomas suportados da Verificação Ortográfica do Bing

Veja Idiomas suportados da Verificação Ortográfica do Bing para obter uma lista de idiomas e estado suportados.

Palavras raras ou externas numa aplicação

Na cultura, o en-us LUIS aprende a distinguir a maioria das palavras em inglês, incluindo gíria. Na cultura, o zh-cn LUIS aprende a distinguir a maioria dos carateres chineses. Se utilizar uma palavra ou caráter raro no en-uszh-cn, e vir que o LUIS parece não conseguir distinguir essa palavra ou caráter, pode adicionar essa palavra ou caráter a uma funcionalidade de lista de expressões. Por exemplo, as palavras fora da cultura da aplicação (ou seja, palavras externas) devem ser adicionadas a uma funcionalidade de lista de expressões.

Idiomas híbridos

Os idiomas híbridos combinam palavras de duas culturas, como o inglês e o chinês. Estes idiomas não são suportados no LUIS porque uma aplicação é baseada numa única cultura.

Tokenization

Para realizar machine learning, o LUIS divide uma expressão em tokens com base na cultura.

Linguagem cada espaço ou caráter especial nível de caráter palavras compostas
Árabe
Chinês
Neerlandês
Inglês (en-us)
Inglês (en-GB)
Francês (fr-FR)
Francês (fr-CA)
Alemão
Gujarati
Hindi
Italiano
Japonês
Coreano
Teresa
Português (Brasil)
Espanhol (es-ES)
Espanhol (es-MX)
Tamil
Telugu
Turco

Versões personalizadas do tokenizer

As seguintes culturas têm versões de tokenizer personalizadas:

Cultura Versão Objetivo
Alemão
de-de
1.0.0 Tokeniza palavras ao dividi-las com um tokenizador baseado em machine learning que tenta dividir palavras compostas nos seus componentes únicos.
Se um utilizador introduzir Ich fahre einen krankenwagen como uma expressão, é recorrido a Ich fahre einen kranken wagen. Permitir a marcação de e wagen de kranken forma independente como entidades diferentes.
Alemão
de-de
1.0.2 Tokeniza palavras ao dividi-las em espaços.
Se um utilizador introduzir Ich fahre einen krankenwagen como uma expressão, continuará a ser um token único. Assim, krankenwagen é marcado como uma única entidade.
Neerlandês
nl-nl
1.0.0 Tokeniza palavras ao dividi-las com um tokenizador baseado em machine learning que tenta dividir palavras compostas nos seus componentes únicos.
Se um utilizador introduzir Ik ga naar de kleuterschool como uma expressão, é recorrido a Ik ga naar de kleuter school. Permitir a marcação de e school de kleuter forma independente como entidades diferentes.
Neerlandês
nl-nl
1.0.1 Tokeniza palavras ao dividi-las em espaços.
Se um utilizador introduzir Ik ga naar de kleuterschool como uma expressão, continuará a ser um token único. Assim, kleuterschool é marcado como uma única entidade.

Migrar entre versões do tokenizer

A tokenização ocorre ao nível da aplicação. Não existe suporte para a tokenização ao nível da versão.

Importe o ficheiro como uma nova aplicação, em vez de uma versão. Esta ação significa que a nova aplicação tem um ID de aplicação diferente, mas utiliza a versão do tokenizer especificada no ficheiro.