Como utilizar a deteção de idioma

Artigo
12/19/2023

A funcionalidade Deteção de Idioma pode avaliar o texto e devolver um identificador de idioma que indica o idioma em que um documento foi escrito.

A deteção de idioma é útil para arquivos de conteúdos que recolhem texto arbitrário, onde o idioma é desconhecido. Pode analisar os resultados desta análise para determinar o idioma que é utilizado no documento de entrada. A resposta também devolve uma classificação entre 0 e 1 que reflete a confiança do modelo.

A funcionalidade Deteção de Idiomas pode detetar uma vasta gama de idiomas, variantes, dialetos e algumas linguagens regionais ou culturais.

Opções de desenvolvimento

Para utilizar a deteção de idioma, submeta texto não estruturado não processado para análise e processe a saída da API na sua aplicação. A análise é efetuada tal como está, sem personalização adicional para o modelo utilizado nos seus dados. Existem duas formas de utilizar a deteção de idioma:

Opção de desenvolvimento	Description
Estúdio de linguagem	O Language Studio é uma plataforma baseada na Web que lhe permite experimentar a associação de entidades com exemplos de texto sem uma conta do Azure e os seus próprios dados quando se inscreve. Para obter mais informações, consulte o guia de início rápido do Language Studio ou do language studio.
API REST ou Biblioteca de cliente (SDK do Azure)	Integre a deteção de idioma nas suas aplicações com a API REST ou a biblioteca de cliente disponível em vários idiomas. Para obter mais informações, veja o início rápido da deteção de idioma.
Contentor do Docker	Utilize o contentor do Docker disponível para implementar esta funcionalidade no local. Estes contentores do Docker permitem-lhe aproximar o serviço dos seus dados por motivos de conformidade, segurança ou outros motivos operacionais.

Determinar como processar os dados (opcional)

Especificar o modelo de deteção de idioma

Por predefinição, a deteção de idioma utilizará o modelo de IA mais recente disponível no seu texto. Também pode configurar os seus pedidos de API para utilizar uma versão de modelo específica.

Idiomas de entrada

Quando submete documentos a avaliar, a deteção de idioma tentará determinar se o texto foi escrito em algum dos idiomas suportados.

Se tiver conteúdos expressos num idioma utilizado com menos frequência, pode experimentar a funcionalidade Deteção de Idioma para ver se devolve um código. A resposta para idiomas que não podem ser detetados é unknown.

Submeter dados

Dica

Pode utilizar um contentor do Dockerpara deteção de idioma, para que possa utilizar a API no local.

A análise é realizada aquando da receção do pedido. Utilizar a funcionalidade de deteção de idioma de forma síncrona não tem estado. Não são armazenados dados na sua conta e os resultados são devolvidos imediatamente na resposta.

Ao utilizar esta funcionalidade de forma assíncrona, os resultados da API estão disponíveis durante 24 horas a partir do momento em que o pedido foi ingerido e são indicados na resposta. Após este período de tempo, os resultados são removidos e já não estão disponíveis para obtenção.

Obter resultados de deteção de idioma

Quando obtém resultados da deteção de idioma, pode transmitir os resultados para uma aplicação ou guardar a saída num ficheiro no sistema local.

A deteção de idioma devolverá um idioma predominante para cada documento que submeter, juntamente com o nome ISO 639-1 , um nome legível por humanos e uma classificação de confiança. Uma classificação positiva de 1 indica o nível de confiança mais elevado possível da análise.

Conteúdo ambíguo

Em alguns casos, pode ser difícil desambiguar idiomas com base na entrada. Pode utilizar o countryHint parâmetro para especificar um código iso 3166-1 alfa-2 país/região. Por predefinição, a API utiliza "EUA" como a sugestão de país predefinida. Para remover este comportamento, pode repor este parâmetro ao definir este valor como cadeia countryHint = "" vazia .

Por exemplo, a "comunicação" é comum tanto em inglês como em francês e, se for dada com contexto limitado, a resposta será baseada na sugestão de país/região "EUA". Se o texto tiver origem em França, este país poderá ser dado como sugestão.

Entrada

{
    "documents": [
        {
            "id": "1",
            "text": "communication"
        },
        {
            "id": "2",
            "text": "communication",
            "countryHint": "fr"
        }
    ]
}

O modelo de deteção de idioma tem agora contexto adicional para fazer um melhor julgamento:

Saída

{
    "documents":[
        {
            "detectedLanguage":{
                "confidenceScore":0.62,
                "iso6391Name":"en",
                "name":"English"
            },
            "id":"1",
            "warnings":[
                
            ]
        },
        {
            "detectedLanguage":{
                "confidenceScore":1.0,
                "iso6391Name":"fr",
                "name":"French"
            },
            "id":"2",
            "warnings":[
                
            ]
        }
    ],
    "errors":[
        
    ],
    "modelVersion":"2022-10-01"
}

Se o analisador não conseguir analisar a entrada, devolve (Unknown). Um exemplo é se submeter uma cadeia de texto que consiste apenas em números.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2021-01-05"
}

Conteúdo de linguagem mista

O conteúdo de linguagem mista no mesmo documento devolve o idioma com a maior representação no conteúdo, mas com uma classificação positiva mais baixa. A classificação reflete a força marginal da avaliação. No seguinte exemplo, a entrada é uma mistura de inglês, espanhol e francês. O analisador conta carateres em cada segmento para determinar o idioma predominante.