Como utilizar a deteção de idioma
A funcionalidade Deteção de Idioma pode avaliar o texto e devolver um identificador de idioma que indica o idioma em que um documento foi escrito.
A deteção de idioma é útil para arquivos de conteúdos que recolhem texto arbitrário, onde o idioma é desconhecido. Pode analisar os resultados desta análise para determinar o idioma que é utilizado no documento de entrada. A resposta também devolve uma classificação entre 0 e 1 que reflete a confiança do modelo.
A funcionalidade Deteção de Idiomas pode detetar uma vasta gama de idiomas, variantes, dialetos e algumas linguagens regionais ou culturais.
Opções de desenvolvimento
Para utilizar a deteção de idioma, submeta texto não estruturado não processado para análise e processe a saída da API na sua aplicação. A análise é efetuada tal como está, sem personalização adicional para o modelo utilizado nos seus dados. Existem duas formas de utilizar a deteção de idioma:
Opção de desenvolvimento | Description |
---|---|
Estúdio de linguagem | O Language Studio é uma plataforma baseada na Web que lhe permite experimentar a associação de entidades com exemplos de texto sem uma conta do Azure e os seus próprios dados quando se inscreve. Para obter mais informações, consulte o guia de início rápido do Language Studio ou do language studio. |
API REST ou Biblioteca de cliente (SDK do Azure) | Integre a deteção de idioma nas suas aplicações com a API REST ou a biblioteca de cliente disponível em vários idiomas. Para obter mais informações, veja o início rápido da deteção de idioma. |
Contentor do Docker | Utilize o contentor do Docker disponível para implementar esta funcionalidade no local. Estes contentores do Docker permitem-lhe aproximar o serviço dos seus dados por motivos de conformidade, segurança ou outros motivos operacionais. |
Determinar como processar os dados (opcional)
Especificar o modelo de deteção de idioma
Por predefinição, a deteção de idioma utilizará o modelo de IA mais recente disponível no seu texto. Também pode configurar os seus pedidos de API para utilizar uma versão de modelo específica.
Idiomas de entrada
Quando submete documentos a avaliar, a deteção de idioma tentará determinar se o texto foi escrito em algum dos idiomas suportados.
Se tiver conteúdos expressos num idioma utilizado com menos frequência, pode experimentar a funcionalidade Deteção de Idioma para ver se devolve um código. A resposta para idiomas que não podem ser detetados é unknown
.
Submeter dados
Dica
Pode utilizar um contentor do Dockerpara deteção de idioma, para que possa utilizar a API no local.
A análise é realizada aquando da receção do pedido. Utilizar a funcionalidade de deteção de idioma de forma síncrona não tem estado. Não são armazenados dados na sua conta e os resultados são devolvidos imediatamente na resposta.
Ao utilizar esta funcionalidade de forma assíncrona, os resultados da API estão disponíveis durante 24 horas a partir do momento em que o pedido foi ingerido e são indicados na resposta. Após este período de tempo, os resultados são removidos e já não estão disponíveis para obtenção.
Obter resultados de deteção de idioma
Quando obtém resultados da deteção de idioma, pode transmitir os resultados para uma aplicação ou guardar a saída num ficheiro no sistema local.
A deteção de idioma devolverá um idioma predominante para cada documento que submeter, juntamente com o nome ISO 639-1 , um nome legível por humanos e uma classificação de confiança. Uma classificação positiva de 1 indica o nível de confiança mais elevado possível da análise.
Conteúdo ambíguo
Em alguns casos, pode ser difícil desambiguar idiomas com base na entrada. Pode utilizar o countryHint
parâmetro para especificar um código iso 3166-1 alfa-2 país/região. Por predefinição, a API utiliza "EUA" como a sugestão de país predefinida. Para remover este comportamento, pode repor este parâmetro ao definir este valor como cadeia countryHint = ""
vazia .
Por exemplo, a "comunicação" é comum tanto em inglês como em francês e, se for dada com contexto limitado, a resposta será baseada na sugestão de país/região "EUA". Se o texto tiver origem em França, este país poderá ser dado como sugestão.
Entrada
{
"documents": [
{
"id": "1",
"text": "communication"
},
{
"id": "2",
"text": "communication",
"countryHint": "fr"
}
]
}
O modelo de deteção de idioma tem agora contexto adicional para fazer um melhor julgamento:
Saída
{
"documents":[
{
"detectedLanguage":{
"confidenceScore":0.62,
"iso6391Name":"en",
"name":"English"
},
"id":"1",
"warnings":[
]
},
{
"detectedLanguage":{
"confidenceScore":1.0,
"iso6391Name":"fr",
"name":"French"
},
"id":"2",
"warnings":[
]
}
],
"errors":[
],
"modelVersion":"2022-10-01"
}
Se o analisador não conseguir analisar a entrada, devolve (Unknown)
. Um exemplo é se submeter uma cadeia de texto que consiste apenas em números.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Conteúdo de linguagem mista
O conteúdo de linguagem mista no mesmo documento devolve o idioma com a maior representação no conteúdo, mas com uma classificação positiva mais baixa. A classificação reflete a força marginal da avaliação. No seguinte exemplo, a entrada é uma mistura de inglês, espanhol e francês. O analisador conta carateres em cada segmento para determinar o idioma predominante.
Entrada
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
Saída
A saída resultante consiste no idioma predominante, com uma classificação inferior a 1,0, o que indica um nível de confiança mais fraco.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.88
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-05"
}
Limites de serviços e dados
Para obter informações sobre o tamanho e o número de pedidos que pode enviar por minuto e segundo, veja o artigo limites de serviço .