Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
Traduções que não sejam em inglês são fornecidas apenas por conveniência. Consulte a EN-US
versão deste documento para obter a versão vinculativa.
Como parte do serviço Azure AI Speech, a avaliação de pronúncia capacita soluções educacionais de ponta a ponta para aprendizagem de idiomas assistida por computador. A Avaliação da Pronúncia envolve múltiplos critérios para avaliar o desempenho dos alunos em vários níveis de detalhe, com perceções semelhantes às dos juízes humanos.
Quão precisa é a Avaliação de Pronúncia?
O recurso Avaliação de Pronúncia fornece pontuações objetivas, como precisão de pronúncia e grau de fluência, para alunos de idiomas na aprendizagem de idiomas assistida por computador. O desempenho da avaliação de pronúncia depende da precisão da transcrição deTo-Text de fala do Azure AI com o uso de uma transcrição enviada como referência e do acordo entre avaliadores entre o sistema e juízes humanos. Para obter uma definição de precisãoTo-Text na transcrição de fala, consulte Características e limitações do uso de fala para texto.
As seções a seguir foram criadas para ajudá-lo a entender os principais conceitos sobre precisão à medida que se aplicam ao uso da Avaliação de Pronúncia.
A linguagem da precisão
A precisão da FalaTo-Text afeta a avaliação da pronúncia. A taxa de erro de palavras (WER) é usada para medir a precisão da falaTo-Text como o padrão da indústria. O WER conta o número de palavras incorretas identificadas durante o reconhecimento e, em seguida, divide pelo número total de palavras fornecidas na transcrição correta, que muitas vezes é criada pela rotulagem humana.
Comparar a avaliação da pronúncia com a de juízes humanos
O coeficiente de correlação de Pearson é usado para medir a correlação entre os escores gerados pela API de avaliação da pronúncia e os escores gerados por juízes humanos. O coeficiente de correlação de Pearson é uma medida de correlação linear para duas sequências dadas. É amplamente utilizado para medir a diferença entre resultados de máquinas gerados automaticamente e etiquetas anotadas por humanos. Este coeficiente atribui um valor entre –1 a 1, onde 0 não é nenhuma correlação, valor negativo significa que a previsão é oposta ao alvo, e valor positivo significa como a previsão está alinhada com o alvo.
As diretrizes propostas para a interpretação do coeficiente de correlação de Pearson são apresentadas na tabela a seguir. A força significa a correlação entre duas variáveis e reflete a consistência com que os resultados da máquina se alinham com os rótulos humanos. Valores próximos a 1 indicam uma correlação mais forte.
Força da Associação | Valor do Coeficiente | Detalhes |
---|---|---|
Baixo | 0,1 a 0,3 | As pontuações geradas automaticamente a partir de um sistema automático não estão significativamente alinhadas com a perceção dos seres humanos. |
Médio | 0,3 a 0,5 | As pontuações geradas automaticamente a partir de um sistema automático estão alinhadas com a perceção dos seres humanos, mas ainda existem diferenças e as pessoas podem não concordar com o resultado. |
Alto | 0,5 a 1,0 | As pontuações geradas automaticamente de um sistema automático estão alinhadas com a perceção dos seres humanos, e as pessoas estão dispostas a concordar com os resultados do sistema. |
Em nossas avaliações, o Microsoft Pronunciation Assessment realizou >uma correlação de Pearson de 0,5 com os resultados dos juízes humanos, o que indica que os resultados gerados automaticamente são altamente consistentes com o julgamento de especialistas humanos.
Limitações do sistema e práticas recomendadas para melhorar a precisão do sistema
- A Avaliação de Pronúncia funciona melhor com uma entrada de áudio de maior qualidade. Recomendamos uma qualidade de entrada de 16 kHz ou superior.
- A qualidade da avaliação de pronúncia também é afetada pela distância do alto-falante do microfone. As gravações devem ser feitas com o alto-falante perto do microfone, e não através de uma conexão remota.
- A Avaliação de Pronúncia não suporta um cenário de avaliação linguística mista.
- A Avaliação de Pronúncia suporta uma gama mais ampla de idiomas.
- A Avaliação de Pronúncia não suporta um cenário de avaliação de vários oradores. O áudio deve incluir apenas um orador para cada avaliação.
- A Avaliação de Pronúncia compara o áudio enviado com falantes nativos em condições gerais. O orador deve manter uma velocidade e volume de fala normais e evitar gritar ou levantar a voz.
- A avaliação de pronúncia funciona melhor em um ambiente com pouco ruído de fundo. Os modelosTo-Text atuais de fala acomodam o ruído em condições gerais. Ambientes barulhentos ou várias pessoas falando ao mesmo tempo podem levar a uma menor confiança na avaliação. Para lidar melhor com casos difíceis, podes sugerir que a pessoa repita uma pronunciação se obtiver uma pontuação abaixo de um determinado limiar.
Avaliando a Avaliação de Pronúncia em suas aplicações
O desempenho da Avaliação de Pronúncia variará dependendo dos usos reais que os clientes implementarem. A fim de garantir o melhor desempenho em seus cenários, os clientes devem realizar suas próprias avaliações das soluções que implementam usando a Avaliação de Pronúncia.
- Antes de usar a Avaliação de Pronúncia em seus aplicativos, considere se esse produto tem um bom desempenho em seu cenário. Colete dados do mundo real a partir do cenário de destino, teste o desempenho da Avaliação da Pronúncia e certifique-se de que oTo-Text e a Avaliação da Pronúncia possam fornecer a precisão necessária, consulte Avaliar e melhorar a precisão da Fala Personalizada dos serviços de IA do Azure.
- Selecione limites adequados de acordo com o cenário de destino. A Avaliação de Pronúncia fornece pontuações de precisão em diferentes níveis e você pode precisar considerar o limite empregado no uso real. Por exemplo, o método de classificação para a aprendizagem das crianças pode não ser tão rigoroso como o da educação de adultos. Ponderar a definição de um limiar mais elevado de deteção de erros de pronúncia para a educação de adultos.