Avaliação de pronúncia no Speech Studio

A avaliação de pronúncia usa a funcionalidade de Conversão de Fala em Texto para fornecer comentários subjetivos e objetivos para os aprendizes de idiomas. Praticar a pronúncia e obter comentários oportunos é essencial para melhorar as habilidades de linguagem. As avaliações orientadas por professores experientes podem levar muito tempo e esforço, tornando uma avaliação de alta qualidade cara para os alunos. A avaliação de pronúncia pode ajudar a tornar a avaliação de idioma mais envolvente e acessível aos alunos de todas as origens.

Observação

Para obter informações sobre a disponibilidade da avaliação de pronúncia, consulte idiomas com suporte e regiões disponíveis.

Este artigo descreve como usar a ferramenta de avaliação de pronúncia sem escrever nenhum código por meio do Speech Studio. Para obter informações sobre como integrar a avaliação de pronúncia em seus aplicativos de fala, consulte Como usar a avaliação de pronúncia.

Além das pontuações de linha de base de precisão, fluência e integridade, o recurso de avaliação de pronúncia no Speech Studio inclui pontuações mais abrangentes para fornecer comentários detalhados sobre vários aspectos do desempenho e compreensão da fala. As pontuações aprimoradas são as seguintes: pontuação de prosódia, vocabulário, gramática e tópico. Essas pontuações oferecem insights valiosos sobre prosódia de fala, uso de vocabulário, exatidão gramatical e compreensão de tópicos.

Screenshot of overall pronunciation score and overall content score on Speech Studio.

Na parte inferior do resultado da Avaliação, duas pontuações gerais são exibidas: pontuação de pronúncia e pontuação de conteúdo. A pontuação de pronúncia é exibida na guia Leitura. Na guia Fala, a pontuação de pronúncia e a pontuação de conteúdo são exibidas.

Pontuação de pronúncia: essa pontuação representa uma avaliação agregada da qualidade da pronúncia e inclui quatro subfatores. Essas pontuações estão disponíveis nas guias de leitura e de fala para avaliações com script e sem script.

  • Pontuação de precisão: avalia a exatidão da pronúncia.
  • Pontuação de fluência: mede o nível de uniformidade e naturalidade na fala.
  • Pontuação de integridade: reflete o número de palavras pronunciadas corretamente.
  • Pontuação de prosódia: avalia o uso de entonação, ritmo e acento apropriados. Vários outros tipos de erro relacionados à avaliação de prosódia são introduzidos, como Interrupção inesperada, Interrupção ausente e Monotonalidade. Esses tipos de erro fornecem informações mais detalhadas sobre erros de pronúncia em comparação com o mecanismo anterior.

Pontuação de conteúdo: essa pontuação fornece uma avaliação agregada do conteúdo da fala e inclui três subfatores. Essa pontuação só está disponível na guia de fala para uma avaliação sem script.

  • Pontuação de vocabulário: avalia o uso efetivo de palavras do orador e sua adequação dentro do contexto fornecido para expressar ideias com precisão, bem como o nível de complexidade léxica.
  • Pontuação gramatical: avalia a exatidão do uso gramatical e a variedade de padrões de frase. Ela considera a precisão léxica, a precisão gramatical e a diversidade de estruturas de frases, fornecendo uma avaliação mais abrangente da proficiência da linguagem.
  • Pontuação do tópico: avalia o nível de compreensão e envolvimento com o tópico discutido na fala. Ela avalia a capacidade do orador de expressar efetivamente ideias e opiniões relacionadas ao tópico especificado.

Essas pontuações gerais oferecem uma avaliação abrangente da pronúncia e do conteúdo, fornecendo aos alunos comentários valiosos sobre vários aspectos do desempenho e compreensão de fala deles. Usando esses recursos aprimorados, os aprendizes de linguagem podem obter insights mais aprofundados sobre suas vantagens e áreas para aprimorar a pronúncia e a expressão de conteúdo.

Observação

As avaliações de conteúdo e prosódia só estão disponíveis na localidade en-US.

Preços

Como linha de base, o uso da avaliação de pronúncia custa o mesmo preço que o pagamento conforme o uso da conversão de fala em texto para o nível pago conforme o uso ou o nível de compromisso. Se você comprar um nível de compromisso para conversão de fala em texto, o gasto pela avaliação de pronúncia servirá para atender ao compromisso.

O recurso de avaliação de pronúncia também oferece outras pontuações que não estão incluídas no preço de linha de base de conversão de fala em texto: prosódia, gramática, tópico e vocabulário. Essas pontuações estão disponíveis como um encargo complementar somado ao preço de linha de base da conversão de fala em texto. Para obter mais informações sobre preços, confira preços da conversão de fala em texto.

Aqui está uma tabela de pontuações de avaliação de pronúncia disponíveis, se ela está disponível em avaliações com script ou sem script e se ela está incluída ou não no preço de linha de base da conversão de fala em texto ou no preço complementar.

Pontuação Com script ou sem script Incluído no preço de linha de base da conversão de fala em texto?
Precisão Com script e sem script Sim
Fluência Com script e sem script Sim
Integridade Com script Sim
Erro Com script e sem script Sim
Prosódia Com script e sem script Não
Gramática Somente sem script Não
Tópico Somente sem script Não
Vocabulário Somente sem script Não

Experimente a avaliação de pronúncia

Você pode explorar e experimentar a avaliação de pronúncia mesmo sem entrar.

Dica

Para avaliar mais de 5 segundos de fala com seu próprio script, entre com uma conta do Azure e use o Recurso de Fala.

Granularidade da avaliação de pronúncia

A avaliação de pronúncia fornece vários resultados de avaliação em granularidades diferentes, desde fonemas individuais até toda a entrada de texto.

  • No nível de texto completo, a avaliação de pronúncia oferece pontuações adicionais de Fluência, Integridade e Prosódia: a Fluência indica a proximidade com que a fala corresponde ao uso de quebras silenciosas entre palavras por um orador nativo, e a Integridade indica quantas palavras são pronunciadas na fala para a entrada de texto de referência; a Prosódia indica quão bem um narrador transmite elementos de naturalidade, expressividade e prosódia em geral em sua fala. Uma pontuação geral agregada de Precisão, Fluência, Integridade e Prosódia é fornecida para indicar a qualidade geral da pronúncia da fala fornecida. A avaliação de pronúncia também oferece pontuação de conteúdo (Vocabulário, Gramática e Tópico) no nível de texto completo.
  • No nível da palavra, a avaliação de pronúncia pode detectar erros automaticamente e fornecer pontuação de precisão simultaneamente, o que fornece informações mais detalhadas sobre omissão, repetição, inserções e erro de pronunciamento na fala fornecida.
  • No momento, as pontuações de precisão no nível de sílaba só estão disponíveis por meio do arquivo JSON ou SDK de Fala.
  • No nível do fonema, a avaliação de pronúncia fornece pontuações de precisão de cada fonema, ajudando os alunos a entender melhor os detalhes de pronúncia de sua fala.

Cenários de leitura e fala

Para avaliação de pronúncia, há dois cenários: Leitura e Fala.

  • Leitura: esse cenário foi projetado para avaliação com script. Ele requer que o aprendiz leia um determinado texto. O texto de referência é fornecido com antecedência.
  • Fala: esse cenário foi projetado para avaliação sem script. Ele requer que o aprendiz fale sobre um determinado texto. O texto de referência não é fornecido com antecedência.

Realizar uma avaliação com script

Siga estas etapas para avaliar a pronúncia do texto de referência:

  1. Acesse a Avaliação de Pronúncia no Speech Studio.

    Screenshot of how to go to Pronunciation Assessment on Speech Studio.

  2. Na guia Leitura, escolha um idioma com suporte no qual você deseja avaliar a pronúncia.

    Screenshot of choosing a supported language on reading tab that you want to evaluate the pronunciation.

  3. Você pode usar exemplos de texto provisionados ou inserir seu script.

    Ao ler o texto, você deve estar perto do microfone para garantir que a voz gravada não esteja muito baixa.

    Screenshot of where to record audio with a microphone on reading tab.

    Caso contrário, você poderá carregar áudio gravado para avaliação de pronúncia. Depois de carregado com êxito, o áudio é avaliado automaticamente pelo sistema, conforme mostrado na captura de tela a seguir.

    Screenshot of uploading recorded audio to be assessed.

Realizar uma avaliação sem script

Se você quiser realizar uma avaliação sem script, selecione a guia Fala. Esse recurso permite que você realize uma avaliação sem script sem fornecer texto de referência com antecedência. Veja como proceder:

  1. Acesse a Avaliação de Pronúncia no Speech Studio.

  2. Na guia Fala, escolha um idioma com suporte no qual você deseja avaliar a pronúncia.

    Screenshot of choosing a supported language on speaking tab that you want to evaluate the pronunciation.

  3. Em seguida, você pode selecionar entre os tópicos de exemplo fornecidos ou inserir seu tópico. Essa escolha permite que você avalie sua capacidade de falar sobre um determinado assunto sem um script predefinido.

    Screenshot of inputting a topic on speaking tab to assess your ability to speak on a given subject without a predefined script.

    Ao gravar sua fala para avaliação de pronúncia, é importante garantir que o tempo de gravação fique dentro do intervalo recomendado de 15 segundos (equivalente a mais de 50 palavras) a dez minutos. Esse intervalo de tempo é ideal para avaliar o conteúdo da fala com precisão. Para receber uma pontuação de tópico, o áudio falado deve conter pelo menos três frases.

    Você também poderá carregar áudio gravado para avaliação de pronúncia. Depois de carregado com êxito, o áudio é avaliado automaticamente pelo sistema.

Resultados da avaliação de pronúncia

Depois de gravar sua fala ou carregar o áudio gravado, o Resultado da avaliação é a saída. O resultado inclui o áudio falado e os comentários sobre sua avaliação de fala. Você pode ouvir o áudio falado e baixá-lo, se necessário.

Você também pode verificar o resultado da avaliação de pronúncia no JSON. As pontuações de precisão de nível de palavra, nível de sílaba e nível de fonema são incluídas no arquivo JSON.

Screenshot of showing the assessment result on the display window, which includes transcript and feedback on your speech.

A transcrição completa é mostrada na janela Exibir. A palavra é realçada de acordo com o tipo de erro. Os tipos de erro na avaliação de pronúncia são representados usando cores diferentes. Essa distinção visual facilita a identificação e a análise de erros específicos. Ele fornece uma visão geral dos tipos e frequências de erros no áudio falado, ajudando você a concentrar-se nas áreas que precisam de melhorias. Você pode ativar/desativar cada tipo de erro para se concentrar em tipos específicos de erros ou excluir determinados tipos da exibição. Esse recurso fornece flexibilidade na forma como você analisa e analisa os erros em seu áudio falado. Ao passar o mouse sobre cada palavra, você pode ver pontuações de precisão para a palavra inteira ou fonemas específicos.

Na parte inferior do Resultado da avaliação, os resultados da pontuação são exibidos. Para avaliação de pronúncia com script, somente a pontuação de pronúncia (incluindo pontuação de precisão, fluência, integridade e prosódia) é fornecida. Para avaliação de pronúncia sem script, a pontuação de pronúncia (incluindo pontuação de precisão, fluência e prosódia) e a pontuação de conteúdo (incluindo pontuação de vocabulário, gramática e tópico) são exibidas.

Pontuações de avaliação no modo de streaming

A Avaliação de Pronúncia é compatível com o modo de streaming ininterrupto. A demonstração do Speech Studio permite até 60 minutos de gravação no modo de streaming para avaliação. Desde que você não pressione o botão parar gravação, o processo de avaliação não é concluído e você pode pausar e retomar a avaliação quando for conveniente.

A avaliação de pronúncia avalia vários aspectos da pronúncia. Na parte inferior do Resultado da avaliação, você pode ver a Pontuação de pronúncia como pontuação geral agregada, que inclui quatro sub-aspectos: Pontuação de precisão, Pontuação de fluência, Pontuação de integridade e Pontuação de prosódia. No modo de streaming, como a Pontuação de precisão, a Pontuação de fluência e a Pontuação de prosódia variam ao longo do tempo durante todo o processo de gravação, demonstramos uma abordagem no Speech Studio para exibir a pontuação geral aproximada gradualmente antes do final da avaliação, que levou em conta somente os pesos da Pontuação de precisão, Pontuação de fluência e Pontuação de prosódia. A Pontuação de Integridade só é calculada no final da avaliação depois que você pressiona o botão parar, portanto, a pontuação geral final de pronúncia é a agregação ponderada da Pontuação de precisão, da Pontuação de fluência, da Pontuação de integridade e da Pontuação de prosódia.

Veja os exemplos de demonstração abaixo para todo o processo de avaliação da pronúncia no modo de streaming.

Iniciar gravação

Ao iniciar a gravação, as pontuações na parte inferior começam a ser alteradas a partir de 0.

Screenshot of overall assessment scores when starting to record.

Durante a gravação

Durante a gravação de um parágrafo longo, você pode pausar a gravação a qualquer momento. Você pode continuar avaliando sua gravação, desde que não pressione o botão parar.

Screenshot of overall assessment scores when recording.

Concluir gravação

Depois de pressionar o botão parar, você pode ver a Pontuação de pronúncia, a Pontuação de precisão, a Pontuação de fluência, a Pontuação de integridade e a Pontuação de prosódia na parte inferior.

Screenshot of overall assessment scores after recording.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que irão usá-la, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.

Próximas etapas