Compartilhar via


Observação de transparência

Importante

Traduções não em inglês são fornecidas apenas para conveniência. Consulte a versão EN-US deste documento para obter a versão de associação.

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usarão, que serão afetadas por ele e o ambiente em que ele é implantado. Criar um sistema adequado para sua finalidade pretendida requer uma compreensão de como a tecnologia funciona, suas funcionalidades e limitações e como obter o melhor desempenho.

A Microsoft fornece Notas de Transparência para ajudar você a entender como a nossa tecnologia de IA funciona. Essa tecnologia inclui as escolhas que os proprietários do sistema podem fazer para influenciar o desempenho e o comportamento do sistema e a importância de pensar em todo o sistema, incluindo a tecnologia, as pessoas e o ambiente. Você pode usar Notas de Transparência ao desenvolver ou implantar seu sistema ou compartilhá-las com as pessoas que usarão ou serão afetadas pelo seu sistema.

As Notas de Transparência fazem parte de um esforço mais amplo da Microsoft para colocar em prática nossos princípios de IA. Para saber mais, confira os princípios de IA da Microsoft.

Introdução à Avaliação de Pronúncia

A API de Avaliação de Pronúncia usa entradas de áudio para avaliar a pronúncia de fala e fornece comentários aos palestrantes sobre precisão, fluência e integridade do áudio falado. O recurso avaliação de pronúncia também inclui comentários mais abrangentes sobre vários aspectos da prosódia de fala, uso de vocabulário, correção gramatical e compreensão de tópicos, fornecendo uma avaliação detalhada de suas habilidades de linguagem. Há suporte para avaliações roteirizadas e não roteirizadas, facilitando a avaliação da sua pronúncia e da proficiência no idioma. A Avaliação de Pronúncia dá suporte a uma ampla variedade de idiomas.

Com a Avaliação de Pronúncia, os aprendizes de idioma podem praticar, obter comentários instantâneos e melhorar sua pronúncia para que possam falar e apresentar confiança. Os educadores podem usar a Avaliação de Pronúncia para avaliar a pronúncia de vários palestrantes em tempo real.

Os conceitos básicos da Avaliação de Pronúncia

A API de Avaliação de Pronúncia oferece resultados de avaliação de fala usando uma abordagem baseada em machine learning que se alinha de perto com avaliações de fala realizadas por especialistas nativos. Ele fornece comentários valiosos sobre pronúncia, fluência, prosódia, uso de vocabulário, correção gramatical e compreensão de tópicos, ajudando você a aprimorar suas habilidades de linguagem e se comunicar com confiança em um novo idioma. O modelo de Avaliação de Pronúncia foi treinado com mais de 100.000 horas de dados de fala de falantes nativos. Ele pode fornecer resultados precisos quando as pessoas perdem, repetem ou adicionam frases em comparação com o texto de referência. Ele também permite que parâmetros avançados de configuração ofereçam suporte à flexibilidade no uso da API, como definir Granularidade para alterar a granularidade das informações na avaliação. (Para obter mais informações, consulte mais no código de exemplo.)

A Avaliação de Pronúncia avalia vários aspectos da pronúncia e do conteúdo: precisão, fluência, integridade, prosódia, uso do vocabulário, correção gramatical e compreensão de tópicos. Ele também fornece avaliações em vários níveis de granularidade e retorna pontuações de precisão para phonemes específicos, sílabas, palavras, frases ou até mesmo artigos inteiros. Para obter mais informações, confira como usar os recursos do SDK de Fala para Avaliação de Pronúncia.

A tabela a seguir descreve os principais resultados. Para obter mais informações, consulte os parâmetros de resposta completos. Usando técnicas de NLP (processamento de linguagem natural) e as configurações de EnableMiscue , a Avaliação de Pronúncia pode detectar erros como palavras extras, ausentes ou repetidas quando comparadas ao texto de referência. Essas informações ajudam a obter uma pontuação mais precisa a ser usada como informações de diagnóstico. Essa funcionalidade é útil para parágrafos mais longos de texto.

Parâmetro Descrição
AccuracyScore Precisão da pronúncia da fala. A precisão indica o quanto os fonemas correspondem à pronúncia de um locutor nativo. As pontuações de precisão de sílaba, palavra e texto completo são agregadas a partir da pontuação de precisão em nível de fonema e refinadas com os objetivos de avaliação.
FluencyScore Fluência da fala fornecida. A fluência indica o quanto a fala corresponde ao uso que um locutor nativo faria de pausas silenciosas entre as palavras.
CompletenessScore Integridade da fala, calculada pela proporção entre as palavras pronunciadas e o texto de referência de entrada.
ProsodyScore Prosódia do discurso dado. Prosódia indica o quão natural é a fala fornecida, incluindo acento tônico, entonação, velocidade de fala e ritmo.
PronScore Pontuação geral que indica a qualidade da pronúncia da fala fornecida. Isso é agregado a partir de AccuracyScore, FluencyScore e CompletenessScore com peso.
ErrorType Esse valor indica se uma palavra é omitida, inserida, mal pronunciada, inserida incorretamente com uma pausa, se falta uma pausa na pontuação ou se o enunciado está subindo monotonicamente, caindo ou permanecendo plano, em comparação com o texto de referência. Os valores possíveis são None (ou seja, nenhum erro nesta palavra), Omission, , Insertion, Mispronunciation, UnexpectedBreak, e MissingBreakMonotone.

Outro conjunto de parâmetros retornados pela Avaliação de Pronúncia é Deslocamento e Duração (referidos juntos como "carimbo de data/hora"). O carimbo de data/hora da fala é retornado no formato JSON estruturado. A Avaliação de Pronúncia pode calcular erros de pronúncia em cada phoneme. A Avaliação de Pronúncia também pode sinalizar os erros para carimbos de data/hora específicos no áudio de entrada. Os clientes que desenvolvem aplicativos podem usar o sinal para oferecer um roteiro de aprendizagem para ajudar os alunos a se concentrarem no erro de várias maneiras. Por exemplo, o aplicativo pode realçar a fala original, responder ao áudio para compará-la com pronúncia padrão ou recomendar palavras semelhantes para praticar.

Parâmetro Descrição
Offset A hora (em unidades de 100 nanossegundos) em que a fala reconhecida começa no fluxo de áudio.
Duração A duração (em unidades de 100 nanossegundos) da fala reconhecida no fluxo de áudio.

Exemplos de casos de uso

A Avaliação de Pronúncia pode ser usada para aprendizado remoto, prática de exame ou outros cenários que exigem comentários de pronúncia. Os exemplos a seguir são casos de uso implantados ou que projetamos para clientes que usam a Avaliação de pronúncia:

  • Provedor de serviços educacionais: os provedores podem criar aplicativos com o uso da Avaliação de Pronúncia para ajudar os alunos a praticar o aprendizado de idioma remotamente com comentários em tempo real. Esse caso de uso é típico quando um aplicativo precisa dar suporte a comentários em tempo real. Damos suporte ao upload de streaming em arquivos de áudio para comentários imediatos.
  • Educação em um jogo: os desenvolvedores de aplicativos, por exemplo, podem criar um aplicativo de aprendizado de idioma combinando lições abrangentes em jogos com tecnologia de fala de última geração para ajudar as crianças a aprender inglês. O programa pode abranger uma ampla gama de habilidades em inglês, como falar, ler e ouvir, e também treinar crianças em gramática e vocabulário, com a Avaliação de Pronúncia usada para apoiar as crianças à medida que aprendem a falar inglês. Esses vários formatos de aprendizado garantem que as crianças aprendam inglês com facilidade com base em um estilo de aprendizagem divertido.
  • Educação em um aplicativo de comunicação: o Progresso de Leitura do Microsoft Teams auxilia o professor na avaliação da atividade de fala de um aluno com assistência de detecção automática para omissão, inserção e pronúncia incorreta. Também permite que os alunos pratiquem a pronúncia de forma mais conveniente antes de enviarem a lição de casa. O Progresso do Orador do Microsoft Teams como CAB de Acelerador de Aprendizado também pode ajudar a dar suporte aos alunos no desenvolvimento de habilidades de apresentação e de falar em público.

Considerações ao escolher outros casos de uso

A aprendizagem online cresceu rapidamente à medida que escolas e organizações se adaptam a novas formas de conexão e métodos de educação. A tecnologia de fala pode desempenhar um papel significativo em tornar o aprendizado a distância mais envolvente e acessível para alunos de todas as origens. Com os serviços de IA do Azure, os desenvolvedores podem adicionar rapidamente recursos de fala a aplicativos, proporcionando vida ao aprendizado online.

Um elemento-chave no aprendizado de linguagem é melhorar as habilidades de pronúncia. Para os novos aprendizes de idioma, praticar a pronúncia e obter comentários oportunos é essencial para se tornar um locutor mais fluente. Para o provedor de soluções que busca dar suporte a alunos ou alunos no aprendizado de idiomas, a capacidade de praticar a qualquer momento, em qualquer lugar usando a Avaliação de Pronúncia, seria uma boa opção para esse cenário. Ele também pode ser integrado como assistente virtual para professores e ajudar a melhorar sua eficiência.

As seguintes recomendações referem-se a casos de uso em que a Avaliação de Pronúncia deve ser usada com cuidado:

  • Incluir participação humana em todos os cenários de exame formal: o sistema de Avaliação de Pronúncia é da plataforma de IA e fatores externos, como qualidade de voz e ruído em segundo plano, podem afetar a exatidão. A participação humana em exames formais garante que os resultados da avaliação sejam os esperados.
  • Considere usar limites diferentes por cenário: atualmente, a pontuação de Avaliação de Pronúncia representa apenas a distância de similaridade com os alto-falantes nativos usados para treinar o modelo. Essa distância de similaridade pode ser mapeada para cenários diferentes com condições baseadas em regras ou contagem ponderada para ajudar a fornecer comentários de pronúncia. Por exemplo, o método de classificação para o aprendizado das crianças pode não ser tão estrito quanto para o aprendizado de adultos. Considere definir um limite de detecção de erros de pronúncia mais alto para o aprendizado de adultos.
  • Considere a capacidade de considerar erros: quando o cenário envolve a leitura de parágrafos longos, os usuários provavelmente acharão difícil seguir o texto de referência sem cometer erros. Esses erros, incluindo omissão, inserção e repetição, são contados como erros. Com EnableMiscue habilitado, as palavras pronunciadas serão comparadas ao texto de referência e serão marcadas com Omissão, Inserção, Repetição com base na comparação.

Considerações legais e regulatórias: as organizações precisam avaliar possíveis obrigações legais e regulatórias específicas ao usar quaisquer serviços e soluções de IA, o que pode não ser apropriado para uso em todos os setores ou cenários. Além disso, os serviços ou soluções de IA não foram projetados para e não podem ser usados de formas proibidas nos termos de serviço aplicáveis e nos códigos de conduta relevantes.