Evaluación de pronunciación en Speech Studio

La evaluación de pronunciación usa la funcionalidad Conversión de voz a texto para proporcionar comentarios subjetivos y objetivos para los estudiantes del idioma. Practicar la pronunciación y recibir comentarios oportunos es esencial para mejorar las aptitudes del lenguaje. Las evaluaciones realizadas por profesores experimentados pueden llevar mucho tiempo y esfuerzo, y hacen que una evaluación de alta calidad sea costosa para los alumnos. La evaluación de pronunciación puede permitir que la evaluación del idioma sea más atractiva y accesible para alumnos de todo tipo.

Nota:

Para obtener información sobre la disponibilidad de la evaluación de pronunciación, consulte idiomas admitidos y regiones disponibles.

En este artículo se describe cómo usar la herramienta de evaluación de pronunciación sin escribir ningún código a través de Speech Studio. Para obtener información sobre cómo integrar la evaluación de pronunciación en las aplicaciones de voz, consulte Uso de la evaluación de pronunciación.

Además de las puntuaciones de línea de base de precisión, fluidez e integridad, la característica de evaluación de pronunciación de Speech Studio incluye puntuaciones más completas para proporcionar comentarios detallados sobre diversos aspectos del rendimiento y la comprensión del discurso. Las puntuaciones mejoradas son las siguientes: Puntuación de la prosodia, Puntuación del vocabulario, Puntuación de la gramática y Puntuación del tema. Estas puntuaciones ofrecen información valiosa sobre la prosodia del discurso, el uso del vocabulario, la corrección gramatical y la comprensión de temas.

Screenshot of overall pronunciation score and overall content score on Speech Studio.

En la parte inferior del resultado de la evaluación, se muestran dos puntuaciones generales: Puntuación de la pronunciación y Puntuación del contenido. En la pestaña Lectura, se muestra la puntuación de la pronunciación. En la pestaña Habla, se muestran Puntuación de la pronunciación y Puntuación del contenido.

Puntuación de la pronunciación: esta puntuación representa una evaluación agregada de la calidad de la pronunciación e incluye cuatro aspectos secundarios. Estas puntuaciones están disponibles en las pestañas de lectura y habla para las evaluaciones con guion y sin guion.

  • Puntuación de la precisión: evalúa la exactitud de la pronunciación.
  • Puntuación de la fluidez: mide el nivel de suavizado y naturalidad en el habla.
  • Puntuación de la integridad: refleja el número de palabras pronunciadas correctamente.
  • Puntuación de la prosodia: evalúa el uso de la entonación, el ritmo y el estrés adecuados. Se presentan varios tipos de errores adicionales relacionados con la evaluación de la prosodia, como Interrupción inesperada, Interrupción ausente y Monotono. Estos tipos de error proporcionan información más detallada sobre los errores de pronunciación en comparación con el motor anterior.

Puntuación del contenido: esta puntuación proporciona una evaluación agregada del contenido del discurso e incluye tres aspectos secundarios. Esta puntuación solo está disponible en la pestaña Habla para una evaluación sin guion.

  • Puntuación del vocabulario: evalúa el uso eficaz que hace el hablante de las palabras y su adecuación al contexto dado para expresar ideas con precisión y el nivel de complejidad léxica.
  • Puntuación de la gramática: evalúa la exactitud del uso gramatical y la variedad de patrones de oraciones. Considera la precisión léxica, la precisión gramatical y la diversidad de estructuras de oraciones, lo que proporciona una evaluación más completa de la competencia lingüística.
  • Puntuación del tema: evalúa el nivel de comprensión y la interacción con el tema descrito en el discurso. Evalúa la capacidad del orador de expresar de forma eficaz pensamientos e ideas relacionados con el tema en cuestión.

Estas puntuaciones generales ofrecen una evaluación completa tanto de la pronunciación como del contenido, lo que proporciona a los alumnos comentarios valiosos sobre diversos aspectos de su rendimiento y comprensión del discurso. Con estas características mejoradas, los alumnos del lenguaje pueden obtener información más detallada sobre sus ventajas y áreas para mejorar tanto la pronunciación como la expresión de contenido.

Nota:

Las valoraciones de contenido y prosodia solo están disponibles en la configuración regional en-US.

Precios

Como línea de base, el uso de la valoración de pronunciación cuesta lo mismo que la conversión de voz en texto para los precios del nivel de compromiso o de pago por uso. Si compra un nivel de compromiso para la conversión de voz en texto, el gasto para la valoración de la pronunciación tiende a alcanzar el del compromiso.

La característica de evaluación de la pronunciación también ofrece otras puntuaciones que no se incluyen en el precio de línea de base de la conversión de voz en texto: prosodia, gramática, tema y vocabulario. Estas puntuaciones están disponibles como un cargo adicional sobre el precio de la conversión de voz en texto de línea de base. Para obtener información sobre los precios, consulte los precios de la conversión de voz en texto.

A continuación se muestra una tabla de puntuaciones de evaluación de pronunciación disponibles, tanto si está disponible en evaluaciones con guion como en evaluaciones sin guion y si se incluye en el precio de la conversión de voz en texto de línea de base o en el precio del complemento.

Score Con guion o sin guion ¿Se incluye en el precio de la conversión de voz en texto de línea de base?
Precisión Con guion y sin guion
Fluidez Con guion y sin guion
Integridad Incluido en script
Errores Con guion y sin guion
Prosodia Con guion y sin guion No
Grammar Solo sin guion No
Tema Solo sin guion No
Vocabulario Solo sin guion No

Pruebe la evaluación de pronunciación

Puede explorar y probar la evaluación de pronunciación incluso sin iniciar sesión.

Sugerencia

Para evaluar más de 5 segundos de discurso con su propio script, inicie sesión con una cuenta de Azure y use Recurso de Voz.

Granularidad de la evaluación de la pronunciación

La evaluación de pronunciación proporciona varios resultados de evaluación con detalles diferentes, desde fonemas individuales hasta toda la entrada de texto.

  • En el nivel de texto completo, la evaluación de pronunciación ofrece puntuaciones adicionales de fluidez, integridad y prosodia: la fluidez indica en qué medida el discurso coincide con el uso de pausas silenciosas entre palabras por parte de un hablante nativo; la integridad indica cuántas palabras se pronuncian en el discurso con la entrada de texto de referencia; la prosodia indica lo bien que un hablante transmite elementos de naturalidad, expresividad y prosodia general en su discurso. A continuación, se proporciona una puntuación global agregada a partir de la precisión, la fluidez, la integridad y la prosodia para indicar la calidad de pronunciación general de la voz dada. La evaluación de la pronunciación también ofrece puntuación del contenido (vocabulario, gramática y tema) en el ámbito de texto completo.
  • En el nivel de palabra, la evaluación de pronunciación puede detectar automáticamente errores y proporcionar una puntuación de precisión simultánea que proporciona información más detallada sobre la omisión, la repetición, las inserciones y la mala disponibilidad en el discurso que se ha dado.
  • Las puntuaciones de precisión de nivel de archivo de sílabas están disponibles actualmente a través del archivo JSON o el SDK de Speech.
  • En el nivel de fonema, la evaluación de pronunciación proporciona puntuaciones de precisión de cada fonema, lo que permite a las personas comprender mejor los detalles de pronunciación de su voz.

Escenarios de lectura y habla

Para la evaluación de la pronunciación, hay dos escenarios: lectura y habla.

  • Lectura: este escenario está diseñado para evaluación con guion. Requiere que el alumno lea un texto determinado. El texto de referencia se proporciona con antelación.
  • Habla: este escenario está diseñado para evaluación sin guion. Requiere que el alumno hable sobre un tema determinado. El texto de referencia no se proporciona con antelación.

Realización de una evaluación con guion

Siga estos pasos para evaluar la pronunciación del texto de referencia:

  1. Vaya a Evaluación de pronunciación en Speech Studio.

    Screenshot of how to go to Pronunciation Assessment on Speech Studio.

  2. En la pestaña Lectura, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Screenshot of choosing a supported language on reading tab that you want to evaluate the pronunciation.

  3. Puede usar ejemplos de texto aprovisionados o escribir su propio guion.

    Al leer el texto, debe estar cerca del micrófono para asegurarse de que la voz grabada no sea demasiado baja.

    Screenshot of where to record audio with a microphone on reading tab.

    De lo contrario, puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa automáticamente el audio, como se muestra en la captura de pantalla siguiente.

    Screenshot of uploading recorded audio to be assessed.

Realización de una evaluación sin guion

Si desea realizar una evaluación sin guion, seleccione la pestaña Habla. Esta característica le permite llevar a cabo una evaluación sin guion sin proporcionar texto de referencia con antelación. A continuación se explica cómo proceder:

  1. Vaya a Evaluación de pronunciación en Speech Studio.

  2. En la pestaña Habla, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Screenshot of choosing a supported language on speaking tab that you want to evaluate the pronunciation.

  3. A continuación, puede seleccionar entre los temas de ejemplo proporcionados o escribir un tema propio. Esta opción le permite evaluar su capacidad de hablar sobre un tema determinado sin guion predefinido.

    Screenshot of inputting a topic on speaking tab to assess your ability to speak on a given subject without a predefined script.

    Al grabar su voz para la evaluación de la pronunciación, es importante asegurarse de que el tiempo de grabación se encuentre dentro del intervalo recomendado de entre 15 segundos (equivalente a más de 50 palabras) y 10 minutos. Este intervalo de tiempo es óptimo para evaluar el contenido del discurso con precisión. Para recibir una puntuación del tema, el audio hablado debe contener al menos tres oraciones.

    También puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa de forma automática el audio.

Resultados de la evaluación de pronunciación

Una vez que haya grabado la voz o cargado el audio grabado, se genera el resultado de la evaluación. El resultado incluye el audio hablado y los comentarios sobre la evaluación del discurso. Puede escuchar el audio hablado y descargarlo si es necesario.

También puede comprobar el resultado de la evaluación de pronunciación en JSON. En el archivo JSON se incluyen las puntuaciones de precisión de nivel de palabra, de sílaba y de fonema.

Screenshot of showing the assessment result on the display window, which includes transcript and feedback on your speech.

La transcripción completa se muestra en la ventana Mostrar. La palabra se resalta según el tipo de error. Los tipos de errores de la evaluación de pronunciación se representan con colores diferentes. Esta distinción visual facilita la identificación y el análisis de errores específicos. Proporciona una visión general clara de los tipos de errores y sus frecuencias en el audio hablado, lo que le ayudará a centrarse en áreas que necesiten mejora. Puede activar o desactivar cada tipo de error para centrarse en tipos específicos de errores o excluir determinados tipos de la pantalla. Esta característica proporciona flexibilidad para revisar y analizar los errores en el audio hablado. Al mantener el puntero sobre cada palabra, puede ver las puntuaciones de precisión de toda la palabra o de fonemas específicos.

En la parte inferior del resultado de la evaluación, se muestran los resultados de la puntuación. Para la evaluación de la pronunciación con guion, solo se proporciona la puntuación de la pronunciación (incluida la puntuación de la precisión, la fluidez, la integridad y la prosodia). Para la evaluación de la pronunciación sin guion, se muestran la puntuación de la pronunciación (incluida la de precisión, fluidez y prosodia) y la puntuación del contenido (incluida la puntuación del vocabulario, la gramatical y la del tema).

Puntuaciones de evaluación en modo de streaming

La evaluación de pronunciación admite el modo de streaming ininterrumpido. La demostración de Speech Studio permite hasta 60 minutos de grabación en modo de streaming para su evaluación. Siempre que no pulse el botón de detener grabación, el proceso de evaluación no finaliza y puede pausar y reanudar la evaluación cómodamente.

La evaluación de la pronunciación evalúa varios aspectos de la pronunciación. En la parte inferior de Resultado de la evaluación, puede ver Puntuación de la pronunciación como puntuación general agregada, que incluye cuatro aspectos secundarios: Puntuación de la precisión, Puntuación de la fluidez, Puntuación de la integridad y Puntuación de la prosodia. En el modo de streaming, dado que la puntuación de la precisión, la puntuación de la fluidez y la puntuación de la prosodia varían con el tiempo durante el proceso de grabación, se muestra un enfoque en Speech Studio para mostrar la puntuación general aproximada de forma incremental antes del final de la evaluación, que solo se pondera con las puntuaciones de la precisión y la fluidez y la prosodia. La puntuación de la integridad solo se calcula al final de la evaluación después de presionar el botón de detención, por lo que la puntuación general final de la pronunciación se agrega a partir de la puntuación de la precisión, la puntuación de la fluidez, la puntuación de la integridad y la puntuación de la prosodiacon ponderación.

Consulte los ejemplos de demostración siguientes para ver todo el proceso de evaluación de la pronunciación en modo de streaming.

Iniciar grabación

Al iniciar la grabación, las puntuaciones de la parte inferior comienzan a alterarse desde 0.

Screenshot of overall assessment scores when starting to record.

Durante la grabación

Durante la grabación de un párrafo largo, puede pausar la grabación en cualquier momento. Puede seguir evaluando la grabación siempre y cuando no presione el botón detener.

Screenshot of overall assessment scores when recording.

Finalizar grabación

Después de presionar el botón de detención, puede ver las opciones Puntuación de la pronunciación, Puntuación de la precisión, Puntuación de la fluidez, Puntuación de integridad y Puntuación de la prosodia en la parte inferior.

Screenshot of overall assessment scores after recording.

Inteligencia artificial responsable

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se ven afectadas por ella, así como los entornos en los que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso y la implementación de la IA responsable en los sistemas.

Pasos siguientes