Compartir vía


Evaluación de pronunciación en IA Studio

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

La evaluación de pronunciación usa la funcionalidad conversión de voz a texto para proporcionar comentarios subjetivos y objetivos para los estudiantes del idioma. Practicar la pronunciación y recibir comentarios oportunos es esencial para mejorar las aptitudes del lenguaje. Las evaluaciones realizadas por profesores experimentados pueden llevar mucho tiempo y esfuerzo, y hacen que una evaluación de alta calidad sea costosa para los alumnos. La evaluación de pronunciación puede permitir que la evaluación del idioma sea más atractiva y accesible para alumnos de todo tipo.

Nota:

Para obtener información sobre la disponibilidad de la evaluación de pronunciación, consulte idiomas admitidos y regiones disponibles.

En este artículo se describe cómo usar la herramienta de evaluación de pronunciación sin escribir ningún código a través de IA Studio. Para obtener información sobre cómo integrar la evaluación de pronunciación en las aplicaciones de voz, consulte Uso de la evaluación de pronunciación.

Escenarios de lectura y habla

Para la evaluación de la pronunciación, hay dos escenarios: lectura y habla.

  • Lectura: este escenario está diseñado para evaluación con guion. Requiere que el alumno lea un texto determinado. El texto de referencia se proporciona con antelación.
  • Habla: este escenario está diseñado para evaluación sin guion. Requiere que el alumno hable sobre un tema determinado. El texto de referencia no se proporciona con antelación.

Realización de una evaluación con guion

Siga estos pasos para evaluar la pronunciación del texto de referencia:

  1. Vaya a Evaluación de pronunciación en IA Studio.

    Captura de pantalla de cómo ir a evaluación de pronunciación en IA Studio.

  2. En la pestaña Lectura, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Captura de pantalla de la elección de un idioma compatible en la pestaña de lectura cuya pronunciación desea evaluar.

  3. Puede usar ejemplos de texto aprovisionados o escribir su propio guion.

    Al leer el texto, debe estar cerca del micrófono para asegurarse de que la voz grabada no sea demasiado baja.

    Captura de pantalla de dónde grabar audio con un micrófono en la pestaña de lectura.

    De lo contrario, puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa automáticamente el audio, como se muestra en la captura de pantalla siguiente.

    Captura de pantalla de la carga de audio grabado que se va a evaluar.

Realización de una evaluación sin guion

Si desea realizar una evaluación sin guion, seleccione la pestaña Habla. Esta característica le permite llevar a cabo una evaluación sin guion sin proporcionar texto de referencia con antelación. A continuación se explica cómo proceder:

  1. Vaya a Evaluación de pronunciación en IA Studio.

  2. En la pestaña Habla, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Captura de pantalla de la elección de un idioma admitido en la pestaña de habla cuya pronunciación desea evaluar.

  3. A continuación, puede seleccionar entre los temas de ejemplo proporcionados o escribir un tema propio. Esta opción le permite evaluar su capacidad de hablar sobre un tema determinado sin guion predefinido.

    Captura de pantalla de la entrada de un tema en la pestaña de hablar para evaluar la capacidad de hablar sobre un tema determinado sin un script predefinido.

    Al grabar su voz para la evaluación de la pronunciación, es importante asegurarse de que el tiempo de grabación se encuentre dentro del intervalo recomendado de entre 15 segundos (equivalente a más de 50 palabras) y 10 minutos. Este intervalo de tiempo es óptimo para evaluar el contenido del discurso con precisión. Para recibir una puntuación del tema, el audio hablado debe contener al menos tres oraciones.

    También puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa de forma automática el audio.

Resultados de la evaluación de pronunciación

Una vez que haya grabado la voz o cargado el audio grabado, se genera el resultado de la evaluación. El resultado incluye el audio hablado y los comentarios sobre la evaluación del discurso. Puede escuchar el audio hablado y descargarlo si es necesario.

También puede comprobar el resultado de la evaluación de pronunciación en JSON. En el archivo JSON se incluyen las puntuaciones de precisión de nivel de palabra, de sílaba y de fonema.

Captura de pantalla de la visualización del resultado de la evaluación en la ventana de visualización, que incluye transcripción y comentarios sobre la voz.

La palabra se resalta según el tipo de error. Los tipos de errores de la evaluación de pronunciación se representan con colores diferentes. Esta distinción visual facilita la identificación y el análisis de errores específicos. Proporciona una visión general clara de los tipos de errores y sus frecuencias en el audio hablado, lo que le ayudará a centrarse en áreas que necesiten mejora. Puede activar o desactivar cada tipo de error para centrarse en tipos específicos de errores o excluir determinados tipos de la pantalla. Esta característica proporciona flexibilidad para revisar y analizar los errores en el audio hablado. Al mantener el puntero sobre cada palabra, puede ver las puntuaciones de precisión de toda la palabra o de fonemas específicos.

En la parte inferior del resultado de la evaluación, se muestran los resultados de la puntuación. Para la evaluación de la pronunciación con guion, solo se proporciona la puntuación de la pronunciación (incluida la puntuación de la precisión, la fluidez, la integridad y la prosodia). Para la evaluación de la pronunciación sin guion, se muestran la puntuación de la pronunciación (incluida la de precisión, fluidez y prosodia) y la puntuación del contenido (incluida la puntuación del vocabulario, la gramatical y la del tema).

Granularidad de la evaluación de la pronunciación

La evaluación de pronunciación proporciona varios resultados de evaluación con detalles diferentes, desde fonemas individuales hasta toda la entrada de texto.

  • En el nivel de texto completo, la evaluación de pronunciación ofrece puntuaciones adicionales de fluidez, integridad y prosodia: la fluidez indica en qué medida el discurso coincide con el uso de pausas silenciosas entre palabras por parte de un hablante nativo; la integridad indica cuántas palabras se pronuncian en el discurso con la entrada de texto de referencia; la prosodia indica lo bien que un hablante transmite elementos de naturalidad, expresividad y prosodia general en su discurso. A continuación, se proporciona una puntuación global agregada de Precisión, Fluencia, Integridad y Prosodia para indicar la calidad de pronunciación general de la voz dada. La evaluación de la pronunciación también ofrece puntuación del contenido (vocabulario, gramática y tema) en el ámbito de texto completo.
  • En el nivel de palabra, la evaluación de pronunciación puede detectar automáticamente errores y proporcionar una puntuación de precisión simultánea, lo que proporciona información más detallada sobre la omisión, la repetición, las inserciones y errores de pronunciación en el discurso dado.
  • Las puntuaciones de precisión de nivel de archivo de sílabas están disponibles actualmente a través del archivo JSON o el SDK de Speech.
  • En el nivel de fonema, la evaluación de pronunciación proporciona puntuaciones de precisión de cada fonema, lo que permite a las personas comprender mejor los detalles de pronunciación de su voz.

Además de las puntuaciones de línea base de precisión, fluidez e integridad, la característica de evaluación de pronunciación en IA Studio incluye puntuaciones más completas para proporcionar comentarios detallados sobre varios aspectos del rendimiento y la comprensión de voz. Las puntuaciones mejoradas son las siguientes: Puntuación de la prosodia, Puntuación del vocabulario, Puntuación de la gramática y Puntuación del tema. Estas puntuaciones ofrecen información valiosa sobre la prosodia del discurso, el uso del vocabulario, la corrección gramatical y la comprensión de temas.

Captura de pantalla de la puntuación de pronunciación general y puntuación de contenido general en IA Studio.

En la parte inferior del resultado de la evaluación, se muestran dos puntuaciones generales: Puntuación de la pronunciación y Puntuación del contenido. En la pestaña Lectura, se muestra la puntuación de la pronunciación. En la pestaña Habla, se muestran la Puntuación de la pronunciación y la Puntuación del contenido.

Puntuación de la pronunciación: esta puntuación representa una evaluación agregada de la calidad de la pronunciación e incluye cuatro aspectos secundarios. Estas puntuaciones están disponibles en las pestañas de lectura y habla para las evaluaciones con guion y sin guion.

  • Puntuación de la precisión: evalúa la exactitud de la pronunciación.
  • Puntuación de la fluidez: mide el nivel de suavizado y naturalidad en el habla.
  • Puntuación de la integridad: refleja el número de palabras pronunciadas correctamente.
  • Puntuación de la prosodia: evalúa el uso de la entonación, el ritmo y el estrés adecuados. Se presentan varios tipos de errores adicionales relacionados con la evaluación de la prosodia, como Interrupción inesperada, Interrupción ausente y Monotono. Estos tipos de error proporcionan información más detallada sobre los errores de pronunciación en comparación con el motor anterior.

Puntuación del contenido: esta puntuación proporciona una evaluación agregada del contenido del discurso e incluye tres aspectos secundarios. Esta puntuación solo está disponible en la pestaña Habla para una evaluación sin guion.

  • Puntuación del vocabulario: evalúa el uso eficaz que hace el hablante de las palabras y su adecuación al contexto dado para expresar ideas con precisión y el nivel de complejidad léxica.
  • Puntuación de la gramática: evalúa la exactitud del uso gramatical y la variedad de patrones de oraciones. Considera la precisión léxica, la precisión gramatical y la diversidad de estructuras de oraciones, lo que proporciona una evaluación más completa de la competencia lingüística.
  • Puntuación del tema: evalúa el nivel de comprensión y la interacción con el tema descrito en el discurso. Evalúa la capacidad del orador de expresar de forma eficaz pensamientos e ideas relacionados con el tema en cuestión.

Estas puntuaciones generales ofrecen una evaluación completa tanto de la pronunciación como del contenido, lo que proporciona a los alumnos comentarios valiosos sobre diversos aspectos de su rendimiento y comprensión del discurso. Con estas características mejoradas, los alumnos del lenguaje pueden obtener información más detallada sobre sus ventajas y áreas para mejorar tanto la pronunciación como la expresión de contenido.

Nota:

Las valoraciones de contenido y prosodia solo están disponibles en la configuración regional en-US.

Puntuaciones de evaluación en modo de streaming

La evaluación de la pronunciación admite el modo de streaming ininterrumpido. La demostración de IA Studio permite hasta 60 minutos de grabación en modo de streaming para su evaluación. Siempre que no pulse el botón de detener grabación, el proceso de evaluación no finaliza y puede pausar y reanudar la evaluación cómodamente.

La evaluación de la pronunciación evalúa varios aspectos de la pronunciación. En la parte inferior de Resultado de la evaluación, puede ver Puntuación de la pronunciación como puntuación general agregada, que incluye cuatro aspectos secundarios: Puntuación de la precisión, Puntuación de la fluidez, Puntuación de la integridad y Puntuación de la prosodia. En el modo de streaming, dado que la Puntuación de la precisión, la Puntuación de la fluidez y la Puntuación de la prosodia varían con el tiempo durante el proceso de grabación, se muestra un enfoque en IA Studio para mostrar la puntuación general aproximada de forma incremental antes del final de la evaluación, que solo se pondera con las puntuaciones de la precisión, la fluidez y la prosodia. La puntuación de la integridad solo se calcula al final de la evaluación después de presionar el botón de detención, por lo que la puntuación general final de la pronunciación se agrega a partir de la puntuación de la precisión, la puntuación de la fluidez, la puntuación de la integridad y la puntuación de la prosodiacon ponderación.

Consulte los ejemplos de demostración siguientes para ver todo el proceso de evaluación de la pronunciación en modo de streaming.

Iniciar grabación

Al iniciar la grabación, las puntuaciones de la parte inferior comienzan a alterarse desde 0.

Captura de pantalla de las puntuaciones generales de evaluación al empezar a grabar.

Durante la grabación

Durante la grabación de un párrafo largo, puede pausar la grabación en cualquier momento. Puede seguir evaluando la grabación siempre y cuando no presione el botón detener.

Captura de pantalla de las puntuaciones generales de evaluación durante la grabación.

Finalizar grabación

Después de presionar el botón de detención, puede ver las opciones Puntuación de la pronunciación, Puntuación de la precisión, Puntuación de la fluidez, Puntuación de integridad y Puntuación de la prosodia en la parte inferior.

Captura de pantalla de las puntuaciones generales de evaluación después de la grabación.

Precios

Como línea de base, el uso de la valoración de pronunciación cuesta lo mismo que la conversión de voz en texto para los precios del nivel de compromiso o de pago por uso. Si compra un nivel de compromiso para la conversión de voz en texto, el gasto para la valoración de la pronunciación tiende a alcanzar el del compromiso.

La característica de evaluación de la pronunciación también ofrece otras puntuaciones que no se incluyen en el precio de línea de base de la conversión de voz en texto: prosodia, gramática, tema y vocabulario. Estas puntuaciones están disponibles como un cargo adicional sobre el precio de la conversión de voz en texto de línea de base. Para obtener información sobre los precios, consulte los precios de la conversión de voz en texto.

A continuación se muestra una tabla de puntuaciones de evaluación de pronunciación disponibles, tanto si está disponible en evaluaciones con guion como en evaluaciones sin guion y si se incluye en el precio de la conversión de voz en texto de línea de base o en el precio del complemento.

Score Con guion o sin guion ¿Se incluye en el precio de la conversión de voz en texto de línea de base?
Precisión Con guion y sin guion
Fluidez Con guion y sin guion
Integridad Incluido en script
Errores Con guion y sin guion
Prosodia Con guion y sin guion No
Grammar Solo sin guion No
Tema Solo sin guion No
Vocabulario Solo sin guion No

Inteligencia artificial responsable

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se ven afectadas por ella, así como los entornos en los que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso y la implementación de la IA responsable en los sistemas.

Pasos siguientes