Compartir a través de


Evaluación de pronunciación en el portal de Azure AI Foundry

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no se admitan o que tengan funcionalidades restringidas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

La evaluación de pronunciación usa la capacidad de voz a texto para proporcionar comentarios subjetivas y objetivos para los alumnos de idiomas. Practicar la pronunciación y recibir comentarios oportunos es esencial para mejorar las aptitudes del lenguaje. Las evaluaciones realizadas por profesores experimentados pueden llevar mucho tiempo y esfuerzo, y hacen que una evaluación de alta calidad sea costosa para los alumnos. La evaluación de pronunciación puede permitir que la evaluación del idioma sea más atractiva y accesible para alumnos de todo tipo.

Nota

Para obtener información sobre la disponibilidad de la evaluación de pronunciación, consulte idiomas admitidos y regiones disponibles.

En este artículo se describe cómo usar la herramienta de evaluación de pronunciación sin escribir ningún código mediante el Portal de la Fundición de IA de Azure. Para obtener información sobre cómo integrar la evaluación de pronunciación en las aplicaciones de voz, consulte Uso de la evaluación de pronunciación.

Escenarios de lectura, habla y juegos

Para la evaluación de la pronunciación, hay tres escenarios: Lectura, Habla y Juegos.

  • Lectura: Este escenario está diseñado para evaluación con guion. Requiere que el alumno lea un texto determinado. El texto de referencia se proporciona con antelación.
  • Habla: este escenario está diseñado para evaluación sin guion. Requiere que el alumno hable sobre un tema determinado. El texto de referencia no se proporciona con antelación.
  • Juegos: este escenario está diseñado para la evaluación con scripts. Se requiere que los estudiantes lean un trabalenguas para recibir puntos por la pronunciación y por cada sílaba. El texto de referencia se proporciona con antelación.

Realización de una evaluación de lectura

Siga estos pasos para evaluar la pronunciación del texto de referencia:

  1. Vaya a Evaluación de pronunciación en el Portal de la Fundición de IA de Azure.

    Recorte de pantalla de cómo ir a Evaluación de pronunciación en Fundición de IA de Azure.

  2. En la pestaña Lectura, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Recorte de pantalla de la elección de un idioma compatible en la pestaña de lectura cuya pronunciación desea evaluar.

  3. Puede usar ejemplos de texto aprovisionados o escribir su propio guion.

    Al leer el texto, debe estar cerca del micrófono para asegurarse de que la voz grabada no sea demasiado baja.

    Recorte de pantalla de dónde grabar audio con un micrófono en la pestaña de lectura.

    De lo contrario, puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa automáticamente el audio, como se muestra en la captura de pantalla siguiente.

    Recorte de pantalla de la carga del audio grabado que se va a evaluar.

Realización de una evaluación de habla

Si desea realizar una evaluación sin asignar, seleccione la pestaña Habla. Esta característica le permite realizar evaluaciones sin asignar texto de referencia de antemano. Aquí se muestra cómo continuar:

  1. Vaya a Evaluación de pronunciación en el Portal de la Fundición de IA de Azure.

  2. En la pestaña Hablar, elija un idioma admitido para el que quiera evaluar la pronunciación.

    Recorte de pantalla de la elección de un idioma admitido en la pestaña de habla cuya pronunciación desea evaluar.

  3. A continuación, puede seleccionar entre los temas de ejemplo proporcionados o escribir un tema propio. Esta opción le permite evaluar su capacidad de hablar sobre un tema determinado sin guion predefinido.

    Recorte de pantalla de la entrada de un tema en la pestaña de hablar para evaluar la capacidad de hablar sobre un tema determinado sin un script predefinido.

    Al grabar su voz para la evaluación de la pronunciación, es importante asegurarse de que el tiempo de grabación se encuentre dentro del intervalo recomendado de entre 15 segundos (equivalente a más de 50 palabras) y 10 minutos. Este intervalo de tiempo es óptimo para evaluar el contenido del discurso con precisión. Para recibir una puntuación del tema, el audio hablado debe contener al menos tres oraciones.

    También puede cargar un audio grabado para la evaluación de pronunciación. Una vez que se carga correctamente, el sistema evalúa de forma automática el audio.

Realización de una evaluación de juegos

Si quieres practicar el aprendizaje de idiomas a través de un juego, sigue estos pasos:

  1. Vaya a Evaluación de pronunciación en el Portal de la Fundición de IA de Azure.

  2. En la pestaña Juegos, elija un idiomacompatible que quiera evaluar la pronunciación y generar un nuevo trabalenguas que quiera practicar.

    Captura de pantalla de la elección de un idioma compatible en la pestaña de juegos y generación de un nuevo trabalenguas cuya pronunciación desea evaluar.

  3. Por último, puede empezar a grabar y practicar el trabalenguas para obtener los puntos.

    Captura de pantalla que muestra los resultados del juego en la ventana de visualización, incluyendo las puntuaciones de pronunciación, palabras y sílabas.

Resultados de la evaluación de pronunciación

Una vez que haya grabado la voz o cargado el audio grabado, se genera el Resultado de la evaluación. El resultado incluye el audio hablado y los comentarios sobre la evaluación del discurso. Puede escuchar el audio hablado y descargarlo si es necesario.

También puede comprobar el resultado de la evaluación de pronunciación en JSON. En el archivo JSON se incluyen las puntuaciones de precisión de nivel de palabra, de sílaba y de fonema.

Recorte de pantalla de la visualización del resultado de la evaluación en la ventana de visualización, que incluye transcripción y comentarios sobre la voz.

La palabra se resalta según el tipo de error. Los tipos de error de la evaluación de pronunciación se representan mediante colores diferentes. Esta distinción visual facilita la identificación y el análisis de errores específicos. Proporciona una visión general clara de los tipos de errores y sus frecuencias en el audio hablado, lo que le ayudará a centrarse en áreas que necesiten mejora. Puede activar o desactivar cada tipo de error para centrarse en tipos específicos de errores o excluir determinados tipos de la pantalla. Esta característica proporciona flexibilidad para revisar y analizar los errores en el audio hablado. Al mantener el puntero sobre cada palabra, puede ver las puntuaciones de precisión de toda la palabra o de fonemas específicos.

En la parte inferior del resultado de la evaluación, se muestran los resultados de la puntuación. Para la evaluación de la pronunciación con guion, solo se proporciona la puntuación de la pronunciación (incluida la puntuación de la precisión, la fluidez, la integridad y la prosodia). Para la evaluación de la pronunciación sin guion, se muestran la puntuación de la pronunciación (incluida la de precisión, fluidez y prosodia) y la puntuación del contenido (incluida la puntuación del vocabulario, la gramatical y la del tema).

Granularidad de la evaluación de pronunciación

La evaluación de pronunciación proporciona varios resultados de evaluación con detalles diferentes, desde fonemas individuales hasta toda la entrada de texto.

  • En el nivel de texto completo, la evaluación de la pronunciación ofrece puntuaciones adicionales de Fluidez, Integridad y Prosodia: Fluidez indica qué tan bien el habla se asemeja al uso que un hablante nativo hace de pausas silenciosas entre palabras; Integridad indica cuántas palabras se pronuncian correctamente en el habla en comparación con el texto de referencia; Prosodia indica cómo un hablante transmite elementos de naturalidad, expresividad y prosodia general en su habla. A continuación, se proporciona una puntuación global agregada de Precisión, Fluencia, Integridad y Prosodia para indicar la calidad de pronunciación general de la voz dada. La evaluación de la pronunciación también ofrece puntuación del contenido (vocabulario, gramática y tema) en el ámbito de texto completo.
  • En el nivel de palabra, la evaluación de pronunciación puede detectar automáticamente errores y proporcionar una puntuación de precisión simultánea, lo que proporciona información más detallada sobre la omisión, la repetición, las inserciones y errores de pronunciación en el discurso dado.
  • Las puntuaciones de precisión de nivel de archivo de sílabas están disponibles actualmente a través del archivo JSON o el SDK de Voz.
  • En el nivel de fonema, la evaluación de pronunciación proporciona puntuaciones de precisión de cada fonema, lo que permite a las personas comprender mejor los detalles de pronunciación de su voz.

Además de las puntuaciones de línea base de precisión, fluidez e integridad, la característica de evaluación de pronunciación de Fundición de IA de Azure incluye puntuaciones más completas para proporcionar comentarios detallados sobre diversos aspectos del rendimiento y la comprensión de voz. Las puntuaciones mejoradas son las siguientes: Puntuación de la prosodia, Puntuación del vocabulario, Puntuación de la gramática y Puntuación del tema. Estas puntuaciones ofrecen información valiosa sobre la prosodia del discurso, el uso del vocabulario, la corrección gramatical y la comprensión de temas.

Recorte de pantalla de la puntuación general de pronunciación y la puntuación general de contenido en Fundición de IA de Azure.

En la parte inferior del resultado de la evaluación, se muestran dos puntuaciones generales: Puntuación de la pronunciación y Puntuación del contenido. En la pestaña Lectura, se muestra la puntuación de la pronunciación. En la pestaña Hablar, se muestran la Puntuación de la pronunciación y la Puntuación del contenido.

Puntuación de la pronunciación: Esta puntuación representa una evaluación agregada de la calidad de la pronunciación e incluye cuatro aspectos secundarios. Estas puntuaciones están disponibles en las pestañas de lectura y habla para las evaluaciones con scripts y sin escritura.

  • Puntuación de la precisión: Evalúa la exactitud de la pronunciación.
  • Puntuación de la fluidez: Mide el nivel de suavizado y naturalidad en el habla.
  • Puntuación de la integridad: Refleja el número de palabras pronunciadas correctamente.
  • Puntuación de la prosodia: Evalúa el uso de la entonación, el ritmo y el estrés adecuados. Se presentan varios tipos de errores adicionales relacionados con la evaluación de la prosodia, como Interrupción inesperada, Interrupción ausente y Monotono. Estos tipos de error proporcionan información más detallada sobre los errores de pronunciación en comparación con el motor anterior.

Puntuación del contenido: Esta puntuación proporciona una evaluación agregada del contenido del discurso e incluye tres aspectos secundarios. Esta puntuación solo está disponible en la pestaña Habla para una evaluación sin guion.

  • Puntuación del vocabulario: Evalúa el uso eficaz que hace el hablante de las palabras y su adecuación al contexto dado para expresar ideas con precisión y el nivel de complejidad léxica.
  • Puntuación de la gramática: Evalúa la exactitud del uso gramatical y la variedad de patrones de oraciones. Considera la precisión léxica, la precisión gramatical y la diversidad de estructuras de oraciones, lo que proporciona una evaluación más completa de la competencia lingüística.
  • Puntuación del tema: evalúa el nivel de comprensión y la interacción con el tema descrito en el discurso. Evalúa la capacidad del orador de expresar de forma eficaz pensamientos e ideas relacionados con el tema en cuestión.

Estas puntuaciones generales ofrecen una evaluación completa tanto de la pronunciación como del contenido, lo que proporciona a los alumnos comentarios valiosos sobre diversos aspectos de su rendimiento y comprensión del discurso. Con estas características mejoradas, los alumnos del lenguaje pueden obtener información más detallada sobre sus ventajas y áreas para mejorar tanto la pronunciación como la expresión de contenido.

Nota

Las valoraciones de contenido y prosodia solo están disponibles en la configuración regional en-US.

Puntuaciones de evaluación en modo de streaming

La evaluación de la pronunciación admite el modo de streaming ininterrumpido. La demostración de Fundición de IA de Azure permite hasta 60 minutos de grabación en modo de streaming para su evaluación. Siempre que no pulse el botón de detener grabación, el proceso de evaluación no finaliza y puede pausar y reanudar la evaluación cómodamente.

La evaluación de la pronunciación evalúa varios aspectos de la pronunciación. En la parte inferior de Resultado de la evaluación, puede ver Puntuación de la pronunciación como puntuación general agregada, que incluye 4 aspectos secundarios: Puntuación de la precisión, Puntuación de la fluidez, Puntuación de la integridad y Puntuación de la prosodia. En el modo de streaming, dado que la Puntuación de precisión, Puntuación de fluidez y Puntuación de prosodia variarán con el tiempo durante todo el proceso de grabación, describimos un enfoque en Fundición de IA de Azure para mostrar la puntuación general aproximada de forma incremental antes del final de la evaluación, que solo se pondera con puntuación de precisión, puntuación de fluidez y puntuación de prosodia. La Puntuación de la integridad solo se calcula al final de la evaluación después de presionar el botón de detención, por lo que la puntuación general final de la pronunciación se agrega a partir de la Puntuación de la precisión, la Puntuación de la fluidez, la Puntuación de la integridad y la Puntuación de la prosodia con ponderación.

Consulte los ejemplos de demostración siguientes para ver todo el proceso de evaluación de la pronunciación en modo de streaming.

Iniciar grabación

Al iniciar la grabación, las puntuaciones de la parte inferior comienzan a alterarse desde 0.

Recorte de pantalla de las puntuaciones generales de la evaluación al empezar a grabar.

Durante la grabación

Durante la grabación de un párrafo largo, puede pausar la grabación en cualquier momento. Puede seguir evaluando la grabación siempre y cuando no presione el botón detener.

Recorte de pantalla de las puntuaciones generales de evaluación al grabar.

Finalizar grabación

Después de presionar el botón de detención, puede ver las opciones Puntuación de la pronunciación, Puntuación de la precisión, Puntuación de la fluidez, Puntuación de integridad y Puntuación de la prosodia en la parte inferior.

Recorte de pantalla de las puntuaciones generales de la evaluación después de la grabación.

Precios

Como línea de base, el uso de la evaluación de pronunciación cuesta lo mismo que la voz en texto para el nivel Estándar o de compromiso de precios. Si compra un nivel de compromiso para la conversión de voz en texto, el gasto para la valoración de la pronunciación tiende a alcanzar el del compromiso.

La característica de evaluación de la pronunciación también ofrece otras puntuaciones que no se incluyen en el precio de línea de base de la conversión de voz en texto: prosodia, gramática, tema y vocabulario. Estas puntuaciones están disponibles como un cargo adicional sobre el precio de la conversión de voz en texto de línea de base. Para obtener información sobre los precios, consulte los precios de la conversión de voz en texto.

A continuación se muestra una tabla de puntuaciones de evaluación de pronunciación disponibles, tanto si está disponible en evaluaciones con guion como en evaluaciones sin guion y si se incluye en el precio de la conversión de voz en texto de línea de base o en el precio del complemento.

Puntuación Con guion o sin guion ¿Se incluye en el precio de la conversión de voz en texto de línea de base?
Precisión Con guion y sin guion
Fluidez Con guion y sin guion
Integridad Guión
Errores Con guion y sin guion
Prosodia Con guion y sin guion No
Gramática Solo sin guion No
Tema Solo sin guion No
Vocabulario Solo sin guion No

Inteligencia artificial responsable

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se ven afectadas por ella, así como los entornos en los que se implementan. Lea las notas de transparencia para obtener información sobre el uso y la implementación de IA responsable en los sistemas.

Pasos siguientes