¿Qué es la traducción de voz?

2025-03-10

En este artículo, obtendrá información sobre las ventajas y funcionalidades de la traducción con Voz de Azure AI. El servicio Voz admite la conversión de voz a voz en varios idiomas en tiempo real y la traducción de voz a texto de secuencias de audio.

Con el SDK de Voz o la CLI de Voz, las aplicaciones, herramientas y dispositivos pueden acceder a las transcripciones de origen y a las salidas de traducción del audio proporcionado. A medida que se detecta la voz, se van devolviendo resultados provisionales de transcripción y traducción. Asimismo, los resultados finales pueden convertirse en voz sintetizada.

Para obtener una lista de los idiomas admitidos para la traducción de voz, consulte Compatibilidad con idiomas y voces.

Sugerencia

Vaya a Speech Studio para probar y traducir rápidamente la voz en otros idiomas de su elección con baja latencia.

Características principales

Entre las características principales de la traducción de voz se incluyen las siguientes:

Conversión de voz en texto
Traducción de voz a voz
Traducción de voz multilingüe
Traducción de varios idiomas de destino

Conversión de voz en texto

La característica estándar que ofrece el servicio Voz es la capacidad de tomar una secuencia de audio de entrada en el idioma de origen especificado y traducirla y generarla como texto en el idioma de destino especificado.

Traducción de voz a voz

Como complemento de la característica anterior, el servicio Voz también ofrece la opción de leer en voz alta el texto traducido mediante nuestra gran base de datos de voces previamente entrenadas, lo que permite una salida natural de la voz de entrada.

Traducción de voz multilingüe

La traducción de voz multilingüe implementa un nuevo nivel de tecnología de traducción de voz que desbloquea diversas funcionalidades, como no tener ningún idioma de entrada especificado, controlar los conmutadores de idioma dentro de la misma sesión y admitir traducciones de streaming en vivo en inglés. Estas características permiten un nuevo nivel de habilidades de traducción de voz que se pueden implementar en sus productos.

Idioma de entrada no especificado. La traducción de voz multilingüe puede recibir audio en una amplia gama de idiomas, y no es necesario especificar cuál es el idioma de entrada esperado.
Conmutación de idioma. La traducción de voz multilingüe permite hablar en varios idiomas durante la misma sesión y traducirlos todos al mismo idioma de destino. No es necesario reiniciar una sesión cuando cambia el idioma de entrada o cualquier otra acción por su parte.
Transcripción. El servicio genera una transcripción en el idioma de destino especificado. La transcripción del idioma de origen aún no está disponible.

Algunos casos de uso de traducción de voz multilingüe son los siguientes:

Intérprete de viajes. Al viajar al extranjero, la traducción de voz multilingüe ofrece la posibilidad de crear una solución que permita a los clientes traducir cualquier audio de entrada hacia y desde el idioma local. Esto les permite comunicarse con los lugareños y comprender mejor su entorno.
Reunión empresarial. En una reunión con personas que hablan diferentes idiomas, la traducción de voz multilingüe permite a los miembros de la reunión comunicarse entre sí de forma natural como si no hubiera ninguna barrera del idioma.

Para obtener una lista de los idiomas de entrada (origen) admitidos, consulte la documentación de idiomas de conversión de voz en texto. Para obtener una lista de los idiomas de salida (destino) admitidos, consulte la tabla Traducción al idioma del texto en la documentación de idiomas de traducción de voz.

Para obtener más información sobre la traducción de voz multilingüe, consulte la guía paso a paso de traducción de voz y ejemplos de traducción de voz en GitHub.

Traducción de varios idiomas de destino

En escenarios en los que desea resultados en varios idiomas, el servicio Voz le ofrece directamente la posibilidad de traducir el idioma de entrada en dos idiomas de destino. Esto les permite recibir dos salidas y compartir estas traducciones con un público más amplio con una sola llamada API. Si se requieren más idiomas de salida, puede crear un recurso de varios servicios o usar servicios de traducción independientes.

Si necesita traducción en más de dos idiomas de destino, debe crear un recurso de AI Foundry o usar servicios de traducción independientes para más idiomas más allá del segundo. Si decide llamar al servicio de traducción de voz con un recurso de varios servicios, tenga en cuenta que se aplican tarifas de traducción a cada idioma además del segundo, en función del recuento de caracteres de la traducción.

Para calcular la tarifa de traducción aplicada, consulte Precios de Traductor de Azure AI.

Precios de traducción de varios idiomas de destino

Es importante tener en cuenta que el servicio de traducción de voz funciona en tiempo real y los resultados de voz intermedios se traducen para generar resultados de traducción intermedios. Por lo tanto, el volumen de traducción real es mayor que los tokens del audio de entrada. Se le cobra por la transcripción de voz a texto y la traducción de texto para cada idioma de destino.

Por ejemplo, supongamos que desea traducciones de texto de un archivo de audio de una hora a tres idiomas de destino. Si la transcripción inicial de voz a texto contiene 10 000 caracteres, es posible que se le cobren 2,80 USD.

Advertencia

Los precios de este ejemplo solo tienen fines ilustrativos. Consulte Precios de Voz de Azure AI y Precios de Traductor de Azure AI para obtener la información de precios más actualizada.

El precio del ejemplo anterior de 2,80 USD se ha calculado mediante la combinación de los costos de traducción de texto y transcripción de voz a texto. Aquí se muestra cómo se ha realizado el cálculo:

El precio de lista de traducción de voz es de 2,50 USD por hora y cubre hasta 2 idiomas de destino. El precio se usa como ejemplo de cómo calcular los costos. Consulte Estándar>Traducción de voz>Estándar en la tabla de precios de Voz de Azure AI para obtener la información de precios más actualizada.
El costo de la traducción al tercer idioma es de 30 céntimos en este ejemplo. El precio de lista de traducción es de 10 USD por millón de caracteres. Dado que el archivo de audio contiene 10 000 caracteres, el costo de traducción es de 10 USD * 10 000 / 1 000 000 * 3 = 0,3 USD. El número "3" de esta ecuación representa un coeficiente de ponderación del tráfico intermedio, que podría variar en función de los idiomas implicados. El precio se usa como ejemplo de cómo calcular los costos. Consulte Estándar>Traducción Estándar>Traducción de texto en la tabla de precios de Traductor de Azure AI para obtener la información de precios más actualizada.

Introducción

Como primer paso, pruebe con el artículo de Inicio rápido de traducción de voz. El servicio de traducción de voz está disponible con el SDK de Voz y la CLI de Voz.

Encontrará ejemplos de conversión de voz en texto y traducción del SDK de Voz en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento y traducción únicos y continuos, y el trabajo con modelos personalizados.

Pasos siguientes

Pruebe con el artículo de Inicio rápido de traducción de voz.
Instale el SDK de Voz.
Instale la CLI de Voz.