¿Qué es la traducción de voz?

Article
25/11/2024

En este artículo, obtendrá información sobre las ventajas y funcionalidades de la traducción con Voz de Azure AI. El servicio Voz admite la conversión de voz a voz en varios idiomas en tiempo real y la traducción de voz a texto de secuencias de audio.

Con el SDK de Voz o la CLI de Voz, las aplicaciones, herramientas y dispositivos pueden acceder a las transcripciones de origen y a las salidas de traducción del audio proporcionado. A medida que se detecta la voz, se van devolviendo resultados provisionales de transcripción y traducción. Asimismo, los resultados finales pueden convertirse en voz sintetizada.

Para obtener una lista de los idiomas admitidos para la traducción de voz, consulte Compatibilidad con idiomas y voces.

Propina

Vaya a Speech Studio para probar y traducir rápidamente la voz en otros idiomas de su elección con baja latencia.

Características principales

Entre las características principales de la traducción de voz se incluyen las siguientes:

Conversión de voz en texto
Traducción de voz a voz
Traducción de voz multilingüe
Traducción de varios idiomas de destino

Conversión de voz en texto

La característica estándar que ofrece el servicio Voz es la capacidad de tomar una secuencia de audio de entrada en el idioma de origen especificado y traducirla y generarla como texto en el idioma de destino especificado.

Traducción de voz a voz

Como complemento de la característica anterior, el servicio Voz también ofrece la opción de leer en voz alta el texto traducido mediante nuestra gran base de datos de voces previamente entrenadas, lo que permite una salida natural de la voz de entrada.

Traducción de voz multilingüe

La traducción de voz multilingüe implementa un nuevo nivel de tecnología de traducción de voz que desbloquea diversas funcionalidades, como no tener ningún idioma de entrada especificado, controlar los conmutadores de idioma dentro de la misma sesión y admitir traducciones de streaming en vivo en inglés. Estas características permiten un nuevo nivel de habilidades de traducción de voz que se pueden implementar en sus productos.

Idioma de entrada no especificado. La traducción de voz multilingüe puede recibir audio en una amplia gama de idiomas, y no es necesario especificar cuál es el idioma de entrada esperado.
Conmutación de idioma. La traducción de voz multilingüe permite hablar en varios idiomas durante la misma sesión y traducirlos todos al mismo idioma de destino. No es necesario reiniciar una sesión cuando cambia el idioma de entrada o cualquier otra acción por su parte.
Transcripción. El servicio genera una transcripción en el idioma de destino especificado. La transcripción del idioma de origen aún no está disponible.

Algunos casos de uso de traducción de voz multilingüe son los siguientes:

Intérprete de viajes. Al viajar al extranjero, la traducción de voz multilingüe ofrece la posibilidad de crear una solución que permita a los clientes traducir cualquier audio de entrada hacia y desde el idioma local. Esto les permite comunicarse con los lugareños y comprender mejor su entorno.
Reunión empresarial. En una reunión con personas que hablan diferentes idiomas, la traducción de voz multilingüe permite a los miembros de la reunión comunicarse entre sí de forma natural como si no hubiera ninguna barrera del idioma.

Para obtener una lista de los idiomas de entrada (origen) admitidos, consulte la documentación de idiomas de conversión de voz en texto. Para obtener una lista de los idiomas de salida (destino) admitidos, consulte la tabla Traducción al idioma del texto en la documentación de idiomas de traducción de voz.

Para obtener más información sobre la traducción de voz multilingüe, consulte la guía paso a paso de traducción de voz y ejemplos de traducción de voz en GitHub.

Traducción de varios idiomas de destino

En escenarios en los que desea resultados en varios idiomas, el servicio Voz le ofrece directamente la posibilidad de traducir el idioma de entrada en dos idiomas de destino. Esto les permite recibir dos salidas y compartir estas traducciones con un público más amplio con una sola llamada API. Si se requieren más idiomas de salida, puede crear un recurso de varios servicios o usar servicios de traducción independientes.

Si necesita traducción en más de dos idiomas de destino, debe Crear un recurso de servicios de Azure AI o usar servicios de traducción independientes para más idiomas más allá del segundo. Si decide llamar al servicio de traducción de voz con un recurso de varios servicios, tenga en cuenta que se aplican tarifas de traducción a cada idioma además del segundo, en función del recuento de caracteres de la traducción.

Para calcular la tarifa de traducción aplicada, consulte Precios de Traductor de Azure AI.

Precios de traducción de varios idiomas de destino

Es importante tener en cuenta que el servicio de traducción de voz funciona en tiempo real y los resultados de voz intermedios se traducen para generar resultados de traducción intermedios. Por lo tanto, el volumen de traducción real es mayor que los tokens del audio de entrada. Se le cobra por la transcripción de voz a texto y la traducción de texto para cada idioma de destino.

Por ejemplo, supongamos que desea traducciones de texto de un archivo de audio de una hora a tres idiomas de destino. Si la transcripción inicial de voz a texto contiene 10 000 caracteres, es posible que se le cobren 2,80 USD.

Advertiment

Los precios de este ejemplo solo tienen fines ilustrativos. Consulte Precios de Voz de Azure AI y Precios de Traductor de Azure AI para obtener la información de precios más actualizada.

El precio del ejemplo anterior de 2,80 USD se ha calculado mediante la combinación de los costos de traducción de texto y transcripción de voz a texto. Aquí se muestra cómo se ha realizado el cálculo:

El precio de lista de traducción de voz es de 2,50 USD por hora y cubre hasta 2 idiomas de destino. El precio se usa como ejemplo de cómo calcular los costos. Consulte Paga y Habla>Traducción de voz>Estándar en la tabla de precios de Voz de Azure AI para obtener la información de precios más actualizada.
El costo de la traducción al tercer idioma es de 30 céntimos en este ejemplo. El precio de lista de traducción es de 10 USD por millón de caracteres. Dado que el archivo de audio contiene 10 000 caracteres, el costo de traducción es de 10 USD * 10 000 / 1 000 000 * 3 = 0,3 USD. El número "3" de esta ecuación representa un coeficiente de ponderación del tráfico intermedio, que podría variar en función de los idiomas implicados. El precio se usa como ejemplo de cómo calcular los costos. Consulte Paga y Habla>Traducción estándar>Traducción de texto en la tabla de precios de Traductor de Azure AI para obtener la información de precios más actualizada.

Introducción

Como primer paso, pruebe con el artículo de Inicio rápido de traducción de voz. El servicio de traducción de voz está disponible con el SDK de Voz y la CLI de Voz.

Encontrará ejemplos de conversión de voz en texto y traducción del SDK de Voz en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento y traducción únicos y continuos, y el trabajo con modelos personalizados.

Pasos siguientes

Pruebe con el artículo de Inicio rápido de traducción de voz.
Instale el SDK de Voz.
Instale la CLI de Voz.

Recursos addicionals

Documentació

Procedimientos para la traducción de voz: servicio de voz - Azure AI services

Obtenga información sobre cómo traducir la voz de un idioma a texto en otro idioma, incluidos los formatos de entrada de audio admitidos y la construcción de objetos.
Inicio rápido de traducción de voz: servicio Voz - Azure AI services

En este inicio rápido, se traslada interactivamente la voz de un idioma a texto en otro idioma.
¿Qué es Speech Service? - Azure AI services

El servicio de Voz proporciona funcionalidades de conversión de voz en texto, texto a voz y traducción de voz con un recurso de Azure. Agregue fácilmente funcionalidad de voz a sus aplicaciones, herramientas y dispositivos mediante el SDK de voz, Speech Studio o las API REST.
Introducción a Speech Studio - Servicio Voz - Azure AI services

Speech Studio es un conjunto de herramientas basadas en la interfaz de usuario para crear e integrar funciones del servicio de voz en sus aplicaciones.
Compatibilidad con idiomas: servicio de voz - Azure AI services

El servicio de voz admite un gran número de idiomas para la conversión de texto a voz y voz a texto, junto con la traducción de voz. En este artículo se proporciona una lista completa de idiomas compatibles por servicio.
Implementación de la identificación del idioma: servicio de voz - Azure AI services

Obtenga información sobre cómo la identificación del idioma puede determinar el idioma que se habla en audio en comparación con una lista de idiomas proporcionados.
Documentación del servicio de Voz: tutoriales y referencia de API (Servicios de Azure AI) - Azure AI services

Reconocimiento de voz, síntesis de voz, obtención de traducciones en tiempo real, transcripción de conversaciones o integración de voz a las experiencias con el bot.
La CLI de voz de Azure AI - Azure AI services

En este artículo, obtendrá información sobre la CLI de Voz, una herramienta de línea de comandos para usar el servicio Voz sin tener que escribir código.

Formació

Mòdul

Traducción de voz con el servicio de Voz de Azure AI - Training

Traducción de voz con el servicio de Voz de Azure AI

Certificació

Microsoft Certified: Aspectos básicos de Azure AI - Certifications

Demostrar conceptos fundamentales de inteligencia artificial relacionados con el desarrollo de software y servicios de Microsoft Azure para crear soluciones de inteligencia artificial.

Esdeveniment

Crea aplicacions intel·ligents

17 de març, 21 - 21 de març, 10

Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.

Registreu-vos-hi ara

Comparteix a través de