Desarrollo de juegos con Voz de Azure AI

2025-03-10

Voz de Azure AI se puede usar para mejorar varios escenarios de juego, tanto dentro como fuera del juego.

Estas son algunas características de voz que se deben tener en cuenta para lograr experiencias de juego flexibles e interactivas:

Incorporar a todos los usuarios a la conversación sintetizando audio a partir del texto. O bien, mostrando texto a partir del audio.
Hacer que el juego sea más accesible para los jugadores que no pueden leer texto en un idioma en particular, incluidos los jugadores jóvenes que no saben leer ni escribir. Los jugadores pueden escuchar las sinopsis e instrucciones en el idioma que prefieran.
Crear avatares de juego y personajes no jugables (NPC) que pueden iniciar una conversación en el juego o participar en ella.
La voz neuronal precompilada puede proporcionar voces muy naturales con una gran variedad de idiomas y tonos de voz.
Voz neuronal personalizada para crear una voz que se mantenga dentro de la marca con una calidad y un estilo de voz coherentes. Puede agregar emociones, acentos, matices, risas y otros sonidos y expresiones paralingüísticos.
Usar la creación de prototipos de diálogo de juegos para acortar la cantidad de tiempo y dinero invertidos en el producto y conseguir que el juego llegue antes al mercado. Puede intercambiar rápidamente líneas de diálogo y escuchar variaciones en tiempo real para iterar el contenido del juego.

Puede usar el SDK de Voz o la CLI de Voz para la conversión de voz en texto, texto a voz, identificación de idiomas y traducción de voz en tiempo real y con baja latencia. También puede usar la API de transcripción de Batch para transcribir las voces previamente grabadas. Utilice Batch synthesis API para sintetizar un gran volumen de entrada de texto (largo y corto).

Para obtener información sobre la configuración regional y la disponibilidad regional, consulte Idioma y voz admitidos y Regiones admitidas.

Texto a voz

Llegue a más personas: convierta los mensajes de texto en audio con Texto a voz para escenarios como la creación de prototipos de diálogos de juegos, aumentar la accesibilidad o crear voces de personajes no jugables (NPC). El texto a voz incluye la voz neuronal precompilada y las características personalizadas de voz neuronal. La voz neuronal precompilada puede proporcionar voces muy naturales con una gran variedad de idiomas y tonos de voz. La voz neuronal personalizada es un autoservicio fácil de usar para crear una voz personalizada muy natural.

Cuando habilite esta funcionalidad en su juego, tenga en cuenta las siguientes ventajas:

Voces e idiomas admitidos: se admite una amplia cartera de configuraciones regionales y voces. También puede especificar varios idiomas para la salida de Texto a voz. En el caso de la voz neuronal personalizada, puede elegir crear diferentes idiomas a partir de datos de entrenamiento de un solo idioma.
Estilos emocionales admitidos : tonos emocionales, como alegre, enfadado, triste, excitado, esperanzado, amistoso, antipático, aterrorizado, gritos y susurros. Puede ajustar el estilo del habla, el grado del estilo y el rol en las oraciones.
Visemas compatibles: puede usar visemas durante la sintetización en tiempo real para controlar el movimiento de los modelos de avatar 2D y 3D, de modo que los movimientos de la boca coincidan perfectamente con la voz sintética. Para obtener más información, consulte Obtención de la posición facial con visema.
Ajuste de la salida de Texto a voz con el lenguaje de marcado de síntesis de voz (SSML): con el SSML, puede personalizar las salidas de Texto a voz, con soportes de voz más completos. Para obtener más información, consulte Información general del Lenguaje de marcado de síntesis de voz (SSML).
Salidas de audio: cada modelo de voz neuronal precompilado está disponible en 24 kHz y 48 kHz de alta fidelidad. Si selecciona el formato de salida de 48 kHz, se aplica el modelo de voz de alta fidelidad de 48 kHz. Se pueden obtener frecuencias de muestreo distintas de 24 kHz y 48 kHz si se aumenta o reduce el tamaño de los audios durante la sintetización. Por ejemplo, 44,1 kHz se ha reducido desde 48 kHz. Cada formato de audio incorpora una velocidad de bits y un tipo de codificación. Para obtener más información, consulte los formatos de audio compatibles. Para obtener más información sobre las voces de alta calidad de 48 kHz, consulte este blog de introducción.

Para obtener un ejemplo, consulte la guía de inicio rápido para texto a voz.

Conversión de voz en texto

Puede usar la Conversión de voz en texto para mostrar texto del audio hablado en su juego. Para obtener un ejemplo, consulte el Inicio rápido de Conversión de voz en texto.

Identificación del idioma

Con la identificación del idioma, puede detectar el idioma de la cadena de chat enviada por el jugador.

Traducción de voz

No es raro que los jugadores en la misma sesión de juego hablen idiomas diferentes de forma nativa y puedan apreciar recibir tanto el mensaje original como su traducción. Puede usar la traducción de voz para traducir texto entre idiomas para que los jugadores de todo el mundo puedan comunicarse entre sí en su idioma nativo.

Para obtener un ejemplo, consulte el Inicio rápido sobre la traducción de voz.

Nota

Además del servicio Voz, también puede usar el servicio Translator. Para ejecutar la traducción de texto en tiempo real entre los idiomas de origen y destino admitidos, consulte Traducción de texto.

Compartir a través de

Desarrollo de juegos con Voz de Azure AI

Texto a voz

Conversión de voz en texto

Identificación del idioma

Traducción de voz

Pasos siguientes

Comentarios

Recursos adicionales