Compartir a través de


Nota de transparencia: texto a voz

Importante

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.

¿Qué es una nota de transparencia?

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se verán afectadas por ella, así como los entornos en los que se implementan. La creación de un sistema que se ajuste a su finalidad prevista requiere una comprensión de cómo funciona la tecnología, cuáles son sus funcionalidades y limitaciones, y cómo lograr el mejor rendimiento. Las notas sobre transparencia de Microsoft están pensadas para ayudarle a entender cómo funciona nuestra tecnología de inteligencia artificial, las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas de transparencia al desarrollar o implementar su propio sistema o compartirlos con las personas que usarán o se verán afectadas por el sistema.

Las notas sobre transparencia de Microsoft forman parte de un esfuerzo más amplio en Microsoft para poner en práctica nuestros principios de inteligencia artificial. Para obtener más información, consulte los principios de inteligencia artificial de Microsoft.

Conceptos básicos del texto a voz

Introducción

Text to speech, parte de Azure Speech in Foundry Tools, es una herramienta versátil que puede convertir texto escrito en audio de voz de sonido natural. La característica toma la entrada en forma de texto y genera una salida de audio de voz de alta calidad que se puede reproducir en dispositivos. Para la salida de audio de voz, el texto a voz ofrece una variedad de voces neuronales precompiladas o, para los clientes de Acceso limitado, la opción para crear una voz neuronal personalizada para su producto o marca.

Text to speech también tiene funcionalidades visuales. Con el avatar de texto a voz, los clientes pueden escribir texto y crear un vídeo sintético de un avatar hablando. Tanto los avatares de texto a voz preconstruidos como los avatares personalizados están disponibles y se pueden usar con voz neural preconstruida o personalizada. Sin embargo, algunas características solo están disponibles para clientes con acceso limitado.

En un sistema de texto a voz, los clientes pueden convertir la información escrita en voz audible y mejorar la accesibilidad para los usuarios. Ya sea escuchando documentos o mejorando las experiencias del usuario con voz sintetizada, el texto a voz transforma el texto en palabras habladas de sonido natural.

Términos clave

Término Definición
Síntesis de voz en tiempo real Use el SDK de Voz o la API REST para convertir texto a voz mediante la voz neuronal precompilada, el texto precompilado en el avatar de voz, la voz neuronal personalizada y el texto personalizado al avatar de voz.
Modelo de voz En un sistema de texto a voz, un modelo de voz hace referencia a un modelo o algoritmo basado en aprendizaje automático que genera voz sintética a partir de texto escrito. Este modelo está entrenado para convertir la entrada de texto en habla, imitando las características de una voz humana, incluido el tono, la entonación y la pronunciación.
Prosodia Prosody hace referencia a la modulación de los elementos de voz, como el tono, la duración, el volumen y las pausas para infundir voces sintéticas con una calidad natural y expresiva, transmitir matices emocionales y significado contextual, lo que reduce la calidad robótica del habla generada y lo hace más atractivo y comprensible para los agentes de escucha.
Lenguaje de marcado de síntesis de voz ("SSML") El lenguaje de marcado de síntesis de voz (SSML) es un lenguaje de marcado basado en XML que se usa para personalizar el texto a las salidas de voz. Mediante SSML, puede ajustar el tono, agregar pausas, mejorar la pronunciación, cambiar la velocidad del habla, ajustar el volumen y atribuir varias voces a un solo documento. Puede usar SSML para definir sus propios léxicos o cambiar a diferentes estilos de habla.
Síntesis asincrónica de audio largo Use la API de síntesis por lotes (versión preliminar) para sintetizar de forma asincrónica texto en archivos de voz de más de 10 minutos (por ejemplo, libros de audio o conferencias). A diferencia de la síntesis realizada mediante el SDK de Voz o la API REST de conversión de voz en texto, las respuestas no se devuelven en tiempo real. La expectativa es que las solicitudes se envíen de forma asincrónica, se sondeen las respuestas y el audio sintetizado se descargue cuando el servicio lo permita.
Visemas Los visemas son los principales planteamientos de la voz observada, incluida la posición de los labios, mandíbula y lengua al producir un fonema determinado. Las visemas tienen una correlación fuerte con las voces y fonemas.

Introducción

La voz neuronal precompilada proporciona una amplia gama de voces, que ofrece más de 400 opciones en más de 140 idiomas y configuraciones regionales. Estas voces de texto a voz permiten integrar rápidamente la funcionalidad de lectura en voz alta en las aplicaciones para mejorar la accesibilidad.

Términos clave

Término Definición
Voz neuronal pregenerada Microsoft ofrece un conjunto de voces neuronales precompiladas, que usan redes neuronales profundas para superar los límites de la síntesis de voz tradicional con respecto al estrés y la entonación en lenguaje hablado. La predicción de la prosodia y la síntesis de voz tienen lugar simultáneamente, lo que resulta en una voz más fluida y natural. Cada modelo de voz neuronal pregenerada está disponible a 24kHz y a 48 kHz con alta fidelidad, y la salida se puede aumentar o reducir a otros formatos.

Capacidades

Comportamiento del sistema

Conversión de texto a voz

La conversión de texto a voz transforma el texto en un discurso de sonido natural.

A continuación se muestran las opciones principales para llamar al servicio de texto a voz.

API de texto a voz en tiempo real

Se trata de una llamada API común a través del SDK de Voz o la API REST para enviar una entrada de texto y recibir una salida de audio en tiempo real. El sistema de voz usa un modelo de voz de texto a voz para convertir el texto en voz sintética similar a la humana. El audio de salida se puede guardar como un archivo o reproducirse en un dispositivo de salida, como un altavoz (obtenga más información sobre cómo sintetizar la voz a partir de texto). Los usuarios también pueden usar SSML para ajustar el texto a la salida de voz.

Los modelos de texto a voz se entrenan en grandes cantidades de audio diversos en escenarios de uso típicos y una amplia gama de altavoces. Por ejemplo, el servicio de texto a voz se usa a menudo para bots de chat habilitados para voz o para la creación de contenido de audio.

API de síntesis por lotes

La síntesis por lotes es otro tipo de llamada API. Normalmente se usa para enviar archivos de texto grandes y para recibir salidas de audio de forma asincrónica (es decir, en un momento posterior). Para usar esta API, puede especificar ubicaciones para varios archivos de texto. La tecnología de texto a voz lee la entrada de texto del archivo y genera archivos de audio que se devuelven a la ubicación de almacenamiento que especifique. Esta característica se usa para admitir trabajos de síntesis de voz más grandes en los que no es necesario proporcionar a los usuarios finales la salida de audio en tiempo real. Un ejemplo es crear libros de audio.

Texto a voz: voz neuronal personalizada

La voz neural a medida es una característica de texto a voz que permite a los clientes de Acceso limitado crear una voz sintética única para sus aplicaciones proporcionando sus propios datos de audio de los talentos de voz seleccionados por el cliente.

Con la voz neuronal personalizada, puede grabar su talento de voz haciendo que lean scripts proporcionados por Microsoft en Speech Studio y cree rápidamente una voz sintética que suena como su talento de voz mediante un proyecto lite (versión preliminar). Un proyecto lite es ideal para una prueba rápida o una prueba de concepto.

Con un proyecto profesional, puede cargar datos de voz grabados en estudio de alta calidad de su talento de voz seleccionado y crear una voz realista. Pro admite un entrenamiento de voz muy natural que se asemeja aún más a la voz del actor de voz y se puede adaptar para hablar con distintas emociones y en varios idiomas, sin necesidad de datos de entrenamiento específicos para emociones o idiomas.

Una vez creada una voz neuronal personalizada, puede implementar el modelo de voz con un punto de conexión único y usar el modelo para generar voz sintética con la API de síntesis en tiempo real o la API de síntesis por lotes descrita anteriormente.

Para obtener más información sobre la voz neuronal personalizada, consulte Introducción a la voz neuronal personalizada.

Voz personal

La característica de voz personal permite a los clientes de Acceso limitado crear un modelo de voz a partir de un breve ejemplo de voz humana. La característica puede crear un modelo de voz basado en el mensaje en tan solo unos segundos. Esta característica se usa normalmente para impulsar experiencias de voz personalizadas para las aplicaciones de los clientes empresariales. Los modelos de voz personales pueden crear voces realistas que pueden hablar en cerca de 100 idiomas.

Las marcas de agua se agregan a las voces neuronales personalizadas creadas con la característica de voz personal. Las marcas de agua permiten a los usuarios identificar si la voz se sintetiza mediante Azure Speech y, en concreto, qué voz se usó. Los clientes elegibles pueden utilizar las capacidades de detección de marcas de agua en Azure Speech. Para solicitar agregar detección de marcas de agua a las aplicaciones, póngase en contacto con mstts[at]microsoft.com.

Para obtener más información sobre la voz personal, consulte voz personal.

Avatar de texto a voz

El avatar de texto a voz transforma el texto en un vídeo digital de un humano fotorealista (ya sea un avatar prediseñado o uno personalizado) hablando con una voz que suena natural, impulsada por tecnología de texto a voz, como la voz neuronal prediseñada o personalizada. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.

Con los modelos avanzados de red neuronal del avatar de texto a voz, la característica permite a los usuarios entregar vídeos de avatar de conversación sintética de alta calidad y similares a la vida para diversas aplicaciones.

El avatar de texto a voz adopta el estándar Coalition for Content Provenance and Authenticity (C2PA) para proporcionar a las audiencias información más clara sobre el origen y el historial del contenido de vídeo creado por avatares. Este estándar ofrece información transparente sobre la generación de inteligencia artificial de contenido de vídeo. Para más información sobre la integración de C2PA con avatares de texto a voz, consulte Credenciales de contenido en Azure Text to Speech Avatar.

Además, las salidas del avatar se marcan automáticamente con una marca de agua. Las marcas de agua digitales permiten a los usuarios aprobados determinar si un vídeo fue sintetizado mediante la función de avatar de Azure Speech. Para solicitar la detección de marcas de agua, póngase en contacto con avatarvoice[at]microsoft.com.

Traducción de vídeo

La traducción de vídeos puede localizar eficazmente el contenido de vídeo para atender a diversas audiencias de todo el mundo. La traducción de vídeo extraerá automáticamente audio de diálogo, transcribe, traduce y doblará el contenido con voz precompilada o personal al idioma de destino, con subtítulos precisos para mejorar la accesibilidad. Las características de varios hablantes ayudarán a identificar el número de personas que hablan y recomiendan voces adecuadas. La edición de contenido con humanos en el bucle permite una alineación precisa con las preferencias del cliente. La calidad mejorada de la traducción garantiza una alineación precisa de audio y vídeo con la integración de GPT. La traducción de vídeo permite experiencias de doblaje auténticas y personalizadas con voz personal.

Casos de uso

La tecnología de conversión de texto a voz ofrece una variedad de funcionalidades que se adaptan a una amplia gama de usos previstos en diferentes sectores. Todas las características de texto a voz, incluida la traducción de vídeo, están sujetas a los términos y condiciones aplicables a la suscripción de los clientes de Azure, incluida la directiva de uso aceptable de Azure y el código de conducta para el servicio de texto a voz de Azure.

Además, las características personalizadas de texto a voz, como la voz neuronal personalizada, la voz personal y el avatar de texto personalizado a voz se limitan a los casos de uso aprobados, como se describe en los escenarios específicos que se describen a continuación:

Usos previstos para Custom Neural Voice Pro y Custom Neural Voice Lite

A continuación se muestran los casos de uso aprobados para Custom Neural Voice Pro y Custom Neural Voice Lite:

  • Aprendizaje educativo o interactivo: para crear una marca ficticia o una voz de personaje para leer o hablar materiales educativos, aprendizaje en línea, planes de lección interactivos, aprendizaje de simulación o visitas guiadas a museos.
  • Media: Entretenimiento: Para crear una marca ficticia o una voz de personaje para leer o hablar contenido de entretenimiento para videojuegos, películas, TV, música grabada, podcasts, libros de audio o realidad virtual o aumentada.
  • Medios: Marketing: Para crear una marca ficticia o una voz de personaje para leer o hablar en medios de marketing, productos o servicios, presentaciones de productos, promoción de negocios o anuncios.
  • Contenido de autoría propia: para crear una voz para leer contenido creado por el actor de voz.
  • Características de accesibilidad: para su uso en sistemas de descripción de audio y narración, incluida cualquier marca ficticia o voz de personaje, o para facilitar la comunicación por parte de personas con discapacidades de voz.
  • Sistemas interactivos de respuesta de voz (IVR): para crear voces, incluida cualquier marca ficticia o voz de caracteres, para operaciones del centro de llamadas, sistemas de telefonía o respuestas para interacciones telefónicas.
  • Anuncios informativos y de servicio público: para crear una marca ficticia o una voz de personaje para comunicar información de servicio público, incluidos los anuncios de los lugares públicos o para las transmisiones informativas, como el tráfico, el tiempo, la información de eventos y las programaciones. Este caso de uso no está pensado para contenido periodístico o de noticias.
  • Traducción y localización: para su uso en aplicaciones de traducción para traducir conversaciones en diferentes idiomas o traducir medios de audio.
  • Asistente virtual o Bot de chat: para crear una marca ficticia o una voz de personaje para asistentes inteligentes en o para asistentes web virtuales, dispositivos, automóviles, dispositivos domésticos, juguetes, control de dispositivos IoT, sistemas de navegación, leer mensajes personales, compañeros virtuales o escenarios de servicio al cliente.

Usos previstos para voz personal

La API de voz personal (consulte Voz personal para obtener más información) está disponible en versión preliminar de acceso limitado. Solo los clientes que cumplan los criterios de idoneidad de acceso limitado pueden integrar la API de voz personal con sus aplicaciones. Estos clientes aptos solo pueden usar voces personales para los siguientes casos de uso:

  • Aplicaciones: Para su uso en aplicaciones donde la salida de voz está restringida y definida por los clientes, y donde la voz no lee contenido generado por el usuario ni contenido abierto o indefinido. El uso del modelo de voz debe permanecer dentro de la aplicación y la salida no debe poder publicarse ni compartirse desde la aplicación. Algunos ejemplos de aplicaciones que se ajustan a esta descripción son asistentes de voz en dispositivos inteligentes y personalización de una voz de personaje en juegos.
  • Medios, películas y tv: para doblar películas, tv, vídeo y audio solo para escenarios de entretenimiento, donde los clientes mantienen un control exclusivo sobre la creación, el acceso y el uso de los modelos de voz y su salida.
  • Contenido empresarial: para crear contenido de audio y vídeo para escenarios empresariales para comunicar información del producto, materiales de marketing, contenido promocional empresarial y comunicaciones empresariales internas.
  • Uso especial, incluido con traducción de vídeo: para sintetizar voces para cada altavoz de un vídeo. Los clientes también pueden editar y generar contenido de audio sincronizado por labios en idiomas de destino. Los clientes no deben enviar el consentimiento de audio adicional de Microsoft para el contenido de vídeo en este escenario, pero los clientes deben mantener un control exclusivo sobre la creación, el acceso y el uso de los modelos de voz y sus salidas.

Se prohíben todos los demás usos de voz neuronal personalizada, como Custom Neural Voice Pro, Custom Neural Voice Lite y voz personal. Además, la voz neuronal personalizada es un servicio de acceso limitado y se requiere el registro para el acceso a este servicio. Para obtener más información sobre la directiva de acceso limitado de Microsoft, consulte Características de acceso limitado para Las herramientas de Foundry. Algunas características solo están disponibles para los clientes y asociados administrados por Microsoft, y solo para determinados casos de uso aprobados por Microsoft en el momento del registro.

La voz neuronal preconstruida también se puede usar para los casos de uso de voz neuronal personalizada mencionados anteriormente, así como para casos de uso adicionales seleccionados por los clientes y coherentes con la Política de Uso Aceptable de Azure y el Código de conducta para texto a voz de Azure. No se requiere registro ni aprobación previa para casos de uso adicionales para la voz neuronal precompilada que cumpla todos los términos y condiciones aplicables.

Casos de uso previstos para la traducción de vídeo

La traducción de vídeo se puede usar para películas, televisión y otros objetos visuales (incluidos, entre otros, vídeos o animaciones) y aplicaciones de audio, donde los clientes mantienen un control exclusivo sobre la creación, el acceso y el uso de los modelos de voz y su salida. La sincronización personal de voz y labios está sujeta al marco de acceso limitado y los clientes elegibles pueden usar estas funcionalidades con la traducción de vídeo. A continuación se muestran los casos de uso aprobados para el servicio de traducción de vídeo:

  • Educación y aprendizaje: para traducir audio en objetos visuales educativos, cursos en línea, módulos de entrenamiento, aprendizaje basado en simulación o objetos visuales guiados de museo para estudiantes multilingües. 
  • Medios: Entretenimiento: para traducir audio en películas, programas de televisión, documentales, videojuegos, miniseries, cortometrajes y contenido de AR/VR para audiencias globales, lo que garantiza una narración sin problemas en todos los idiomas. 
  • Medios: Marketing: para traducir el audio de los elementos visuales promocionales, demostraciones de productos, anuncios y campañas de marca para que resuenen con los mercados internacionales y las culturas. 
  • Self-Authored Contenido: para traducir audio en vlogs, visuales de formato corto, contenido de influencers, guías de viaje, vídeos promocionales de destino, visuales de redes sociales y videos destacados de contenido cultural, haciéndolos accesibles y atractivos. 
  • Formación y comunicación corporativa: para traducir audio en objetos visuales de comunicación internos, materiales de incorporación de empleados, formación de cumplimiento y anuncios corporativos globales para equipos internacionales. 
  • E-commerce y demostraciones de productos: para traducir audio en vídeos de desempaquetado de productos, tutoriales, testimonios de clientes y vídeos explicativos para atender a los consumidores internacionales. 
  • Anuncios de servicio público e informativos: para traducir contenido de audio en materiales visuales de concienciación pública, horarios de eventos, anuncios de seguridad y transmisiones informativas gubernamentales, asegurando la accesibilidad multilingüe. 
  • Características de accesibilidad: para ampliar la accesibilidad del contenido de vídeo a través de audio multilingüe y subtítulos.
  • Noticias y contenido periodístico: para traducir audio en segmentos de noticias, entrevistas, comunicados de prensa e informes de noticias de última hora para diversas audiencias lingüísticas. Los clientes que buscan traducir fuentes de noticias requerirán una revisión adicional.

Usos previstos para el avatar de texto a voz personalizado y el avatar de texto a voz preconstruido

A continuación se muestran los casos de uso aprobados para el avatar de texto a voz personalizado:

  • Asistente virtual o Bot de chat: para crear asistentes virtuales, compañeros virtuales, asistentes de ventas virtuales o para aplicaciones de servicio al cliente.
  • Generación de contenido para contextos empresariales: para su uso para comunicar información de productos, materiales de marketing, contenido promocional empresarial y comunicaciones empresariales internas. Entre los ejemplos se incluyen avatares de personajes o gemelos digitales de un líder empresarial para promocionar una marca.
  • Aprendizaje educativo o interactivo: para crear una marca ficticia o avatar de personaje para presentar materiales educativos, aprendizaje en línea, planes de lección interactivos, aprendizaje de simulación o visitas guiadas a museos.
  • Medios: Entretenimiento: para presentar actualizaciones, compartir conocimiento, crear medios interactivos o hacer vídeos con presentadores para escenarios de entretenimiento como vídeos, juegos y realidad aumentada o virtual.
  • Características de accesibilidad: para su uso para facilitar la comunicación por parte de personas con discapacidades de voz.
  • Contenido de autoría propia: para crear un avatar para leer contenido creado por el talento del avatar.
  • Anuncios informativos y de servicio público: para crear una imagen ficticia de marca o carácter para comunicar información de servicio público, incluidos anuncios para lugares públicos, o para difusión informativa, como tráfico, tiempo, información de eventos y programaciones. Este caso de uso no está pensado para contenido periodístico o de noticias.
  • Traducción y localización: para su uso en aplicaciones de traducción para traducir conversaciones en diferentes idiomas o traducir medios de audio en formato de vídeo.

Se prohíben todos los demás usos del avatar de texto a voz personalizado. Además, el avatar de texto personalizado a voz es un servicio de acceso limitado y se requiere el registro para acceder a esta característica. Para obtener más información sobre la directiva de acceso limitado de Microsoft, visite aka.ms/limitedaccesscogservices. Algunas características solo están disponibles para los clientes y asociados administrados por Microsoft, y solo para determinados casos de uso aprobados por Microsoft en el momento del registro.

El avatar preconstruido para texto a voz también se puede usar para los casos de uso del avatar personalizado mencionados anteriormente, así como para casos de uso adicionales seleccionados por los clientes y coherentes con la Azure Acceptable Use Policy y el Código de conducta para Voz a texto de Azure. No se requiere ningún registro ni aprobación previa para casos de uso adicionales del avatar de texto a voz predefinido que cumplan todos los términos y condiciones aplicables.

Consideraciones al elegir casos de uso

Animamos a los clientes a usar las características de texto a voz en sus innovadoras soluciones o aplicaciones. Todas las funcionalidades de conversión de texto a voz deben cumplir la directiva de uso aceptable de Azure y el Código de Conducta de Azure para conversión de texto a voz. Además, la voz neuronal personalizada y el texto personalizado para los avatares de voz solo se pueden usar para los casos de uso aprobados mediante el formulario de registro de acceso limitado. Además, estas son algunas consideraciones al elegir un caso de uso para cualquier característica de texto a voz:

  • Asegurar la alineación de casos de uso: asegúrese de que el uso previsto de cualquier característica de texto para voz se alinea con las funcionalidades y el propósito previsto de la característica de texto a voz.
  • Consideraciones de inteligencia artificial responsables: priorice las prácticas de inteligencia artificial responsable evitando la creación de contenido engañoso o perjudicial. Cumplir las normas legales, de protección de datos y privacidad al usar las características de texto a voz.
  • Revise el código de conducta: Microsoft ha establecido un código de conducta que prohíbe determinados usos de todas las funciones de texto a voz. Asegúrese de cumplir el código de conducta al seleccionar un caso de uso para los servicios de texto a voz.
  • Ejercicio del control editorial: considere cuidadosamente el uso de voces sintéticas con contenido que carece de control editorial adecuado, ya que las voces sintéticas pueden sonar como humanas y amplificar el efecto de contenido incorrecto o engañoso.
  • Divulgación: divulga la naturaleza sintética de las voces, las imágenes o los vídeos a los usuarios de tal forma que no sean propensos a ser engañados o puedan engañar a otros, haciendo creer que interactúan con una persona real.
  • Consideraciones legales y normativas: las organizaciones deben evaluar posibles obligaciones legales y normativas específicas al usar las herramientas y soluciones de Foundry, que pueden no ser adecuadas para su uso en todos los sectores o escenarios. Además, las herramientas o soluciones de Foundry no están diseñadas para y pueden no usarse de maneras prohibidas en términos de servicio aplicables y códigos de conducta pertinentes.

Al cumplir estas consideraciones, los usuarios pueden aprovechar la voz neuronal precompilada y personalizada de forma responsable.

Limitaciones

Las limitaciones de texto a voz deben tenerse en cuenta en la intersección de la tecnología y los factores humanos, sociales y organizativos que influyen en su uso e impacto. Aunque text to speech ofrece funcionalidades avanzadas de síntesis de voz, hay ciertas limitaciones que se deben tener en cuenta al implementarla de forma responsable para minimizar los posibles errores.

Limitaciones técnicas, factores operativos e intervalos

Las limitaciones técnicas que se deben tener en cuenta al usar texto a voz incluyen la precisión de la pronunciación y la entonación. Aunque el texto a voz está diseñado para generar voz de sonido natural, puede encontrarse con dificultades con ciertas palabras, nombres o frases poco frecuentes. Los usuarios deben tener en cuenta que puede haber casos en los que el sistema pueda pronunciar o enfatizar palabras incorrectamente, especialmente cuando se trata con vocabulario técnico o especializado.

Es importante tener en cuenta que ciertas poblaciones pueden verse afectadas negativamente por estas limitaciones técnicas. Por ejemplo, las personas con discapacidades auditivas que dependen en gran medida de la voz sintetizada pueden enfrentar desafíos en la comprensión de la salida de voz poco clara o distorsionada. De forma similar, los usuarios con discapacidades cognitivas o relacionadas con el lenguaje pueden encontrar difícil comprender el habla con una entonación no natural o palabras mal pronunciadas.

  • Limitaciones lingüísticas: aunque curamos y preparamos cuidadosamente los datos de entrenamiento para minimizar los sesgos, especialmente relacionados con el género, la etnia o los acentos regionales, y mientras que el texto para la voz admite varios idiomas y acentos, puede haber variaciones en la calidad y disponibilidad de las voces en diferentes idiomas. Los clientes deben tener en cuenta las posibles limitaciones en la precisión de la pronunciación, la entonación y los matices lingüísticos específicos de determinados idiomas o dialectos.
  • Contexto y emoción: el texto a voz puede tener limitaciones para transmitir con precisión información contextual y emociones. Los clientes deben tener en cuenta la incapacidad del sistema para comprender los matices emocionales o las indicaciones sutiles presentes en el texto de entrada. Se deben tener en cuenta las consideraciones para proporcionar contexto adicional o utilizar otros métodos para transmitir emociones de forma eficaz.
  • Disponibilidad: Microsoft proporcionará a los clientes un aviso de 12 meses antes de quitar las voces neuronales precompiladas de nuestro catálogo, a menos que las consideraciones de seguridad, legales o de rendimiento del sistema requieran una eliminación rápida. Esto no se aplica a las versiones preliminares.

Cada aplicación es diferente y es posible que nuestro modelo base no coincida con el contexto o cubra todos los escenarios necesarios para su caso de uso. Animamos a los desarrolladores a evaluar exhaustivamente la calidad de texto a voz sintética y vídeo con datos reales que reflejen su caso de uso, incluidas las pruebas con usuarios de diferentes grupos demográficos y con características de voz diferentes. Consulte la sección Calidad del modelo de voz entrenado para conocer los procedimientos recomendados para crear modelos de voz de alta calidad.

Además de garantizar el rendimiento, es importante tener en cuenta cómo minimizar los riesgos de estereotipación y borrado que pueden resultar de voces sintéticas y avatares. Por ejemplo, si va a crear una voz neuronal personalizada para un asistente de voz inteligente, considere cuidadosamente qué voz es adecuada y busque diversas perspectivas de personas de diversos orígenes. Al desarrollar y evaluar su sistema, siempre busque perspectivas diversas.

Consideraciones sobre la equidad

En Microsoft, nos esforzamos por capacitar a cada persona del planeta para hacer más. Una parte esencial de este objetivo es trabajar para crear tecnologías y productos justos e inclusivos. La equidad es un tema multidimensional, socio-técnico y afecta a muchos aspectos diferentes de nuestro desarrollo de productos. Aquí puede obtener más información sobre el enfoque de Microsoft para la equidad.

Una dimensión importante que se debe tener en cuenta al usar sistemas de inteligencia artificial, incluido el texto a voz, es el rendimiento del sistema para diferentes grupos de personas. La investigación ha demostrado que sin esfuerzo consciente centrado en mejorar el rendimiento de todos los grupos, los sistemas de inteligencia artificial pueden mostrar distintos niveles de rendimiento en diferentes factores demográficos, como la raza, la etnicidad, el género y la edad.

Como parte de nuestra evaluación de la tecnología de texto a voz de Azure AI, hemos realizado un análisis para evaluar potenciales perjuicios para la equidad. Hemos examinado el rendimiento del sistema en diferentes grupos demográficos, con el objetivo de identificar cualquier disparidad o diferencia que pueda existir y podría afectar a la equidad.

En algunos casos, puede haber diferencias de rendimiento restantes. Es importante tener en cuenta que estas disparidades pueden superar el objetivo, y estamos trabajando activamente para abordar y minimizar los posibles sesgos o brechas de rendimiento, considerar cuidadosamente la elección del grupo demográfico del actor y buscar diversas perspectivas desde una variedad de antecedentes.

En cuanto a los daños representacionales, como la estereotipación, la denigración o la eliminación de resultados, reconocemos los riesgos asociados con estos problemas. Aunque nuestro proceso de evaluación tiene como objetivo mitigar estos riesgos, animamos a los usuarios a considerar cuidadosamente sus casos de uso específicos e implementar mitigaciones adicionales según corresponda. Tener un humano en el bucle puede proporcionar una capa adicional de supervisión para abordar posibles sesgos o consecuencias no deseadas. El uso de listas de bloqueados o listas de permitidos también puede ayudar a garantizar que la voz sintetizada se alinea con los estándares deseados y evita cualquier contenido dañino o inapropiado.

Nos comprometemos a mejorar continuamente nuestras evaluaciones de equidad para comprender mejor el rendimiento del sistema en varios grupos demográficos y posibles preocupaciones de equidad. El proceso de evaluación está en curso y estamos trabajando activamente para mejorar la equidad y la inclusividad, y mitigar las disparidades identificadas. Entendemos la importancia de abordar las consideraciones de equidad y nos esforzamos por garantizar que el texto a la voz ofrezca salidas de voz sintetizadas confiables y equitativas.

Tenga en cuenta que esta información representa lo que sabemos hasta ahora sobre las evaluaciones de equidad, y seguimos dedicados a refinar nuestras metodologías de evaluación y abordar cualquier preocupación de equidad que pueda surgir.

Rendimiento del sistema

El rendimiento del sistema de texto a voz hace referencia a la precisión y natural que puede convertir texto escrito en voz sintetizada. Esto se mide mediante varias métricas para evaluar la calidad y eficacia de la salida de audio generada. Algunas métricas de rendimiento comunes que se usan incluyen:

  • Puntuación media de opinión (MOS): un sistema de clasificación donde los jueces proporcionan una puntuación que representa la calidad general de voz sintetizada y vídeo de avatar. Un MOS mayor indica una mejor calidad.
  • Brecha MOS: la diferencia entre la puntuación MOS de las grabaciones humanas y las pistas o vídeos de audio generados. Una brecha de MOS más pequeña indica una similitud más estrecha con la voz humana o la similitud humana.
  • Similitud de MOS (SMOS): mide la similitud de las pistas o vídeos de audio generados a las grabaciones humanas. Un SMOS mayor significa una mejor similitud.
  • Inteligibilidad: porcentaje de palabras correctamente inteligibles en voz sintetizada.

Incluso con modelos de última generación, los sistemas de inteligencia artificial como texto a voz pueden producir errores. Por ejemplo, el sistema puede producir voz sintetizada con intonaciones poco naturales sutiles o errores de pronunciación, lo que lleva a una experiencia de usuario menos que ideal, o el sistema puede malinterpretar texto o luchar con construcciones lingüísticas inusuales, lo que da lugar a habla no natural o ininteligible.

Prácticas recomendadas para mejorar el rendimiento del sistema

Para mejorar el rendimiento del sistema y adaptar el comportamiento del sistema en texto a voz, hay varios procedimientos recomendados que se pueden seguir. Estas prácticas implican ajustar varios componentes y parámetros para optimizar los inconvenientes y cumplir los requisitos de casos de uso específicos. Sin embargo, es importante tener en cuenta el posible impacto en diferentes poblaciones para garantizar la equidad y la inclusión.

El uso de SSML (lenguaje de marcado de síntesis de voz) se considera un procedimiento recomendado para mejorar la calidad de salida de texto a voz. SSML permite a los usuarios ejercer un mayor control sobre la voz sintetizada, lo que permite la personalización de la pronunciación, la entonación, el énfasis y otras características prosódicas. Al incorporar etiquetas SSML en el texto, los usuarios pueden agregar pausas, ajustar la velocidad del habla, especificar pronunciaciones fonéticas y controlar el tono y el volumen, entre otros parámetros. Este nivel de ajuste fino ayuda a crear voz más natural y expresiva, haciendo que el texto a la salida de voz suene más humano y atractivo. Todas las marcas SSML se pueden pasar directamente a la API. También proporcionamos una herramienta en línea, creación de contenido de audio, que permite a los clientes ajustar mediante una interfaz de usuario intuitiva.

Si su caso de uso implica vocabulario especializado o contenido específico del dominio, considere la posibilidad de usar la característica de léxico personalizada para mejorar la capacidad del sistema para pronunciar y transmitir con precisión términos o frases específicos del dominio.

Evaluación de la conversión de texto a voz

Métodos de evaluación

Algunas métricas usadas habitualmente para evaluar el rendimiento general del sistema de texto a voz incluyen:

  • Brecha de la puntuación de opinión media (MOS) con grabación humana: normalmente se usa para comparar la calidad del modelo de voz de texto a voz frente a una grabación humana. Se espera que la calidad de un modelo de voz creado mediante voz neural personalizada sea similar a la de una grabación humana, con una diferencia de no más de 0,5 en la puntuación MOS.
  • Para la voz neuronal personalizada, también puede usar Similarity MOS (SMOS) para medir la similitud de los sonidos de voz personalizados en comparación con las grabaciones humanas originales. Con los estudios de SMOS, se pide a los jueces que escuchen un conjunto de pistas de audio emparejadas, una generada mediante la voz personalizada, la otra de las grabaciones humanas originales en los datos de entrenamiento, y valorar si las dos pistas de audio de cada par son habladas por la misma persona, usando una escala de cinco puntos (1 siendo la más baja, 5 el más alto). La puntuación media se notifica como puntuación de SMOS. Se recomienda que una buena voz neuronal personalizada logre un SMOS superior a 4.0.
  • Además de medir la naturalidad con MOS y SMOS, también puede evaluar la inteligibilidad del modelo de voz comprobando la precisión de pronunciación de la voz generada. Esto se hace al hacer que los jueces escuchen un conjunto de muestras de prueba, determinando si pueden entender el significado y indicar palabras que les resultaron ininteligibles. La tasa de inteligibilidad se calcula utilizando el porcentaje de las palabras correctamente inteligibles entre el número total de palabras probadas (es decir, el número de palabras inteligibles/el número total de palabras probadas * 100%). Normalmente, un texto utilizable para el motor de voz debe alcanzar una puntuación de > 98% para la inteligibilidad.

Resultados de la evaluación

El texto a voz ofrece de forma coherente voz sintetizada de alta calidad y natural, cumpliendo los requisitos de diversos sectores y dominios. Nuestras evaluaciones incluyen pruebas exhaustivas de los datos de entrenamiento y prueba del sistema, lo que garantiza que representa los usos previstos y los factores operativos encontrados en escenarios reales, así como pruebas de muestras de salidas de voz sintetizadas.

Los resultados de la evaluación han influido en las decisiones sobre las restricciones en el diseño del sistema, como el tamaño máximo de caso y la cantidad mínima de datos de entrenamiento necesarios. Al analizar el rendimiento del sistema en distintos conjuntos de datos, configuraciones y parámetros, se han establecido restricciones adecuadas para optimizar el comportamiento, la confiabilidad y la seguridad del sistema.

Aunque la evaluación abarca una amplia gama de casos de uso, es importante tener en cuenta que los resultados son generalizables en cierta medida en los casos de uso que no formaron parte directa de la evaluación. La solidez y el rendimiento del sistema proporcionan confianza en su capacidad para controlar varios escenarios, incluidos los que pueden no haberse probado explícitamente.

Estas son algunas pruebas recomendadas y intervalos de puntuación en función de nuestra experiencia:

Medición Definición Cómo se calcula Tamaño de texto recomendado Puntuación recomendada
MOS Puntuación media de opinión de la calidad de las pistas de audio Promedio de las puntuaciones de clasificación de cada juez en cada audio > 30 pistas de audio generadas > 4.0 (normalmente requiere que el MOS de la grabación humana sea superior a 4.5)
Brecha de MOS La diferencia de puntuación de MOS entre las grabaciones humanas y las pistas de audio generadas La puntuación MOS en las grabaciones humanas menos la puntuación MOS en las pistas de audio generadas > 10 grabaciones humanas, > 30 pistas de audio generadas, > 20 jueces en cada audio < 0.5
SMOS La similitud de las pistas de audio generadas con las grabaciones humanas Promedio de las puntuaciones de clasificación del nivel de similitud en cada par de pistas de audio > 40 pares, > 20 jueces en cada par > 4.0, > 3.5 (idioma secundario)
Inteligibilidad Precisión de pronunciación de la voz generada a nivel de palabras Porcentaje de las palabras correctamente inteligibles entre el número total de palabras probadas > 60 pistas de audio generadas, > 10 jueces en cada audio > 98%

Evaluación e integración de texto a voz para tu uso

A continuación se muestran algunos procedimientos recomendados para ayudarle a integrar de forma responsable las características de texto a voz en los casos de uso.

Divulgación de cuando la voz es sintética

La divulgación de que una voz es generada por ordenador no solo minimiza el riesgo de resultados perjudiciales de engaños, sino que también aumenta la confianza en la organización que suministra la voz. Obtenga más información sobre cómo revelar.

Microsoft requiere que sus clientes revelen la naturaleza sintética de las voces de texto a voz a sus usuarios.

  • Asegúrese de proporcionar una divulgación adecuada a las audiencias, especialmente cuando se usa la voz de una persona conocida. Las personas toman juicios sobre la información basada en parte en la persona que la entrega, ya sea consciente o inconscientemente. Por ejemplo, una divulgación podría compartirse verbalmente al comienzo de una emisión. Para obtener más información, visite patrones de divulgación.
  • Considere la divulgación adecuada a los padres u otras partes con casos de uso diseñados para o pueden usarse en situaciones que impliquen a menores e hijos. Si su caso de uso está destinado a menores o niños, deberá asegurarse de que su divulgación sea clara y transparente para que los padres o tutores legales puedan comprender el papel de los medios sintéticos y tomar una decisión informada en nombre de menores o niños sobre si usar la experiencia.

Revelar cuando el video del avatar es sintético

La divulgación de que un vídeo donde un avatar habla es generado por computadora no solo minimiza el riesgo de resultados perjudiciales por engaño, sino que también aumenta la confianza en la organización que lo presenta. Obtenga más información sobre cómo revelar.

Microsoft requiere que sus clientes revelen a sus usuarios la naturaleza sintética de los avatares de texto a voz.

  • Asegúrese de proporcionar una divulgación adecuada a las audiencias, especialmente al usar la imagen (y la voz) de una persona conocida. Las personas toman juicios sobre la información basada en parte en la persona que la entrega, ya sea consciente o inconscientemente. Por ejemplo, una divulgación podría realizarse con una marca de agua, como "La voz y la imagen de este vídeo son generadas por IA", en texto o comunicada verbalmente al inicio del vídeo. Para obtener más información, visite patrones de divulgación.
  • Considere la divulgación adecuada a los padres u otras partes con casos de uso diseñados para o pueden usarse en situaciones que impliquen a menores e hijos. Si su caso de uso está destinado a menores o niños, deberá asegurarse de que su divulgación sea clara y transparente para que los padres o tutores legales puedan comprender el papel de los medios sintéticos y tomar una decisión informada en nombre de menores o niños sobre si usar la experiencia.

Selección de los tipos de voz adecuados para su escenario

Considere cuidadosamente el contexto de uso y los posibles daños asociados al uso de las voces de texto a voz o avatares. Por ejemplo, es posible que las voces sintéticas de alta fidelidad no sean adecuadas en escenarios de alto riesgo, como para mensajes personales, transacciones financieras o situaciones complejas que requieren capacidad de adaptación o empatía humanas.

Los usuarios también pueden tener expectativas diferentes para los tipos de voz y expresiones de avatar o gestos, en función del contexto. Por ejemplo, al escuchar noticias confidenciales leídas por una voz sintética, algunos usuarios prefieren un tono más empático y similar al humano, mientras que otros prefieren una voz neutra. Considere la posibilidad de probar la aplicación para comprender mejor las preferencias del usuario.

Ser transparente acerca de las funcionalidades y limitaciones

Es más probable que los usuarios tengan mayores expectativas al interactuar con agentes de voz sintética de alta fidelidad. Cuando las funcionalidades del sistema no cumplen esas expectativas, la confianza puede sufrir y puede dar lugar a experiencias desagradables o incluso perjudiciales.

Proporcionar soporte técnico humano opcional

En escenarios ambiguos y transaccionales (por ejemplo, un centro de soporte técnico de llamadas), los usuarios no siempre confían en que un agente de equipo responda adecuadamente a sus solicitudes. El apoyo humano puede ser necesario en estas situaciones, independientemente de la calidad realista de la voz o capacidad del sistema.

Consideraciones para el talento de voz

Cuando los clientes trabajan con talento de voz para crear voz neuronal personalizada, se aplican las directrices siguientes.

  • El talento de voz debe tener control sobre su modelo de voz (cómo y dónde se usará) y ser compensado por su uso. Microsoft requiere que los clientes de voz neuronal personalizados obtengan permiso explícito por escrito del talento de voz para crear una voz sintética y asegurarse de que el acuerdo del cliente con cada individuo contempla la duración, el uso y las limitaciones de contenido. Si va a crear una voz sintética de una persona conocida, debe proporcionar una manera de que el actor de voz edite o apruebe el contenido de la salida que planea generar con el modelo de voz.
  • Algunos talentos de voz pueden no ser conscientes de posibles usos malintencionados de la tecnología y deben ser educados por los propietarios del sistema sobre las capacidades de la tecnología. Microsoft requiere que los clientes compartan la Información de talento del avatar y actor de voz de Microsoft directamente con el actor de voz o su representante autorizado, en la que se describe cómo se desarrollan las voces sintéticas y su funcionamiento junto con los servicios de texto a voz.

Consideraciones sobre el talento de avatares

Cuando los clientes trabajan con talento de avatar para crear avatares personalizados, se aplican las directrices siguientes.

  • Los talentos que utilizan avatares deben tener control sobre su modelo de avatar (cómo y dónde se usará) y ser compensados por su uso. Microsoft requiere que los clientes de avatares personalizados obtengan permiso explícito por escrito de su talento de avatar para crear un avatar de texto a voz sintético y asegurarse de que el acuerdo del cliente con cada individuo contemple la duración, el uso y las limitaciones de contenido. Si va a crear un avatar personalizado de una persona conocida, debe proporcionar una manera para que el actor de avatar edite o apruebe el contenido de la salida que planea generar con el modelo de voz.
  • Algunos talentos de avatar pueden no ser conscientes de posibles usos malintencionados de la tecnología y deben ser educados por los propietarios del sistema sobre las capacidades de la tecnología. Microsoft requiere que los clientes compartan la Información de talento de avatar y actor de voz de Microsoft directamente con el talento del avatar o su representante autorizado, en la que se describe cómo se desarrolla el vídeo del avatar sintético y su funcionamiento junto con los servicios de texto a voz.

Consideraciones para las personas con trastornos del habla

Al trabajar con individuos con trastornos del habla para crear o implementar tecnología de voz sintética, se aplican las siguientes directrices.

Proporcionar directrices para contratos con talento en escenarios de accesibilidad

Los clientes deben desarrollar directrices para establecer contratos con personas que usan voces sintéticas para obtener ayuda en el habla. Los clientes deben considerar la posibilidad de especificar en sus contratos con personas la duración del uso, la transferencia de propiedad o los criterios de licencia, los procedimientos para eliminar el modelo de voz y cómo evitar el acceso no autorizado.

Tener en cuenta las incoherencias en los patrones de voz

En el caso de las personas con trastornos del habla que registran sus propias fuentes de voz, las incoherencias en su patrón de habla (mala pronunciación o incapacidad de pronunciar ciertas palabras) pueden complicar el proceso de grabación. En estos casos, la tecnología sintética de voz y las sesiones de grabación deben diseñarse con los alojamientos adecuados determinados por el cliente (por ejemplo, proporcionar interrupciones o sesiones de grabación adicionales).

Permitir la modificación a lo largo del tiempo

Las personas con trastornos del habla pueden querer actualizar su voz sintética para reflejar los cambios debido al envejecimiento u otros factores. Las personas también pueden tener preferencias estilísticas que cambien con el tiempo y pueden querer realizar cambios en el tono, énfasis u otras características de voz.

Obtener más información sobre la IA responsable

Más información sobre Azure Speech