Compartir a través de


Divulgación de talentos de voz y avatares

Importante

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para obtener la versión definitiva.

El objetivo de este artículo es ayudar a los talentos de voz y avatar a comprender la tecnología detrás de las capacidades de texto a voz que sus voces e imágenes ayudan a crear. También contiene divulgaciones de privacidad importantes para el talento sobre cómo Microsoft puede procesar, usar y conservar archivos de audio y vídeo que contienen las voces e imágenes grabadas del talento y ayuda a Microsoft a evitar, o responder a quejas de, mal uso indebido de Las herramientas de Foundry.

Microsoft se compromete a diseñar la inteligencia artificial de forma responsable. Esperamos que esta nota promueva una mayor comprensión compartida entre los creadores tecnológicos, el talento de voz, el talento de avatar y el público general sobre los usos previstos y beneficiosos de esta tecnología.

Términos clave de texto a voz

Modelo de voz: Un modelo informático de texto a voz que puede imitar las características vocales únicas de un hablante objetivo. Un modelo de voz también se denomina fuente de voz o voz sintética. Un modelo de voz es un conjunto de parámetros en formato binario que no es legible y no contiene grabaciones de audio. No se puede aplicar ingeniería inversa para derivar o construir las grabaciones de audio de un ser humano hablando.

Talento de voz: Individuos o hablantes de destino cuyas voces se graban y se usan para crear modelos de voz destinados a sonar como la voz del actor de voz.

Modelo de avatar: Un modelo de avatar de texto a voz que puede imitar características faciales únicas de un actor objetivo. Un modelo de avatar es un conjunto de parámetros en formato binario que no es legible para humanos y no contiene grabaciones de vídeo o audio. No se puede realizar ingeniería inversa para derivar o construir grabaciones de video de una persona actuando.

Talento de avatar: La creación de modelos de avatar de texto a voz personalizados requiere entrenamiento con la grabación de vídeo de una persona real hablando. Esta persona es el talento del avatar. Los clientes deben obtener el consentimiento suficiente de acuerdo con todas las leyes y regulaciones pertinentes del talento del avatar para usar su imagen para crear un avatar personalizado.

Cómo funciona la conversión neuronal de texto a voz

Cómo funciona: El texto neuronal a voz sintetiza la voz mediante redes neuronales profundas que han "aprendido" la manera en que se combinan fonéticas en voz humana natural en lugar de usar métodos estadísticos o de programación clásicos. Además de las grabaciones de un actor de voz determinado, el texto a voz neuronal usa una biblioteca de origen que contiene grabaciones de voz de muchos altavoces diferentes.

Qué saber sobre esto: Debido a la forma en que sintetiza voces, el texto neuronal a la voz puede producir estilos de voz que no formaban parte de las grabaciones originales, como los cambios en el tono de voz y la afectación. Las voces de texto a voz neuronales suenan fluidas y son buenas para replicar las pausas naturales, las idiosincrasias y la duda que las personas expresan cuando hablan. Aquellos que escuchan voces sintéticas generadas mediante la conversión neuronal de texto a voz tienden a valorarlas como más similares a la voz humana que las voces estándar de texto a voz.

Ejemplos de cómo lo usa Microsoft:

  • La voz neuronal precompilada es una característica de texto a voz que ofrece modelos de voz "listos para usar" para el cliente. Las voces neuronales precompiladas también se usan en varios productos de Microsoft, como edge Browser, Narrator, Office y Teams.
  • La voz neuronal personalizada es una característica de texto a voz que permite la creación de modelos de voz sintética únicos y personalizados. A continuación se muestran las funcionalidades de voz neuronal personalizada:
    • La transferencia de idioma puede manifestarse en un idioma diferente al de las grabaciones de voz originales.
    • La transferencia de estilo puede expresarse en un estilo de habla diferente de las grabaciones de voz originales. Por ejemplo, una voz de noticiero.
    • La transformación de voz puede expresarse de una manera diferente de las grabaciones de voz originales. Por ejemplo, modificar el tono o la entonación para crear diferentes voces de personajes.
    • Otras voces usadas en los productos y servicios de Microsoft, como Cortana.

Qué esperar al grabar: Contribuyendo al menos 300 líneas para un modelo de voz de prueba de concepto y aproximadamente 2000 líneas para generar un nuevo modelo de voz para su uso en producción.

Funcionamiento del avatar de conversión de texto a voz

Cómo funciona: El avatar de texto a voz se basa en la voz neuronal precompilada y la voz neuronal personalizada, y sintetiza el contenido de vídeo del avatar con texto sincronizado con voz neuronal precompilada o voz neuronal personalizada. El proceso de síntesis usa redes neuronales profundas entrenadas en modelos que se desarrollan en función de grabaciones de vídeo de talento de avatar. Los modelos se entrenan con las características acústicas extraídas de los elementos de audio de la grabación, y características físicas, movimientos de boca, expresiones faciales y elementos visuales relacionados extraídos de los elementos de vídeo de la grabación.

Qué saber sobre esto: El avatar sintetizado de texto a voz tiene una cara, un cuerpo y movimientos que se asemejan estrechamente al talento del avatar, pero la voz del avatar de texto a voz puede generarse a partir de cualquiera de las voces neuronales preconstruidas que Microsoft pone a disposición o de una voz neuronal personalizada, incluyendo cuando el talento de voz es la misma persona que el talento de avatar, siempre y cuando el individuo haya autorizado dicho uso.

Ejemplos de cómo lo usa Microsoft:

  • El avatar de texto a voz preconfigurado es una característica de Azure Speech en Foundry Tools que ofrece modelos de avatar de texto a voz "listos para usar" para su utilización por parte del cliente.
  • El avatar de texto a voz personalizado es una característica de Texto a Voz de Azure que permite la creación de modelos de avatar de voz sintéticos personalizados y únicos.

Qué esperar al grabar: deberá contribuir al menos 10 minutos de grabación de vídeo para un modelo de avatar personalizado de prueba de concepto y unos 20 minutos de grabación de vídeo para producir un modelo de avatar personalizado completo para su uso en producción.

Talento de voz y voces sintéticas: una relación en evolución

Reconociendo la relación integral entre el talento de voz y las voces sintéticas, Microsoft entrevistó al talento de voz para comprender mejor sus perspectivas sobre los nuevos desarrollos en la tecnología. Las investigaciones realizadas en 2019 mostraron que el talento de voz vio las posibles ventajas de las funcionalidades introducidas por el texto neuronal a la voz, como ahorrar tiempo de estudio para completar trabajos de grabación y agregar capacidad para completar más asignaciones de actuación de voz. Al mismo tiempo, hubo diferentes grados de conciencia sobre cómo los avances en la tecnología de texto a voz podrían afectar potencialmente a su profesión.

En general, el talento de voz expresó un deseo de transparencia y claridad sobre:

  • Límites sobre lo que su imitación de voz podía y no podía usarse para expresar.
  • Duración del uso permitido de su similaridad de voz.
  • Posible impacto en futuras oportunidades de grabación.
  • El rol que se asociaría a su similaridad de voz.

Voz sintética en uso más amplio

Tradicionalmente, las voces de texto a voz estaban limitadas en la adopción debido a su sonido robótico. La mayoría se usaron para admitir la accesibilidad, por ejemplo, como lector de pantalla para personas ciegas o con poca visión. Las voces de texto a voz también han sido utilizadas por personas con discapacidades de voz. Por ejemplo, el último Stephen Hawking usó un texto para la voz generada por voz.

Ahora, con las voces sintéticas cada vez más realistas y la expansión en interacciones más familiares y cotidianas entre máquinas y seres humanos, los usos de esta tecnología han proliferado y ampliado. Los sistemas de conversión de texto a voz impulsan a los asistentes de voz en una variedad de dispositivos y aplicaciones. Leen noticias, resultados de búsqueda, anuncios de servicios públicos, contenido educativo y mucho más.

Avatar sintético en un uso más amplio

Al igual que las voces de texto a voz, los avatares ahora ofrecen apariencias realistas, movimientos y expresiones faciales combinadas con voces realistas. Estos avatares de habla pueden usarse en diversas situaciones, como presentar contenido en un entrenamiento en línea, presentar una voz en nombre de una empresa, interactuar con los clientes en la configuración de servicio al cliente y mucho más.

Enfoque de Microsoft para el uso responsable de texto a voz

Cada día, las personas encuentran nuevas formas de aplicar texto a la tecnología de voz, y no todos son para el bien de las personas o la sociedad. Si se usan incorrectamente, las voces de texto a voz que suenan de forma razonable o los avatares que hablan de forma realista podrían causar algún daño. Por ejemplo, una campaña de información errónea podría ser mucho más potente si utilizaba la voz y la imagen de una figura pública conocida.

Reconocemos que no hay ninguna manera perfecta de evitar que los medios se modifiquen o para demostrar inequívocamente de dónde procede. Por lo tanto, nuestro enfoque para el uso responsable se ha centrado en ser transparente sobre las características de texto a voz de Azure al limitar los usos permitidos de las versiones personalizadas de estas funciones y demostrando nuestros valores a través de nuestras acciones.

Si usa productos o servicios de Microsoft para procesar datos biométricos, usted es responsable de: (i) proporcionar aviso a los interesados, incluidos los períodos de retención y la destrucción; (ii) obtener consentimiento de los interesados; y (iii), eliminar los datos biométricos, todos según corresponda y requeridos en los requisitos de protección de datos aplicables. "Datos biométricos" tendrá el significado establecido en el artículo 4 del GDPR y si procede, términos equivalentes en otros requisitos de protección de datos.

Para usar la voz neuronal personalizada, se requiere contractualmente a los clientes que realicen lo siguiente:

  • Obtenga permiso explícito por escrito del actor de voz para usar la voz de esa persona con el fin de crear una voz neuronal personalizada.
  • Proporcione este documento al talento de voz para que puedan comprender cómo funciona el texto a la voz y cómo se puede usar una vez que completen el proceso de grabación de audio.
  • Obtenga los permisos necesarios del talento de voz para el procesamiento, el uso y la retención de archivos de audio del talento de voz para realizar la verificación del hablante en los datos de entrenamiento y para el uso y retención de modelos de voz de Microsoft, tal como se describe a continuación.

También se recomienda que los clientes hagan lo siguiente:

  • Comparta los contextos de uso previstos con el talento de voz para que sean conscientes de quién escuchará su voz, en qué escenarios y si las personas podrán interactuar con él.
  • Asegúrese de que el talento de voz tenga en cuenta que un modelo de voz hecho a partir de sus grabaciones puede decir cosas que no grabaron específicamente en el estudio.
  • Analice si hay algo que sería incómodo con el modelo de voz que se usa para decir.

Procesamiento, uso y retención de datos de Microsoft

Uso de Microsoft de archivos de audio de talento de voz para la verificación del hablante

Los clientes deben obtener permiso del talento de voz para usar su voz para crear modelos de voz personalizados para una voz sintética. Esta protección técnica está pensada para ayudar a evitar el uso indebido de nuestro servicio, por ejemplo, evitando que alguien entree modelos de voz con grabaciones de audio y use los modelos para suplantar una voz sin el conocimiento o consentimiento del hablante.

En Speech Studio, debe cargar un archivo de audio con una declaración de confirmación grabada del actor de voz. Microsoft se reserva el derecho de utilizar la tecnología de reconocimiento de hablantes de Microsoft en esta declaración de reconocimiento grabada y verificarla con los datos de audio de entrenamiento para confirmar que las voces provinieron del mismo hablante, o según sea necesario para investigar el uso indebido de Azure Speech.

Las firmas de voz del hablante creadas a partir de los archivos de instrucción de confirmación grabados y los datos de audio de entrenamiento se usan únicamente por Microsoft con los fines indicados anteriormente. Microsoft conservará el archivo de instrucciones grabadas durante el tiempo necesario para conservar la seguridad y la integridad de las herramientas de foundry de Microsoft. Obtenga más información sobre cómo procesamos, usamos y conservamos los datos en el documento Datos, privacidad y seguridad.

Uso de modelos personalizados de Microsoft

Aunque los clientes mantienen los derechos de uso exclusivos a su modelo de voz neuronal personalizada, Microsoft puede conservar de forma independiente una copia de los modelos de voz neuronal personalizados siempre que sea necesario. Microsoft puede usar el modelo de voz neuronal personalizado para proteger la seguridad y la integridad de las herramientas de Foundry.

Microsoft protegerá y almacenará una copia de la declaración de confirmación grabada del actor de voz y los modelos de voz neuronal personalizados con la misma seguridad de alto nivel que usa para sus otros servicios de Azure. Obtenga más información en el Centro de confianza de Microsoft.

Seguiremos identificando y siendo explícitos sobre los usos intencionales, beneficiosos y previstos del texto para el discurso que se basan en normas sociales existentes y expectativas que las personas tienen en torno a los medios cuando creen que es real o falso. En consonancia con los principios de confianza de Microsoft, Microsoft no supervisa ni modera activamente el contenido de audio generado por el uso de voz neuronal personalizada. Los clientes son los únicos responsables de garantizar que el uso cumpla con todas las leyes y reglamentos aplicables y de acuerdo con los términos del acuerdo del cliente con el talento de voz.

Uso de datos de talento de voz de Microsoft con Custom Neural Voice Lite

Custom neural voice lite es un tipo de proyecto en versión preliminar pública que permite grabar muestras de voz de 20 a 50 en Speech Studio y crear un modelo de voz personalizado ligero para fines de demostración y evaluación. Microsoft define previamente el script de grabación y el script de prueba. Es posible que se implemente un modelo de voz sintética que cree con voz neuronal personalizada y se use más ampliamente solo si se aplica y recibe acceso completo a la voz neuronal personalizada (sujeto a los términos aplicables).

La voz sintética y la grabación de audio relacionada que envíe a través de Speech Studio se eliminarán automáticamente en un plazo de 90 días, a menos que obtenga acceso total a la voz neuronal personalizada y elija implementar la voz sintética, en cuyo caso controlará la duración de su retención. Si el talento de voz desea tener la voz sintética y las grabaciones de audio relacionadas eliminadas antes de 90 días, pueden eliminarlas directamente en el portal o ponerse en contacto con su empresa para hacerlo.

Además, para poder implementar cualquier modelo de voz sintética creado mediante un proyecto de voz neuronal personalizada lite, el talento de voz debe proporcionar una grabación adicional en la que confirmen que la voz sintética se usará con fines adicionales más allá de la demostración y evaluación.

Directrices para la implementación responsable

Dado que el texto a voz es una tecnología adaptable, hay áreas grises para determinar cómo debe o no usarse. Para navegar por ellos, hemos formulado las siguientes instrucciones para usar modelos sintéticos de voz y avatar:

  • Proteja a los propietarios de voces e imágenes/similares frente al uso indebido o al robo de identidad.
  • Evite la proliferación de contenido falso y engañoso.
  • Fomentar el uso en escenarios en los que los consumidores esperan interactuar con el contenido sintético.
  • Fomentar el uso en escenarios en los que los consumidores observan la generación del contenido sintético.

Ejemplos de uso inadecuado

No se debe utilizar Azure AI para la conversión de texto a voz.

  • Engañar a las personas y/o desinformar intencionalmente.
  • A efectos de publicidad falsa, incluyendo a través de anuncios en directo; Para reclamar ser de cualquier persona, empresa, organismo gubernamental o entidad sin permiso explícito para realizar esa representación;
  • Para suplantar a cualquier persona sin permiso explícito, incluida la obtención de información o privilegios;
  • Para crear, incitar o disfrazar el discurso de odio, discriminación, difamación, terrorismo o actos de violencia.
  • Para explotar o manipular niños;
  • Para realizar llamadas telefónicas no solicitadas, comunicaciones masivas, publicaciones o mensajes;
  • Para disfrazar posiciones políticas o ideologías políticas;
  • Para difundir contenido sin atribución o tergiversar las fuentes.

Ejemplos de uso adecuado

Los casos de uso adecuados pueden incluir, pero no se limitan a:

  • Agentes virtuales basados en personas ficticias. Por ejemplo, búsqueda web a petición, control de IoT o soporte técnico al cliente proporcionado por el carácter de marca de una empresa.
  • Medios de entretenimiento para su uso en contenido ficticio. Por ejemplo, películas, videojuegos, tv, música grabada o libros de audio.
  • Instituciones educativas acreditados o medios educativos. Por ejemplo, planes interactivos de lecciones o visitas guiadas a museos.
  • Tecnología de asistencia y traducción en tiempo real. Por ejemplo, los individuos afectados por ALS conservan sus voces.
  • Anuncios de servicio público mediante personajes ficticios. Por ejemplo, anuncios de aeropuerto o terminal de tren.
  • Publicidad/streaming en vivo: contenido publicitario, streaming en vivo asociado con marketing o venta de un producto. 

Consulte también