Q: ¿Hay una asignación entre los identificadores visema y la forma de la boca?

Sí. Consultar Obtención de la posición facial con visema .

Question 1

¿Cómo funciona la facturación de texto a voz?

Accepted Answer

El uso de texto a voz se factura por carácter. Compruebe la definición de caracteres facturables en el modelo de precios.

Question 2

¿Cuál es el límite de la tasa de las solicitudes de síntesis de texto a voz?

Accepted Answer

La tasa de síntesis de texto a voz se escala automáticamente a medida que recibe más solicitudes. Se establece un límite de tasa predeterminado por recurso de voz. La tasa es ajustable con justificaciones comerciales y no se incurre en cargos adicionales por el aumento del límite de tasa. Puede encontrar más detalles en Cuotas y límites del servicio de voz.

Question 3

¿Cómo revelaríamos al usuario final que la voz es una voz sintética?

Accepted Answer

Se recomienda que todos los usuarios sigan nuestro código de conducta al usar la funcionalidad de texto a voz. Hay varias maneras de revelar la naturaleza sintética de la voz, incluyendo la firma implícita y explícita. Consulte las Directrices de diseño de divulgación.

Question 4

¿Cómo puedo reducir la latencia de mi aplicación de voz?

Accepted Answer

Proporcionamos varias sugerencias para reducir la latencia y aportar el mejor rendimiento a los usuarios. Consulte Menor latencia de síntesis de voz mediante el SDK de Voz.

Question 5

¿Qué formatos de audio de salida admite texto a voz?

Accepted Answer

Texto a voz de Azure AI admite varios formatos de audio de streaming y que no son de streaming, con las velocidades de muestreo más usadas. Todas las voces estándar TTS se crean para admitir salidas de audio de alta fidelidad con 48 kHz y 24 kHz. El audio se puede volver a muestrear para admitir otras tarifas según sea necesario. Consulte Salidas de audio.

Question 6

¿Se puede personalizar la voz para hacer hincapié en palabras específicas?

Accepted Answer

El ajuste del énfasis se admite para algunas voces en función de la configuración regional. Consulte la etiqueta de énfasis.

Question 7

¿Podemos tener varias intensidades para cada emoción, como estar triste, ligeramente triste y así sucesivamente?

Accepted Answer

El ajuste del grado de estilo se admite para algunas voces en función de la configuración regional. Consulte la etiqueta mstts:express-as.

Question 8

¿Hay una asignación entre los identificadores visema y la forma de la boca?

Accepted Answer

Sí. Consultar Obtención de la posición facial con visema.

Question 9

¿Cómo puedo hacer referencia a un archivo léxico que he creado en la plataforma de creación de contenido de audio en mi código?

Accepted Answer

En primer lugar, puede abrir el archivo léxico en la creación de contenido de audio y obtener el identificador de archivo léxico, que se encuentra antes de "?fileKind=CustomLexiconFile" en la ruta de acceso del archivo. Por ejemplo, si la ruta de acceso del archivo es https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, el identificador de archivo léxico es 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. A continuación, cambie un archivo que haga referencia a este léxico al formato SSML en la creación de contenido de audio. En el archivo SSML, busque el nodo xml

Question 10

¿Cuántos datos se requieren para el ajuste de voz profesional?

Accepted Answer

Necesita datos de entrenamiento de al menos 300 líneas de grabaciones (o aproximadamente 30 minutos de voz) para el ajuste de voz profesional. Se recomiendan 2000 líneas de grabaciones (o aproximadamente 2-3 horas de voz) para crear una voz para su uso en producción. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.

Question 11

¿Podemos incluir oraciones de texto duplicadas en el mismo conjunto de datos de entrenamiento?

Accepted Answer

No. El servicio marcará las oraciones duplicadas y solo mantendrá la primera importada. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.

Question 12

¿Podemos incluir varios estilos en el mismo conjunto de datos de entrenamiento?

Accepted Answer

Se recomienda mantener un estilo coherente en un conjunto de datos de formación. Si los estilos son diferentes, colóquelos en conjuntos de formación diferentes. En este caso, considere la posibilidad de usar el método de entrenamiento de estilo múltiple de la optimización de voz profesional. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.

Question 13

¿Funciona el cambio de estilos a través de SSML para voces personalizadas?

Accepted Answer

Cambiar los estilos a través de SSML funciona tanto para voces estándar de estilo múltiple como para voces personalizadas de varios estilos. Con el entrenamiento de varios estilos, podrá crear una voz que hable en diferentes estilos y también podrá ajustar estos estilos a través de SSML.

Question 14

¿Cómo funciona la voz entre idiomas con diferentes estructuras de pronunciación y ensamblados?

Accepted Answer

La estructura de oraciones y la pronunciación varían naturalmente entre idiomas, como el inglés y el japonés. Cada voz neuronal se entrena con datos de audio grabados por un actor de voz nativo hablando. Para voces entre idiomas, transferimos las características principales, como el timbre, para sonar como el hablante original y conservamos la pronunciación correcta. Por ejemplo, una voz entre idiomas usa la manera nativa de hablar japonesa y seguirá sonando similar (pero no exactamente) como el hablante inglés original.

Question 15

¿Puedo usar el ajuste de voz profesional para personalizar la pronunciación de mi dominio?

Accepted Answer

El ajuste de voz profesional le permite crear una voz de marca para su negocio. También puede optimizarla para el dominio. Se recomienda incluir ejemplos específicos del dominio en los datos de entrenamiento para lograr una mayor naturalidad. Sin embargo, la pronunciación se define mediante el servicio voz de forma predeterminada. No se admite la personalización de pronunciación con ajuste de voz profesional. Si deseara personalizar la pronunciación de la voz, use SSML. Consulte Pronunciación con Lenguaje de marcado de síntesis de voz (SSML).

Question 16

¿Después de un entrenamiento podré entrenar mi voz de nuevo?

Accepted Answer

Puede entrenar de nuevo. Cada entrenamiento crea un nuevo modelo de voz. Se le cobrará por cada entrenamiento.

Question 17

¿La versión del modelo es la misma que la versión del motor?

Accepted Answer

No. La versión del modelo es diferente de la versión del motor. La versión del modelo representará la versión de la fórmula de entrenamiento del modelo y varía según las características admitidas y el tiempo de entrenamiento del modelo. Los motores de texto a voz de servicios de Azure AI se actualizarán de vez en cuando para capturar el modelo de lenguaje más reciente que defina la pronunciación del lenguaje. Después de entrenar la voz, puede aplicarla al nuevo modelo de lenguaje mediante una actualización a la versión más reciente del motor. Cuando haya un nuevo motor disponible, se le pedirá que actualice el modelo de voz neuronal. Consulte Actualización de la versión del motor del modelo de voz.

Question 18

¿Podemos limitar el número de entrenamientos con Azure Policy u otras características? ¿O hay alguna manera de evitar entrenamientos falsos?

Accepted Answer

Si desea limitar el permiso del entrenamiento, podría limitar los roles de usuario y el acceso. Consulte Control de acceso basado en roles de recursos de voz.

Question 19

¿Puede Microsoft agregar un mecanismo para evitar el uso no autorizado o el uso incorrecto de nuestra voz cuando se crea?

Accepted Answer

El modelo de voz solo se puede usar con su propio token por ustedes mismos. Microsoft tampoco usa los datos. Consulte Datos, privacidad y seguridad. También puede solicitar agregar marcas de agua a la voz para proteger el modelo. Consulte TTS neuronal de Microsoft Azure presenta el algoritmo de marca de agua para la identificación de voz sintética.

Question 20

¿Tiene alguna sugerencia sobre contratos o negociaciones con actores de voz?

Accepted Answer

No tenemos recomendaciones sobre contratos y depende del cliente y del actor de voz negociar los términos. Sin embargo, debe asegurarse de que el actor de voz comprenda las capacidades de texto a voz, incluidos sus posibles riesgos, y que proporcione consentimiento explícito para crear una versión sintética de su voz tanto en el contrato como en una declaración verbal. Consulte Divulgación para actores de voz.

Question 21

¿Es necesario devolver el permiso escrito del actor de voz a Microsoft?

Accepted Answer

Microsoft no necesita el permiso por escrito, pero deberá obtener el consentimiento de su actor de voz. El actor de voz también será necesario para grabar la declaración de consentimiento y deberá cargarse en Speech Studio antes de que el entrenamiento pueda comenzar. Consulte Configuración del talento de voz para el ajuste de voz profesional.

Compartir a través de

General

¿Cómo funciona la facturación de texto a voz?

¿Cuál es el límite de la tasa de las solicitudes de síntesis de texto a voz?

¿Cómo revelaríamos al usuario final que la voz es una voz sintética?

¿Cómo puedo reducir la latencia de mi aplicación de voz?

¿Qué formatos de audio de salida admite texto a voz?

¿Se puede personalizar la voz para hacer hincapié en palabras específicas?

¿Podemos tener varias intensidades para cada emoción, como estar triste, ligeramente triste y así sucesivamente?

¿Hay una asignación entre los identificadores visema y la forma de la boca?

Creación de contenido de audio

¿Cómo puedo hacer referencia a un archivo léxico que he creado en la plataforma de creación de contenido de audio en mi código?

Ajuste de la voz profesional

¿Cuántos datos se requieren para el ajuste de voz profesional?

¿Podemos incluir oraciones de texto duplicadas en el mismo conjunto de datos de entrenamiento?

¿Podemos incluir varios estilos en el mismo conjunto de datos de entrenamiento?

¿Funciona el cambio de estilos a través de SSML para voces personalizadas?

¿Cómo funciona la voz entre idiomas con diferentes estructuras de pronunciación y ensamblados?

¿Puedo usar el ajuste de voz profesional para personalizar la pronunciación de mi dominio?

¿Después de un entrenamiento podré entrenar mi voz de nuevo?

¿La versión del modelo es la misma que la versión del motor?

¿Podemos limitar el número de entrenamientos con Azure Policy u otras características? ¿O hay alguna manera de evitar entrenamientos falsos?

¿Puede Microsoft agregar un mecanismo para evitar el uso no autorizado o el uso incorrecto de nuestra voz cuando se crea?

¿Tiene alguna sugerencia sobre contratos o negociaciones con actores de voz?

¿Es necesario devolver el permiso escrito del actor de voz a Microsoft?

Pasos siguientes

Compartir a través de

Preguntas más frecuentes sobre la conversión de texto a voz

General

¿Cómo funciona la facturación de texto a voz?

¿Cuál es el límite de la tasa de las solicitudes de síntesis de texto a voz?

¿Cómo revelaríamos al usuario final que la voz es una voz sintética?

¿Cómo puedo reducir la latencia de mi aplicación de voz?

¿Qué formatos de audio de salida admite texto a voz?

¿Se puede personalizar la voz para hacer hincapié en palabras específicas?

¿Podemos tener varias intensidades para cada emoción, como estar triste, ligeramente triste y así sucesivamente?

¿Hay una asignación entre los identificadores visema y la forma de la boca?

Creación de contenido de audio

¿Cómo puedo hacer referencia a un archivo léxico que he creado en la plataforma de creación de contenido de audio en mi código?

Ajuste de la voz profesional

¿Cuántos datos se requieren para el ajuste de voz profesional?

¿Podemos incluir oraciones de texto duplicadas en el mismo conjunto de datos de entrenamiento?

¿Podemos incluir varios estilos en el mismo conjunto de datos de entrenamiento?

¿Funciona el cambio de estilos a través de SSML para voces personalizadas?

¿Cómo funciona la voz entre idiomas con diferentes estructuras de pronunciación y ensamblados?

¿Puedo usar el ajuste de voz profesional para personalizar la pronunciación de mi dominio?

¿Después de un entrenamiento podré entrenar mi voz de nuevo?

¿La versión del modelo es la misma que la versión del motor?

¿Podemos limitar el número de entrenamientos con Azure Policy u otras características? ¿O hay alguna manera de evitar entrenamientos falsos?

¿Puede Microsoft agregar un mecanismo para evitar el uso no autorizado o el uso incorrecto de nuestra voz cuando se crea?

¿Tiene alguna sugerencia sobre contratos o negociaciones con actores de voz?

¿Es necesario devolver el permiso escrito del actor de voz a Microsoft?

Pasos siguientes

Comentarios

Recursos adicionales