En este artículo se responden las preguntas más frecuentes sobre la funcionalidad de texto a voz (TTS). Si no encuentra respuestas a sus preguntas aquí, consulte otras opciones de soporte técnico.
General
¿Cómo funciona la facturación de texto a voz?
El uso de texto a voz se factura por carácter. Compruebe la definición de caracteres facturables en el modelo de precios.
¿Cuál es el límite de la tasa de las solicitudes de síntesis de texto a voz?
La tasa de síntesis de texto a voz se escala automáticamente a medida que recibe más solicitudes. Se establece un límite de tasa predeterminado por recurso de voz. La tasa es ajustable con justificaciones comerciales y no se incurre en cargos adicionales por el aumento del límite de tasa. Puede encontrar más detalles en Cuotas y límites del servicio de voz.
¿Cómo revelaríamos al usuario final que la voz es una voz sintética?
Se recomienda que todos los usuarios sigan nuestro código de conducta al usar la funcionalidad de texto a voz. Hay varias maneras de revelar la naturaleza sintética de la voz, incluyendo la firma implícita y explícita. Consulte las Directrices de diseño de divulgación.
¿Cómo puedo reducir la latencia de mi aplicación de voz?
Proporcionamos varias sugerencias para reducir la latencia y aportar el mejor rendimiento a los usuarios. Consulte Menor latencia de síntesis de voz mediante el SDK de Voz.
¿Qué formatos de audio de salida admite texto a voz?
Texto a voz de Azure AI admite varios formatos de audio de streaming y que no son de streaming, con las velocidades de muestreo más usadas. Todas las voces estándar TTS se crean para admitir salidas de audio de alta fidelidad con 48 kHz y 24 kHz. El audio se puede volver a muestrear para admitir otras tarifas según sea necesario. Consulte Salidas de audio.
¿Se puede personalizar la voz para hacer hincapié en palabras específicas?
El ajuste del énfasis se admite para algunas voces en función de la configuración regional. Consulte la etiqueta de énfasis.
¿Podemos tener varias intensidades para cada emoción, como estar triste, ligeramente triste y así sucesivamente?
El ajuste del grado de estilo se admite para algunas voces en función de la configuración regional. Consulte la etiqueta mstts:express-as.
¿Hay una asignación entre los identificadores visema y la forma de la boca?
Sí. Consultar Obtención de la posición facial con visema.
Creación de contenido de audio
¿Cómo puedo hacer referencia a un archivo léxico que he creado en la plataforma de creación de contenido de audio en mi código?
En primer lugar, puede abrir el archivo léxico en la creación de contenido de audio y obtener el identificador de archivo léxico, que se encuentra antes de "?fileKind=CustomLexiconFile" en la ruta de acceso del archivo. Por ejemplo, si la ruta de acceso del archivo es https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile
, el identificador de archivo léxico es 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c
. A continuación, cambie un archivo que haga referencia a este léxico al formato SSML en la creación de contenido de audio. En el archivo SSML, busque el nodo xml <!--ID=FCB
, donde puede encontrar el URI del archivo léxico en función del identificador de archivo mencionado. Por último, haga referencia al vínculo URI del archivo léxico mediante el elemento léxico SSML en el código. Por ejemplo, si busca el nodo XML <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}}
, puede obtener el URI del archivo léxico https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml
.
Ajuste de la voz profesional
¿Cuántos datos se requieren para el ajuste de voz profesional?
Necesita datos de entrenamiento de al menos 300 líneas de grabaciones (o aproximadamente 30 minutos de voz) para el ajuste de voz profesional. Se recomiendan 2000 líneas de grabaciones (o aproximadamente 2-3 horas de voz) para crear una voz para su uso en producción. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.
¿Podemos incluir oraciones de texto duplicadas en el mismo conjunto de datos de entrenamiento?
No. El servicio marcará las oraciones duplicadas y solo mantendrá la primera importada. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.
¿Podemos incluir varios estilos en el mismo conjunto de datos de entrenamiento?
Se recomienda mantener un estilo coherente en un conjunto de datos de formación. Si los estilos son diferentes, colóquelos en conjuntos de formación diferentes. En este caso, considere la posibilidad de usar el método de entrenamiento de estilo múltiple de la optimización de voz profesional. Para conocer los criterios de selección de script, consulte Grabación de ejemplos de voces personalizadas.
¿Funciona el cambio de estilos a través de SSML para voces personalizadas?
Cambiar los estilos a través de SSML funciona tanto para voces estándar de estilo múltiple como para voces personalizadas de varios estilos. Con el entrenamiento de varios estilos, podrá crear una voz que hable en diferentes estilos y también podrá ajustar estos estilos a través de SSML.
¿Cómo funciona la voz entre idiomas con diferentes estructuras de pronunciación y ensamblados?
La estructura de oraciones y la pronunciación varían naturalmente entre idiomas, como el inglés y el japonés. Cada voz neuronal se entrena con datos de audio grabados por un actor de voz nativo hablando. Para voces entre idiomas, transferimos las características principales, como el timbre, para sonar como el hablante original y conservamos la pronunciación correcta. Por ejemplo, una voz entre idiomas usa la manera nativa de hablar japonesa y seguirá sonando similar (pero no exactamente) como el hablante inglés original.
¿Puedo usar el ajuste de voz profesional para personalizar la pronunciación de mi dominio?
El ajuste de voz profesional le permite crear una voz de marca para su negocio. También puede optimizarla para el dominio. Se recomienda incluir ejemplos específicos del dominio en los datos de entrenamiento para lograr una mayor naturalidad. Sin embargo, la pronunciación se define mediante el servicio voz de forma predeterminada. No se admite la personalización de pronunciación con ajuste de voz profesional. Si deseara personalizar la pronunciación de la voz, use SSML. Consulte Pronunciación con Lenguaje de marcado de síntesis de voz (SSML).
¿Después de un entrenamiento podré entrenar mi voz de nuevo?
Puede entrenar de nuevo. Cada entrenamiento crea un nuevo modelo de voz. Se le cobrará por cada entrenamiento.
¿La versión del modelo es la misma que la versión del motor?
No. La versión del modelo es diferente de la versión del motor. La versión del modelo representará la versión de la fórmula de entrenamiento del modelo y varía según las características admitidas y el tiempo de entrenamiento del modelo. Los motores de texto a voz de servicios de Azure AI se actualizarán de vez en cuando para capturar el modelo de lenguaje más reciente que defina la pronunciación del lenguaje. Después de entrenar la voz, puede aplicarla al nuevo modelo de lenguaje mediante una actualización a la versión más reciente del motor. Cuando haya un nuevo motor disponible, se le pedirá que actualice el modelo de voz neuronal. Consulte Actualización de la versión del motor del modelo de voz.
¿Podemos limitar el número de entrenamientos con Azure Policy u otras características? ¿O hay alguna manera de evitar entrenamientos falsos?
Si desea limitar el permiso del entrenamiento, podría limitar los roles de usuario y el acceso. Consulte Control de acceso basado en roles de recursos de voz.
¿Puede Microsoft agregar un mecanismo para evitar el uso no autorizado o el uso incorrecto de nuestra voz cuando se crea?
El modelo de voz solo se puede usar con su propio token por ustedes mismos. Microsoft tampoco usa los datos. Consulte Datos, privacidad y seguridad. También puede solicitar agregar marcas de agua a la voz para proteger el modelo. Consulte TTS neuronal de Microsoft Azure presenta el algoritmo de marca de agua para la identificación de voz sintética.
¿Tiene alguna sugerencia sobre contratos o negociaciones con actores de voz?
No tenemos recomendaciones sobre contratos y depende del cliente y del actor de voz negociar los términos. Sin embargo, debe asegurarse de que el actor de voz comprenda las capacidades de texto a voz, incluidos sus posibles riesgos, y que proporcione consentimiento explícito para crear una versión sintética de su voz tanto en el contrato como en una declaración verbal. Consulte Divulgación para actores de voz.
¿Es necesario devolver el permiso escrito del actor de voz a Microsoft?
Microsoft no necesita el permiso por escrito, pero deberá obtener el consentimiento de su actor de voz. El actor de voz también será necesario para grabar la declaración de consentimiento y deberá cargarse en Speech Studio antes de que el entrenamiento pueda comenzar. Consulte Configuración del talento de voz para el ajuste de voz profesional.