Configurar capacidades de voz

2025-05-12

Este artículo describe las características disponibles en Copilot Studio para la respuesta de voz interactiva con Dynamics 365 Customer Service.

Para preparar al agente para los servicios de voz, consulte Integrar un agente habilitado para voz con Dynamics 365 Customer Service.

Para obtener información general sobre los servicios de voz, consulte Usar la respuesta de voz interactiva en los agentes.

Modalidad de voz y DTMF

Un agente habilitado por voz es diferente de un agente basado en chat. El agente habilitado para voz incluye temas del sistema de voz para manejar escenarios de voz. Un agente basado en chat utiliza la modalidad de texto como predeterminada. Un agente habilitado para voz utiliza la modalidad de Voz y DTMF. Las dos modalidades no son compatibles entre sí.

Optimizar para voz le permite crear agentes habilitados para voz en diferentes modalidades y garantiza que las características relacionadas con la voz se creen correctamente.

Optimizar para voz

Si no inició su agente con la plantilla de voz, debe habilitar la opción Optimizar para voz en los Ajustes del agente.

Con un agente abierto, vaya a Configuración>Voz.
Seleccione Optimizar para voz. La opción Usar voz como modo de creación principal también está configurada de forma predeterminada.

El agente recibe las siguientes actualizaciones cuando habilita las opciones Optimizar para voz y Usar voz como modo Autor principal:

La capacidad de crear funciones de voz cuando se cambia de texto a Voz y DTMF.
Los temas del sistema de voz Detección de silencio, Voz no reconocida y Pulsación del teclado desconocida se agregan automáticamente para manejar escenarios relacionados con la voz.
Aumente la precisión con los datos del agente (activados de forma predeterminada), lo que mejora la precisión del reconocimiento de voz.
El flujo de agente existente no cambia (como el tema del Menú principal para iniciar conversaciones con desencadenadores DTMF asignados).

Importante

La configuración Optimizar para voz solo cambia las capacidades de creación de voz, no la configuración del canal. Active el canal de Telefonía para un agente totalmente habilitado para voz.
Además, configurar Optimizar para voz en un agente que no estaba configurado originalmente para las funciones de voz significa que el agente no tendrá el tema Menú principal (versión preliminar). Debe recrear ese tema, si es necesario.
Si no puede activar Optimizar para voz, compruebe el entorno de Power Platform que aloja a su agente y asegúrese de que Obtener nuevas características de forma anticipada está desactivado para ese entorno. Para obtener más información, consulte No se puede activar Optimizar para voz.

Deshabilitar la optimización para voz

Puede desactivar Optimizar para voz en la creación de agentes si no usa el canal de telefonía. Después de desactivar Optimizar para voz, obtendrá los siguientes cambios:

No hay creación de agentes para características de voz, como DTMF e interrupción.
Se establece la modalidad de texto predeterminada.
No hay mejoras en el reconocimiento de voz, ya que no hay reconocimiento de voz.
No hay temas de sistema de voz ni tema global de DTMF.

Nota

Algunos temas pueden informar de errores durante la publicación si siguen haciendo referencia al tema DTMF (ahora desactivado).
No hay cambios en la configuración del flujo y el canal del agente, ya que al desactivar la optimización no se elimina el canal de telefonía.
Habilitar o deshabilitar Optimizar para voz no surte efecto hasta que publique su agente. Si lo activa o desactiva accidentalmente y el agente cambia de modalidad, tiene tiempo para solucionarlo.

Importante

Si los canales de telefonía están habilitados, desactivar Optimizar para voz puede afectar el agente, ya que todos los desencadenadores DTMF se desactivan automáticamente.

Utilizar la voz como modo de creación principal

Se debe seleccionar la modalidad de voz y DTMF para cada nodo en la creación de funciones de voz. Puede seleccionar la preferencia de creación del agente como usar la voz como modo principal de creación. Esta configuración garantiza que todos los campos de entrada tengan la modalidad correcta. Si ya ha habilitado Optimizar para voz, la opción Utilizar la voz como modo de creación principal se habilita de forma predeterminada.

Disponibilidad de mensajes

Usar la modalidad de texto o voz puede afectar a su canal de manera diferente.

Modalidad de texto	Modalidad de voz	Canal de texto y voz del agente
Mensaje disponible	Mensaje vacío	Mensaje disponible
Mensaje vacío	Mensaje disponible	Mensaje no disponible

Reconocimiento de voz automático personalizado

Los agentes habilitados por voz para un dominio específico, como médico o financiero, pueden ver a los usuarios usar términos financieros o jerga médica. Algunos términos y jerga son difíciles de convertir de voz a texto para el agente habilitado para voz.

Para garantizar que la entrada de voz se reconozca con precisión, puede mejorar el reconocimiento de voz:

Con el agente abierto, selecciona Configuración>Voz.
Seleccione Aumentar la precisión con los datos del agente para habilitar la configuración predeterminada de reconocimiento automático de voz personalizada del agente.
Seleccione Guardar para confirmar los cambios.
Publique su agente para ver los nuevos cambios.

Referencia de opciones de voz a nivel de agente

La página de configuración de Detalles del Agente le permite configurar tiempos de espera para varias funciones relacionadas con la voz. La configuración aplicada en esta página se convierte en la predeterminada para los temas creados en su agente.

Para realizar cambios en las opciones de tiempo de espera a nivel de agente:

Con un agente abierto, seleccione Configuración>Voz.
Seleccione la configuración que desee y ajuste la configuración predeterminada del agente.
Seleccione Guardar para confirmar los cambios.

Configuración a nivel de agente

La siguiente tabla enumera cada opción y cómo se relaciona con la configuración de nivel de nodo.

Sección de nivel de agente habilitada para voz	Ajuste	Description	Default value	Sustitución en nivel de nodo
DTMF	Tiempo de espera entre dígitos	Tiempo máximo (milisegundos) permitido mientras se espera la siguiente entrada de clave de DTMF. Aplica entrada DTMF de varios dígitos solo cuando los usuarios no cumplen con la longitud máxima de entrada.	3000 ms	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos
DTMF	Tiempo de espera de terminación	Duración máxima (milisegundos) para esperar una clave de terminación de DTMF. El límite se aplica cuando el usuario alcanza la longitud máxima de entrada y no pulsó la tecla de terminación. Se aplica solo a la entrada DTMF de varios dígitos. Después de que se agote el tiempo de espera del límite y no llegue la clave DTMF de terminación, el agente finaliza el reconocimiento y devuelve el resultado hasta ese punto. Si se establece en "continuar sin esperar", el agente no espera la clave de terminación. El agente retorna inmediatamente después de que el usuario introduzca la longitud máxima.	2000 ms	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos
Detección de silencio	Tiempo de espera de detección de silencio	Silencio máximo (milisegundos) permitido mientras se espera la entrada de usuario. El límite se aplica cuando el agente no detecta ninguna entrada del usuario. El valor predeterminado es "sin tiempo de espera de silencio". El agente espera infinitamente la entrada del usuario. La detección de silencio para la voz multiplica el período posterior a que la voz termina de hablar.	Sin tiempo de espera de silencio	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos Tema de sistema (propiedades de desencadenador de detección de silencio) para Configurar la detección de silencio y los tiempos de espera
Recopilación de voz	Tiempo de espera de finalización de la expresión	El límite se aplica cuando el usuario hace una pausa durante o después del discurso. Si la pausa es más larga que el límite de tiempo de espera, el agente supone que el usuario ha terminado de hablar. El valor máximo para el tiempo de espera de finalización de la pronunciación es de 3000 ms. Todo lo que esté por encima de 3000 ms se reduce a 3000 ms.	1500 ms	Nodo de preguntas con propiedades de voz.
Recopilación de voz	Tiempo de espera de reconocimiento de voz	Determina cuánto tiempo permite el agente para la entrada del usuario una vez que comienza a hablar. El valor predeterminado es 12000 milisegundos (unos 12 segundos). Sin tiempo de espera de reconocimiento significa tiempo infinito. El agente vuelve a formular la pregunta. Si no hay respuesta, la voz está más allá del Tiempo de espera del reconocimiento de voz.	12,000 ms	Nodo de preguntas con propiedades de voz.
Mensajes de latencia	Retraso de envío del mensaje	Determina cuánto tiempo espera el agente antes de entregar el mensaje de latencia después de que se haya iniciado una solicitud de operación en segundo plano. El tiempo se establece en milisegundos.	500 ms	Propiedades del nodo de acción para operación de larga duración
Mensajes de latencia	Tiempo mínimo de reproducción	El mensaje de latencia se reproduce durante un período de tiempo mínimo, incluso si la operación en segundo plano se completa mientras se reproduce el mensaje. El tiempo se establece en milisegundos.	5000 ms	Propiedades del modo de acción para operación de larga duración
Sensibilidad de voz	Sensibilidad	Controla cómo el sistema equilibra la detección de voz y ruido de fondo. Reduzca la sensibilidad para entornos ruidosos, espacios públicos y funcionamiento con manos libres. Aumente la sensibilidad para entornos silenciosos, usuarios que hablan suavemente o detección de comandos de voz. La configuración predeterminada es 0.5.	0.5	No hay anulaciones a nivel de nodo para este control.

Habilitar interrupción

Habilitar la interrupción permite a los usuarios del agente interrumpir a su agente. Esta característica puede ser útil cuando no necesita que el usuario del agente escuche el mensaje completo. Por ejemplo, es posible que las personas que llaman ya conozcan las opciones del menú porque las escucharon en el pasado. Con la interrupción, el usuario del agente puede introducir la opción que desee, incluso si el agente no ha terminado de enumerar todas las opciones.

Escenarios de desactivación de interrupción

Deshabilite la interrupción si ha actualizado recientemente un mensaje del agente o si el mensaje de cumplimiento no debe interrumpirse.
Deshabilite la interrupción en el primer mensaje del agente para asegurarse de que los usuarios del agente conozcan la información nueva o esencial.

Especificaciones

La interrupción admite interrupciones basadas en DTMF y en voz del usuario del agente.
La interrupción se puede controlar con cada mensaje, en un solo lote. Coloque los nodos barge-in-disabled en secuencia antes de cada nodo donde se permite la interrupción. De lo contrario, la interrupción deshabilitada se trata como un mensaje de autorización de interrupción.

Una vez que finaliza la cola de un lote, la configuración automática de interrupción se restablece para el siguiente lote y se controla mediante el indicador de interrupción en cada mensaje posterior. Puede colocar nodos de interrupción deshabilitada a medida que la secuencia comienza nuevamente.

Propina

Si hay nodos de mensajes consecutivos, seguidos de un nodo de preguntas, los mensajes de voz para estos nodos se definen como un lote. Un lote comienza con un nodo de mensaje y se detiene en el nodo de pregunta, que está esperando la entrada del usuario.

Evite deshabilitar la interrupción para mensajes largos, especialmente si espera que los usuarios del agente interactúen con el agente con frecuencia. Si el usuario de su agente ya conoce las opciones del menú, permítale auto-servicio a donde quiera ir.

Configurar la interrupción

Con un nodo Mensaje o Pregunta seleccionado, establezca la modalidad deseada en Voz y DTMF.
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.
1. Para los nodos Mensaje, el panel Propiedades de actividad de envío se abre en el lateral del lienzo de creación.
  
  Seleccione Permitir interrupción.
2. Para los nodos Pregunta, se abre el panel Propiedades de la pregunta, luego seleccione Voz.
  
  En las propiedades de Voz, seleccione Permitir interrupción.
Guarde el tema.

Configurar la detección de silencio y los tiempos de espera

La detección de silencio le permite configurar cuánto tiempo espera el agente la entrada del usuario y la acción que realiza si no se recibe ninguna entrada. La detección de silencio es más útil en respuesta a una pregunta en el nivel del nodo o cuando el agente espera una frase desencadenante para comenzar un nuevo tema.

Puede configurar los tiempos de espera predeterminados para los temas.

Para reemplazar los valores por defecto de un nodo:

Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.

Se abre el panel de Propiedades de pregunta.

Seleccione Voz y realice ajustes en las siguientes configuraciones:

Opción de tiempo de espera de detección de silencio	Description
Configuración de uso del agente	El nodo utiliza la configuración global para la detección de silencio.
Deshabilitar para este nodo	El agente espera indefinidamente una respuesta.
Personalizar en milisegundos	El agente espera un tiempo específico antes de repetir la pregunta.

Acción alternativa

Puede configurar algunos comportamientos como acción alternativa:

Cuántas veces debe repetir el agente una pregunta
Qué debe decir el mensaje de repetición de solicitud
Qué debe hacer el agente después de un número especificado de repeticiones

Entrada de voz

Para la entrada de voz puede especificar:

Tiempo de espera al final de la expresión: cuánto tiempo espera el agente después de que el usuario termine de hablar
Tiempo de espera para el reconocimiento de voz: cuánto tiempo le da el agente al usuario una vez que comienza a responder

Para configurar el comportamiento de detección de silencio cuando el agente espera una frase desencadenadora, ajuste la configuración en el tema En silencio del sistema.

Agregar un mensaje de latencia para las operaciones de larga duración

En el caso de las operaciones de backend largas, el agente puede enviar un mensaje a los usuarios para notificarles los procesos más largos. Los agentes de un canal de mensajería también pueden enviar un mensaje de latencia.

Reproducción de audio de mensajes de latencia	Mensaje de latencia en el chat.
Continúa el bucle hasta que se completa la operación.	Se envía solo una vez cuando se alcanza la latencia especificada.

En Copilot Studio, el agente puede repetir un mensaje después de desencadenar un flujo de Power Automate:

Añadir un nodo de Acción que desencadena un flujo.
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel de Propiedades de acción.
Seleccione Enviar un mensaje.
Introduzca lo que quiere que diga el agente en la sección Mensaje. Puede utilizar SSML para modificar el sonido del mensaje. El agente repite el mensaje hasta que se completa el flujo.

Puede ajustar cuánto tiempo debe esperar el agente antes de repetir el mensaje en la sección Retraso. Puede establecer una cantidad mínima de tiempo de espera, incluso si se completa el flujo.

Configurar terminación de llamada

Para configurar el agente para que finalice la llamada y cuelgue, agregue un nuevo nodo (+) y, a continuación, seleccione Administración de temas>Terminar conversación.

Captura de pantalla de un nuevo menú de nodo con Administración de temas y Finalizar conversación resaltados

Formatear síntesis de voz con SSML

Puede usar el lenguaje de marcado de síntesis de voz (SSML) para cambiar el sonido del agente cuando lee mensajes en voz alta. Por ejemplo, puede cambiar el tono o la frecuencia de las palabras habladas, la velocidad y el volumen.

SSML utiliza etiquetas para encerrar el texto que desea modificar, similar a HTML. Puede utilizar las siguientes etiquetas en Copilot Studio:

Etiqueta SSML	Description	Enlace a la documentación del servicio de voz
`<audio src="_URL to an audio file_"/>`	Agregue la URL a un archivo de audio dentro de la etiqueta. El usuario del agente debe poder acceder al archivo.	Agregar audio grabado
`<break />`	Insertar pausas o descansos entre palabras. Inserte opciones de descanso dentro de la etiqueta.	Agregar un descanso
`<emphasis>` Texto que desea modificar`</emphasis>`	Agregue niveles de estrés a las palabras o frases. Agregue opciones de énfasis en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar.	Ajustar opciones de énfasis
`<prosody>` Texto que desea modificar`</prosody>`	Especifique los cambios de tono, contorno, rango, velocidad y volumen. Agregue opciones de prosodia en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar.	Ajustar opciones de prosodia
`<lang xml:lang="xx-XX">` Texto que desea modificar`</lang>`	Ajuste el idioma de locución dentro del mismo mensaje cuando use una voz neuronal multilingüe.	Ajustar los idiomas de conversación

Nota

Al usar la etiqueta <audio src="_URL to an audio file_"/>, si la dirección URL está almacenada en una variable, la dirección URL debe codificarse antes de insertarla en la etiqueta audio src SSML del mensaje. Se recomienda usar la función EncodeHTML PowerFx para codificar la dirección URL al asignarla a una variable en la acción de asignación.

Captura de pantalla de un mensaje de voz con etiquetas SSML agregadas.

Buscar y usar una etiqueta

SSML utiliza etiquetas para encerrar el texto que desea modificar, como HTML.

Puede utilizar las siguientes etiquetas en Copilot Studio:

Con un nodo Mensaje o Pregunta seleccionado, cambie el modo a Voz y DTMF.
Seleccione el menú Etiquetas SSML y seleccione una etiqueta.

El cuadro de mensaje se completa con la etiqueta. Si ya tiene texto en el cuadro de mensaje, el código de la etiqueta se agrega al final de su mensaje.
Rodee el texto que desee modificar con las etiquetas de apertura y cierre. Puede combinar varias etiquetas y personalizar partes individuales del mensaje con etiquetas individuales.

Propina

Puede ingresar manualmente etiquetas SSML que no aparecen en el menú de ayuda. Para obtener más información sobre otras etiquetas que puede usar, consulte Mejorar la síntesis con el lenguaje de marcado de síntesis de voz.

Transferir una llamada a un representante o a un número de teléfono externo

Puede permitir que los agentes transfieran la llamada a un número de teléfono externo. Copilot Studio admite la transferencia ciega a un número de teléfono PSTN y al número de ruta directa.

Para transferir a un número de teléfono externo:

En el tema que desee modificar, agregue un nuevo nodo (+). En el menú del nodo, seleccione Administración de temas y luego Transferir conversación.
En Tipo de transferencia, seleccione Transferir a un número de teléfono externo e introduzca el número de transferencia.
(Opcionalmente) agregue un encabezado SIP UUI al la llamada de teléfono.

Este encabezado es una cadena de pares key=value, sin espacios ni caracteres especiales, que se muestra para que la lean los sistemas externos.
1. Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel Transferir propiedades de conversación.
2. En Encabezado SIP UUI, introduzca la información que desee enviar con la transferencia de llamada. No se admiten variables al realizar transferencias a un número de teléfono externo.
Precaución

Solo se envían los primeros 128 caracteres de la cadena.

El encabezado solo acepta números, letras, signos iguales (=) y punto y coma (;). Todos los demás caracteres, incluidos espacios, llaves y corchetes, o fórmulas, no se admiten y pueden provocar que la transferencia falle.

Propina

Incluya un + en su número de teléfono para el código de país correspondiente.

La salida de transferencia con SIP UUI para el número de teléfono de destino debe utilizar enrutamiento directo. Los números de teléfono de la red telefónica conmutada (PSTN) no admiten transferencias de encabezado SIP UUI.

Para transferir a un representante, consulte Desencadenadores explícitos.

Usar variables de voz

Copilot Studio admite la población de variables. Puede utilizar variables predefinidas o crear variables personalizadas.

Nota

Para obtener más información sobre cómo usar y crear un variables en Copilot Studio, consulte Trabajar con variables.
Para obtener información sobre otras variables de actividad y conversación adicionales disponibles para los agentes habilitados para voz, consulte Variables para agentes habilitados para voz.

Un agente habilitado para voz en Copilot Studio admite variables de contexto. Estas variables le ayudan a integrar las conversaciones de sus agentes con Dynamics 365 Customer Service al transferir una llamada.

Para obtener más información sobre las variables de contexto en Dynamics 365 Customer Service, consulte Variables de contexto para bots de Copilot Studio.

Esta integración admite estos escenarios con las siguientes variables al realizar la transferencia:

Variables	Type	Description
`System.Activity.From.Name`	String	El ID de llamada del usuario agente
`System.Activity.Recipient.Name`	String	El número utilizado para llamar o conectarse con el agente
`System.Conversation.SipUuiHeaderValue`	String	Valor del encabezado SIP al realizar transferencias a través de un número de teléfono de enrutamiento directo
`System.Activity.UserInputType`	String	Si el agente usó DTMF o voz en la conversación
`System.Activity.InputDTMFKey`	String	Entrada DTMF sin procesar del agente
`System.Conversation.OnlyAllowDTMF`	Booleana	La voz ignora la entrada de voz cuando se establece en true
`System.Activity.SpeechRecognition.Confidence`	Number	El valor de confianza (entre 0 y 1) del último evento de reconocimiento de voz.
`System.Activity.SpeechRecognition.MinimalFormattedText`	String	Resultados del reconocimiento de voz (como texto sin formato) antes de que Copilot Studio aplicara su modelo dedicado de comprensión del lenguaje natural.

Nota

Un agente con frases de activación grandes y tamaño de entidad tarda más en publicarse.
Si varios usuarios publican el mismo agente al mismo tiempo, se bloquea la acción de publicación. Debe volver a publicar el agente después de que otros terminen sus ediciones existentes del agente.

Para obtener más información sobre los fundamentos de la publicación, consulte Conceptos clave: publicar e implementar el agente.

Compartir por

Configurar capacidades de voz

Modalidad de voz y DTMF

Optimizar para voz

Deshabilitar la optimización para voz

Utilizar la voz como modo de creación principal

Disponibilidad de mensajes

Reconocimiento de voz automático personalizado

Referencia de opciones de voz a nivel de agente

Configuración a nivel de agente

Habilitar interrupción

Escenarios de desactivación de interrupción

Especificaciones

Configurar la interrupción

Configurar la detección de silencio y los tiempos de espera

Acción alternativa

Entrada de voz

Agregar un mensaje de latencia para las operaciones de larga duración

Configurar terminación de llamada

Formatear síntesis de voz con SSML

Buscar y usar una etiqueta

Transferir una llamada a un representante o a un número de teléfono externo

Usar variables de voz

Comentarios

Recursos adicionais