Implementar las extensiones necesarias
El comportamiento básico de un agente de voz de Microsoft Copilot Studio no es del todo diferente al de un agente tradicional. Desde el punto de vista del diseño, no necesita hacer nada diferente cuando crea el agente. Los elementos como temas, entidades y de otro tipo se diseñan de la misma manera. La principal diferencia es que, en lugar de interactuar con un cliente a través de una forma de comunicación basada en texto, el agente se relacionará con el cliente a través de una conversación de voz. Para asegurarse de que este proceso se lleve a cabo según lo previsto, deberá instalar varias extensiones en su entorno de manera que todo se gestione correctamente.
Debe configurar algunos valores para instalar las capacidades del agente para voz. Se puede acceder a toda la configuración de voz yendo a Configuración>Voz. Al principio, el agente no está optimizado para voz. Al seleccionar Optimizar para voz, pasarán a estar disponibles capacidades de voz adicionales.
Tras habilitar Optimizar para voz, podrá actualizar la siguiente configuración:
Usar la voz como el modo Autor principal:
Aumentar la precisión con datos del agente: le permite agregar datos específicos de voz a su modelo de reconocimiento de voz, en función del contenido del agente. Esto aumenta el tiempo que tarda el agente en publicar.
Tiempos de espera:
DTMF: incluye diferentes configuraciones que ayudan a definir cómo recibe el agente la información a partir de un teclado de marcado. Hay que modificar dos configuraciones:
Tiempo de espera entre dígitos: este límite de tiempo de espera se aplica cuando el usuario no ha cumplido la longitud máxima de entrada. Solo se aplica a la entrada DTMF de varios dígitos.
Tiempo de espera de terminación: este límite de tiempo de espera se aplica cuando el usuario ha cumplido con la longitud de entrada máxima y no ha presionado la tecla de terminación. Solo se aplica a la entrada DTMF de varios dígitos.
Detección de silencio: permite especificar cómo responde el agente si no detecta ninguna entrada del usuario final. La configuración es binaria y se puede habilitar o deshabilitar.
Recopilación de voz: le permite establecer límites durante el tiempo que el agente intenta detectar y recopilar datos de entrada. Incluye las siguientes configuraciones:
Tiempo de espera de finalización de expresiones: este límite de tiempo de espera se aplica cuando el usuario hace una pausa durante o después de la voz. Si la pausa se prolonga y supera el límite de tiempo de espera, el agente actuará como si el usuario hubiese terminado de hablar.
Tiempo de espera de reconocimiento de voz: este límite de tiempo de espera determina cuánto tiempo deja el agente para la entrada del usuario una vez que este comienza a hablar.
Mensajes de latencia: permite elegir cómo y cuándo los usuarios escuchan un mensaje de latencia cuando las operaciones en segundo plano tardan más de lo esperado. Incluye las siguientes configuraciones:
Retraso en el envío del mensaje: esta configuración determina cuánto tiempo espera el agente antes de entregar el mensaje de latencia después de que se haya iniciado una solicitud de operación en segundo plano.
Tiempo mínimo de reproducción: el mensaje de latencia se reproduce durante este periodo de tiempo, al menos, incluso si la operación en segundo plano se completa mientras se reproduce el mensaje.
Sensibilidad a la voz: controla el nivel de sensibilidad a la voz. Una configuración más baja filtra más ruido de fondo. Una configuración más alta es mejor para los entornos silenciosos.