Configurar capacidades de voz

Article
08/12/2024

Este artículo describe las funciones disponibles en Copilot Studio para respuesta interactiva de voz con la Plataforma omnicanal para Customer Service.

Para preparar su copiloto para los servicios de voz, consulte Integrar un copiloto habilitado por voz con la Plataforma omnicanal para Customer Service.

Para obtener una descripción general de los servicios de voz, consulte Utilizar respuesta interactiva de voz en sus copilotos.

Modalidad de voz y DTMF

Un copiloto con capacidad de voz es diferente de un copiloto basado en chat. El copiloto con capacidad de voz incluye temas específicos del sistema de voz para manejar escenarios de voz. Un copiloto basado en chat utiliza la modalidad de texto como predeterminada. Un copiloto con capacidad de voz utiliza la modalidad Voz y DTMF. Las dos modalidades no son compatibles entre sí.

Optimizar para voz le permite crear copilotos con capacidad de voz en diferentes modalidades y garantiza que las funciones relacionadas con la voz se creen correctamente.

Optimizar para voz

Si no inició su copiloto con la plantilla de voz, debe habilitar la opción Optimizar para voz en Configuración del copiloto.

Con un copiloto abierto, vaya a Configuración>Voz.
Seleccione Optimizar para voz. La opción Usar voz como modo de creación principal también está configurada de forma predeterminada.

Su copiloto recibe las siguientes actualizaciones cuando habilita las opciones Optimizar para voz y Usar voz como modo de creación principal:

La capacidad de crear funciones de voz cuando se cambia de texto a Voz y DTMF.
Los temas del sistema de voz Detección de silencio, Voz no reconocida y Pulsación del teclado desconocida se agregan automáticamente para manejar escenarios relacionados con la voz.
Aumente la precisión con los datos del copiloto (activado de forma predeterminada), lo que mejora la precisión del reconocimiento de voz.
No hay cambios en el flujo del copiloto existente, como el tema Menú principal para iniciar conversaciones con desencadenadores de DTMF asignados.

Importante

La configuración Optimizar para voz solo cambia las capacidades de creación de voz, no la configuración del canal. Active el canal Telefonía para tener un copiloto con capacidad de voz.
Además, configurar Optimizar para voz en un copiloto que no estaba configurado originalmente para funciones de voz significa que el copiloto no tendrá el tema Menú principal (versión preliminar). Debe recrear ese tema, si es necesario.

Deshabilitar la optimización para voz

Puede desactivar Optimizar para voz en la creación del copiloto si no habilita el canal de telefonía. Después de desactivar Optimizar para voz, obtendrá los siguientes cambios:

Sin creación de copiloto para funciones de voz, como DTMF e interrupción.
Se establece la modalidad de texto predeterminada.
No hay mejoras en el reconocimiento de voz, ya que no hay reconocimiento de voz.
No hay temas de sistema de voz ni tema global de DTMF.

Nota

Algunos temas pueden informar errores durante la publicación si se hace referencia al tema DTMF deshabilitado en otros temas.
No se realizan cambios en el flujo del copiloto ni en la configuración del canal, ya que al desactivar la optimización no se desactiva el canal de telefonía.
Habilitar o deshabilitar la opción Optimizar para voz no es psible hasta que publique su copiloto. Si el copiloto se habilita o deshabilita accidentalmente y cambia entre modalidades, tiene tiempo de arreglarlo.

Importante

Si sus canales de telefonía están habilitados, deshabilitar Optimizar para voz puede romper su copiloto, ya que todos los desencadenadores de DTMF se desactivan automáticamente.

Utilizar la voz como modo de creación principal

Se debe seleccionar la modalidad de voz y DTMF para cada nodo en la creación de funciones de voz. Puede seleccionar la preferencia de creación del copiloto como utilizar la voz como modo de creación principal. Esta configuración garantiza que todos los campos de entrada tengan la modalidad correcta. Si ya ha habilitado Optimizar para voz, la opción Utilizar la voz como modo de creación principal se habilita de forma predeterminada.

Disponibilidad de mensajes

Usar la modalidad de texto o voz puede afectar a su canal de manera diferente.

Modalidad de texto	Modalidad de voz	Canal de texto y voz de copiloto
Mensaje disponible	Mensaje vacío	Mensaje disponible
Mensaje vacío	Mensaje disponible	Mensaje no disponible

Reconocimiento de voz automático personalizado

Los copilotos con voz habilitada para un dominio específico, como médico o finanzas, pueden ver a los usuarios usar términos financieros o jerga médica. Algunos términos y jergas son difíciles de convertir de voz a texto para el copiloto.

Para garantizar que la entrada de voz se reconozca con precisión, puede mejorar el reconocimiento de voz:

Con su copiloto abierto, seleccione Configuración>Voz.
Seleccione Aumente la precisión con los datos de copiloto para habilitar la configuración de reconocimiento de voz automático personalizada predeterminada de copiloto.
Seleccione Guardar para confirmar los cambios.
Publique su copiloto para ver los nuevos cambios.

Referencia de opciones de voz a nivel de copiloto

La página de configuración de Detalles de copiloto le permite configurar tiempos de espera para varias funciones relacionadas con la voz. Las configuraciones aplicadas en esta página se convierten en las predeterminadas para los temas creados en su copiloto.

Para realizar cambios en las opciones de tiempo de espera a nivel de copiloto:

Con un copiloto abierto, seleccione Configuración>Voz.
Seleccionar la configuración que desee y ajustar la configuración predeterminada del copiloto.
Seleccione Guardar para confirmar los cambios.

Configuración de nivel de copiloto

La siguiente tabla enumera cada opción y cómo se relaciona con la configuración de nivel de nodo.

Sección de nivel de copiloto con capacidad de voz	Ajuste	Description	Default value	Sustitución en nivel de nodo
DTMF	Tiempo de espera entre dígitos	Tiempo máximo (milisegundos) permitido mientras se espera la siguiente entrada de clave de DTMF. Aplica entrada DTMF de varios dígitos solo cuando los usuarios no cumplen con la longitud máxima de entrada.	3000 ms	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos
DTMF	Tiempo de espera de terminación	Duración máxima (milisegundos) para esperar una clave de terminación de DTMF. El límite se aplica cuando el usuario alcanza la longitud máxima de entrada y no pulsó la tecla de terminación. Se aplica solo a la entrada DTMF de varios dígitos. Después de que se agote el tiempo límite y no llegue la clave de DTMF de finalización, el copiloto finaliza el reconocimiento y devuelve el resultado hasta ese punto. Si se configura en "continuar sin esperar", el copiloto no espera la clave de terminación. El copiloto regresa inmediatamente después de que el usuario introduzca la longitud máxima.	2000 ms	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos
Detección de silencio	Tiempo de espera de detección de silencio	Silencio máximo (milisegundos) permitido mientras se espera la entrada de usuario. El límite se aplica cuando el copiloto no detecta ninguna entrada del usuario. El valor predeterminado es "sin tiempo de espera de silencio". El copiloto espera infinitamente la entrada del usuario. La detección de silencio para la voz multiplica el período posterior a que la voz termina de hablar.	Sin tiempo de espera de silencio	Nodo de pregunta con propiedades de voz para entrada DTMF de varios dígitos Tema de sistema (propiedades de desencadenador de detección de silencio) para Configurar la detección de silencio y los tiempos de espera
Recopilación de voz	Tiempo de espera de finalización de la expresión	El límite se aplica cuando el usuario hace una pausa durante o después del discurso. Si la pausa supera el límite de tiempo de espera, el copiloto supone que el usuario terminó de hablar. El valor máximo para el tiempo de espera de finalización de la expresión es 3000 milisegundos. Cualquier valor superior a 3000 ms se reduce a 3000 milisegundos.	1500 ms	Nodo de preguntas con propiedades de voz.
Recopilación de voz	Tiempo de espera de reconocimiento de voz	Determina cuánto tiempo permite el copiloto para la entrada del usuario una vez que comienza a hablar. El valor predeterminado es 12000 milisegundos (unos 12 segundos). Sin tiempo de espera de reconocimiento significa tiempo infinito. El copiloto repite la pregunta. Si no hay respuesta, la voz está más allá del Tiempo de espera del reconocimiento de voz.	12,000 ms	Nodo de preguntas con propiedades de voz.
Mensajes de latencia	Retraso de envío del mensaje	Determina cuánto tiempo espera el copiloto antes de entregar el mensaje de latencia después de que se inició una solicitud de operación en segundo plano. El tiempo se establece en milisegundos.	500 ms	Propiedades del nodo de acción para operación de larga duración
Mensajes de latencia	Tiempo mínimo de reproducción	El mensaje de latencia se reproduce durante un período de tiempo mínimo, incluso si la operación en segundo plano se completa mientras se reproduce el mensaje. El tiempo se establece en milisegundos.	5000 ms	Propiedades del modo de acción para operación de larga duración
Sensibilidad de voz	Sensibilidad	Controla cómo el sistema equilibra la detección de voz y ruido de fondo. Reduzca la sensibilidad para entornos ruidosos, espacios públicos y funcionamiento con manos libres. Aumente la sensibilidad para entornos silenciosos, usuarios que hablan suavemente o detección de comandos de voz. La configuración predeterminada es 0.5.	0.5	No hay anulaciones a nivel de nodo para este control.

Habilitar interrupción

Habilitar la interrupción permite que los usuarios de su copiloto interrumpan a su copiloto. Esta función puede resultar útil cuando no necesita que el usuario del copiloto escuche el mensaje completo. Por ejemplo, es posible que las personas que llaman ya conozcan las opciones del menú porque las escucharon en el pasado. Con la interrupción, el usuario del copiloto puede introducir la opción que desee, incluso si el copiloto no ha terminado de enumerar todas las opciones.

Escenarios de desactivación de interrupción

Deshabilite la interrupción si actualizó recientemente un mensaje del copiloto o si el mensaje de cumplimiento no debe interrumpirse.
Desactive la interrupción en el primer mensaje del copiloto para garantizar que los usuarios del copiloto estén al tanto de la información nueva o esencial.

Especificaciones

La interrupción admite interrupciones basadas en DTMF y en voz del usuario del copiloto.
La interrupción se puede controlar con cada mensaje, en un solo lote. Coloque los nodos barge-in-disabled en secuencia antes de cada nodo donde se permite la interrupción. De lo contrario, la interrupción deshabilitada se trata como un mensaje de autorización de interrupción.

Una vez que finaliza la cola de un lote, la configuración automática de interrupción se restablece para el siguiente lote y se controla mediante el indicador de interrupción en cada mensaje posterior. Puede colocar nodos de interrupción deshabilitada a medida que la secuencia comienza nuevamente.

Propina

Si hay nodos de mensajes consecutivos, seguidos de un nodo de preguntas, los mensajes de voz para estos nodos se definen como un lote. Un lote comienza con un nodo de mensaje y se detiene en el nodo de pregunta, que está esperando la entrada del usuario.

Evite deshabilitar la irrupción para mensajes largos, especialmente si espera que los usuarios del copiloto interactúen con el copiloto con frecuencia. Si su usuario copiloto ya conoce las opciones del menú, déjele autoservicio a donde quiera ir.

Configurar la interrupción

Con un nodo Mensaje o Pregunta seleccionado, establezca la modalidad deseada en Voz y DTMF.
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.
1. Para los nodos Mensaje, el panel Propiedades de actividad de envío se abre en el lateral del lienzo de creación.
  
  Seleccione Permitir interrupción.
2. Para los nodos Pregunta, se abre el panel Propiedades de la pregunta, luego seleccione Voz.
  
  En las propiedades de Voz, seleccione Permitir interrupción.
Guarde el tema para confirmar los cambios.

Configurar la detección de silencio y los tiempos de espera

La detección de silencio le permite configurar cuánto tiempo espera el copiloto la entrada del usuario y la acción que realiza si no se recibe ninguna entrada. La detección de silencio es más útil en respuesta a una pregunta a nivel de nodo o cuando el copiloto espera una frase desencadenadora para comenzar un nuevo tema.

Puede configurar los tiempos de espera predeterminados para los temas.

Para reemplazar los valores por defecto de un nodo:

Seleccione el icono Más (…) del nodo y luego seleccione Propiedades.

Se abre el panel de Propiedades de pregunta.

Seleccione Voz y realice ajustes en las siguientes configuraciones:

Opción de tiempo de espera de detección de silencio	Description
Usar configuración de copiloto	El nodo utiliza la configuración global para la detección de silencio.
Deshabilitar para este nodo	El copiloto espera indefinidamente una respuesta.
Personalizar en milisegundos	El copiloto espera un tiempo determinado antes de repetir la pregunta.

Acción alternativa

Puede configurar algunos comportamientos como acción alternativa:

Cuantas veces debe repetir el copiloto una pregunta
Qué debe decir el mensaje de repetición de solicitud
Qué debe hacer el copiloto después de un número específico de repeticiones

Entrada de voz

Para la entrada de voz puede especificar:

Tiempo de espera de finalización de la expresión: cuánto tiempo espera el copiloto después de que el usuario termina de hablar.
Tiempo de espera del reconocimiento de voz: cuánto tiempo le da el copiloto al usuario una vez que comienza a responder.

Para configurar el comportamiento de detección de silencio cuando su copiloto espera una frase de activación, ajuste la configuración en el tema de sistema En silencio.

Agregar un mensaje de latencia para las operaciones de larga duración

Para operaciones de backend largas, su copiloto puede enviar un mensaje a los usuarios para notificarles sobre los procesos más largos. Los copilotos de un canal de mensajería también pueden enviar un mensaje de latencia.

Reproducción de audio de mensajes de latencia	Mensaje de latencia en el chat.
Continúa el bucle hasta que se completa la operación.	Se envía solo una vez cuando se alcanza la latencia especificada.

En Copilot Studio, su copiloto puede repetir un mensaje después de activar un flujo de Power Automate:

Añadir un nodo de Acción que desencadena un flujo.
Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel de Propiedades de acción.
Seleccione Enviar un mensaje.
En la sección Mensaje, introduzca lo que quiere que diga el copiloto. Puede utilizar SSML para modificar el sonido del mensaje. El copiloto repite el mensaje hasta completar el flujo.

Puede ajustar cuánto tiempo debe esperar el copiloto antes de repetir el mensaje en la sección Retraso. Puede establecer una cantidad mínima de tiempo de espera, incluso si se completa el flujo.

Configurar terminación de llamada

Para configurar su copiloto para finalizar la llamada y colgar, agregue un nuevo nodo (+) y luego seleccione Administración de temas>Finalizar conversación.

Captura de pantalla de un nuevo menú de nodo con Administración de temas y Finalizar conversación resaltados

Formatear síntesis de voz con SSML

Puede utilizar el lenguaje de marcado de síntesis de voz (SSML) para cambiar cómo suena el copiloto cuando lee mensajes en voz alta. Por ejemplo, puede cambiar el tono o la frecuencia de las palabras habladas, la velocidad y el volumen.

SSML utiliza etiquetas para encerrar el texto que desea modificar, similar a HTML. Puede utilizar las siguientes etiquetas en Power Virtual Agents:

Etiqueta SSML	Description	Enlace a la documentación del servicio de voz
`<audio src="_URL to an audio file_"/>`	Agregue la URL a un archivo de audio dentro de la etiqueta. El archivo debe estar accesible para el usuario del copiloto.	Agregar audio grabado
`<break />`	Insertar pausas o descansos entre palabras. Inserte opciones de descanso dentro de la etiqueta.	Agregar un descanso
`<emphasis>` Texto que desea modificar`</emphasis>`	Agregue niveles de estrés a las palabras o frases. Agregue opciones de énfasis en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar.	Ajustar opciones de énfasis
`<prosody>` Texto que desea modificar`</prosody>`	Especifique los cambios de tono, contorno, rango, velocidad y volumen. Agregue opciones de prosodia en la etiqueta de apertura. Agregue la etiqueta de cierre después del texto que desee modificar.	Ajustar opciones de prosodia

Captura de pantalla de un mensaje de voz con etiquetas SSML agregadas.

Buscar y usar una etiqueta

SSML utiliza etiquetas para encerrar el texto que desea modificar, como HTML.

Puede utilizar las siguientes etiquetas en Copilot Studio:

Con un nodo Mensaje o Pregunta seleccionado, cambie el modo a Voz y DTMF.
Seleccione el menú Etiquetas SSML y seleccione una etiqueta.

El cuadro de mensaje se completa con la etiqueta. Si ya tiene texto en el cuadro de mensaje, el código de la etiqueta se agrega al final de su mensaje.
Rodee el texto que desee modificar con las etiquetas de apertura y cierre. Puede combinar varias etiquetas y personalizar partes individuales del mensaje con etiquetas individuales.

Propina

Puede ingresar manualmente etiquetas SSML que no aparecen en el menú de ayuda. Para obtener más información sobre otras etiquetas que puede usar, consulte Mejorar la síntesis con el lenguaje de marcado de síntesis de voz.

Transferir una llamada a un agente o a un número de teléfono externo

Puede hacer que el copiloto transfiera la llamada a un número de teléfono externo. En Copilot Studio, admitimos la transferencia ciega a un número de teléfono PSTN y al número de ruta directa.

Para transferir a un número de teléfono externo:

En el tema que desee modificar, agregue un nuevo nodo (+). En el menú del nodo, seleccione Administración de temas y luego Transferir conversación.
En Tipo de transferencia, seleccione Transferir a un número de teléfono externo e introduzca el número de transferencia.
(Opcionalmente) agregue un encabezado SIP UUI al la llamada de teléfono.

Este encabezado es una cadena de pares key=value, sin espacios ni caracteres especiales, que se muestra para que la lean los sistemas externos.
1. Seleccione el icono Más (…) del nodo y luego seleccione Propiedades. Se abre el panel Transferir propiedades de conversación.
2. En Encabezado SIP UUI, introduzca la información que desee enviar con la transferencia de llamada. No se admiten variables al realizar transferencias a un número de teléfono externo.
Precaución

Solo se envían los primeros 128 caracteres de la cadena.

El encabezado solo acepta números, letras, signos iguales (=) y punto y coma (;). Todos los demás caracteres, incluidos espacios, llaves y corchetes, o fórmulas, no se admiten y pueden provocar que la transferencia falle.

Propina

Incluya un + en su número de teléfono para el código de país correspondiente.

La salida de transferencia con SIP UUI para el número de teléfono de destino debe utilizar enrutamiento directo. Los números de teléfono de la red telefónica conmutada (PSTN) no admiten transferencias de encabezado SIP UUI.

Para transferir a un agente, consulte Activadores explícitos.

Usar variables de voz

Copilot Studio admite la población de variables. Puede utilizar variables predefinidas o crear variables personalizadas.

Nota

Para obtener más información sobre cómo usar y crear un variables en Copilot Studio, consulte Trabajar con variables.
Para obtener información sobre las variables de actividad y conversación adicionales disponibles para copilotos habilitados por voz, consulte Variables para copilotos habilitados por voz.

Un copiloto con capacidad de voz en Copilot Studio admite variables de contexto. Estas variables le ayudan a integrar sus conversaciones de copiloto con Plataforma omnicanal para Customer Service al transferir una llamada.

Para obtener más información sobre las variables de contexto en la Plataforma omnicanal para Customer Service, consulte Variables de contexto para bots de Copilot Studio.

Esta integración admite estos escenarios con las siguientes variables al realizar la transferencia:

Variables	Type	Description
`System.Activity.From.Name`	String	El identificador de llamadas del usuario del copiloto
`System.Activity.Recipient.Name`	String	El número utilizado para llamar o conectarse al copiloto.
`System.Conversation.SipUuiHeaderValue`	String	Valor del encabezado SIP al realizar transferencias a través de un número de teléfono de enrutamiento directo
`System.Activity.UserInputType`	String	Si el usuario del copiloto utilizó DTMF o voz en la conversación
`System.Activity.InputDTMFKey`	String	La entrada de DTMF sin procesar del usuario del copiloto
`System.Conversation.OnlyAllowDTMF`	Booleana	La voz ignora la entrada de voz cuando se establece en true
`System.Activity.SpeechRecognition.Confidence`	Number	El valor de confianza (entre 0 y 1) del último evento de reconocimiento de voz.
`System.Activity.SpeechRecognition.MinimalFormattedText`	String	Resultados del reconocimiento de voz (como texto sin formato) antes de que Copilot Studio aplicara su modelo dedicado de comprensión del lenguaje natural.

Nota

Un copiloto con frases desencadenaras y tamaño de entidad grandes tarda más en publicarse.
Si varios usuarios publican el mismo copiloto al mismo tiempo, su acción de publicación se bloquea. Debe volver a publicar el copiloto después de que otros terminen sus ediciones de copiloto existentes.

Para obtener más información sobre los aspectos básicos de la publicación, consulte Conceptos clave: publicar e implementar su copiloto.

Comparteix a través de

Configurar capacidades de voz

Modalidad de voz y DTMF

Optimizar para voz

Deshabilitar la optimización para voz

Utilizar la voz como modo de creación principal

Disponibilidad de mensajes

Reconocimiento de voz automático personalizado

Referencia de opciones de voz a nivel de copiloto

Configuración de nivel de copiloto

Habilitar interrupción

Escenarios de desactivación de interrupción

Especificaciones

Configurar la interrupción

Configurar la detección de silencio y los tiempos de espera

Acción alternativa

Entrada de voz

Agregar un mensaje de latencia para las operaciones de larga duración

Configurar terminación de llamada

Formatear síntesis de voz con SSML

Buscar y usar una etiqueta

Transferir una llamada a un agente o a un número de teléfono externo

Usar variables de voz

Comentaris

Recursos addicionals