Creación de un asistente para voz sin código en Azure Percept Studio

Artículo
02/07/2023

Importante

Retirada de Azure Percept DK:

Actualización 22 de febrero de 2023: una actualización de firmware para los componentes de accesorios Percept DK Vision y Audio (también conocidos como Vision y Audio SOM) ya está disponible aquí y permitirá que los componentes del accesorio sigan funcionando más allá de la fecha de retirada.

La versión preliminar pública de Azure Percept evolucionará para admitir nuevas plataformas de dispositivos perimetrales y experiencias de desarrollador. Como parte de esta evolución, Azure Percept DK y el accesorio Audio y los servicios auxiliares de Azure asociados para Percept DK se retirarán el 30 de marzo de 2023.

A partir del 30 de marzo de 2023, los servicios de Azure Percept DK y el accesorio Audio ya no serán compatibles con ningún servicio de Azure, incluidas las Azure Percept Studio, las actualizaciones del sistema operativo, las actualizaciones de contenedores, la visualización de secuencias web y la integración de Custom Vision. Microsoft ya no proporcionará soporte técnico al cliente ni ningún servicio auxiliar asociado. Para obtener más información, consulte la entrada de blog Aviso de retirada.

En este tutorial, creará un asistente para voz a partir de una plantilla para usarlo con Azure Percept DK y Azure Percept Audio. La demostración del asistente para voz se ejecuta en Azure Percept Studio y contiene una selección de objetos virtuales controlados por voz. Para controlar un objeto, diga la palabra clave, que es una palabra o frase corta que reactiva el dispositivo, seguido de un comando. Cada plantilla responde a un conjunto de comandos específicos.

Esta guía le mostrará el proceso de configuración de los dispositivos, la creación de un asistente para voz y los recursos necesarios de los servicios de voz, la prueba del asistente, la configuración de la palabra clave y la creación de palabras clave personalizadas.

Prerrequisitos

Kit de desarrollo Azure Percept DK
Azure Percept Audio
Altavoces o auriculares que se pueden conectar a un conector de audio de 3,5 mm (opcional)
Suscripción de Azure
Experiencia de instalación de Azure Percept DK: ya ha conectado el kit de desarrollo a una red Wi-Fi, creado una instancia de IOT Hub y conectado el kit a esta instancia.
Instalación de Azure Percept Audio

Creación de un asistente para voz con una plantilla disponible

Vaya a Azure Percept Studio.
Abra la pestaña Demos & tutorials (Demostraciones y tutoriales).
Haga clic en Try out voice assistant templates (Probar plantillas del asistente para voz) en Speech tutorials and demos (Tutoriales y demostraciones de voz). Con esto, se abrirá una ventana en el lado derecho de la pantalla.
Haga lo siguiente en la ventana:
1. En el menú desplegable IoT Hub, seleccione el centro de IoT al que está conectado el kit de desarrollo.
2. En el menú desplegable Device (Dispositivo), seleccione el kit de desarrollo.
3. Seleccione una de las plantillas disponibles del asistente para voz.
4. Haga clic en la casilla I agree to terms & conditions for this project (Acepto los términos y condiciones de este proyecto).
5. Haga clic en Crear.
Después de hacer clic en Create (Crear), el portal abre otra ventana para crear el recurso del tema de voz. Haga lo siguiente en la ventana:
1. Seleccione la suscripción de Azure en el campo Suscription (Suscripción).
2. Seleccione el grupo de recursos que prefiera en el menú desplegable Resource group (Grupo de recursos). Si desea crear un nuevo grupo de recursos para usarlo con el asistente para voz, haga clic en Create (Crear) en el menú desplegable y siga las indicaciones.
3. En Application prefix (Prefijo de la aplicación), escriba un nombre. Este será el prefijo del proyecto y el nombre del comando personalizado.
4. En Región, seleccione la región en la que se van a implementar los recursos.
5. En LUIS prediction pricing tier (Plan de tarifa de predicción de LUIS), seleccione Standard (Estándar) (el nivel gratuito no admite solicitudes de voz).
6. Haga clic en el botón Crear. Los recursos de la aplicación del asistente para voz se implementarán en la suscripción.
  
  Advertencia
  
  NO cierre la ventana hasta que el portal termine de implementar el recurso. Si cierra la ventana anticipadamente puede producir un comportamiento inesperado del asistente para voz. Una vez implementado el recurso, se mostrará la demostración.

Prueba del asistente para voz

Para interactuar con el asistente para voz, indique la palabra clave seguida de un comando. Cuando el módulo de sistema de escucha reconoce la palabra clave, el dispositivo emite el sonido de una campanilla (que se puede oír si hay un altavoz o unos auriculares conectados) y los indicadores LED parpadean en azul. Los LED parpadean rápidamente en azul mientras se procesa el comando. La respuesta del asistente para voz al comando se imprimirá en texto en la ventana de demostración y se emitirá de forma audible a través de los altavoces o auriculares. La palabra clave predeterminada (que aparece junto a Palabra clave personalizada) está establecida en "Computer" (Equipo) y cada plantilla tiene un conjunto de comandos compatibles que le permiten interactuar con objetos virtuales en la ventana de demostración. Por ejemplo, si usa la demostración para hostelería o la de atención sanitaria, diga "Equipo, enciende la televisión" para encender la televisión virtual.

Captura de pantalla de la ventana de demostración para hostelería.

Comandos de demostración para hostelería y atención sanitaria

Las demostraciones de atención sanitaria y hostelería tienen televisores virtuales, luces, persianas y termostatos con los que puede interactuar. Se admiten los siguientes comandos (y otras variantes):

"Apaga las luces."
"Enciende/Apaga la televisión."
"Enciende/Apaga el aire acondicionado."
"Abre/Cierra las persianas."
"Establecer la temperatura en X grados". (X es la temperatura deseada, por ejemplo, 75).

Captura de pantalla de la ventana de demostración para atención sanitaria.

Comandos de demostración para automoción

La demo para automoción dispone de un asiento calefactado, un eliminador de escarcha y un termostato con los que puede interactuar. Se admiten los siguientes comandos (y otras variantes):

"Apagar/Encender el eliminador de escarcha."
"Apagar/Encender el asiento calefactado."
"Establecer la temperatura en X grados". (X es la temperatura deseada, por ejemplo, 75).
"Aumentar/Disminuir la temperatura en Y grados."

Captura de pantalla de la ventana de demostración para automoción.

Comandos de demostración para inventario

La demostración de inventario tiene una selección de cajas azules, amarillas y verdes con las que interactuar junto con una aplicación de inventario virtual. Se admiten los siguientes comandos (y otras variantes):

"Agregar o quitar X cajas". (X es el número de cajas, por ejemplo, 4).
"Pedir/Enviar X cajas."
"¿Cuántas cajas hay en existencias?"
"Contar cajas Y." (Y es el color de las cajas, por ejemplo, amarillo).
"Enviar todo lo que hay en existencias."

Captura de pantalla de la ventana de demostración para inventario.

Configuración de la palabra clave

Puede personalizar la palabra clave para la aplicación del asistente para voz.

Haga clic en Cambiar junto a Palabra clave personalizada en la página de demostración.
Seleccione una de las palabras clave disponibles. Podrá elegir entre una selección de palabras clave de ejemplo y cualquier palabra clave personalizada que haya creado.
Haga clic en Save(Guardar).

Creación de una palabra clave personalizada

Puede crear su propia palabra clave para la aplicación de voz. El entrenamiento de la palabra clave personalizada puede completarse en unos minutos.

Haga clic en + Crear palabra clave personalizada cerca de la parte superior de la ventana de demostración.
Escriba la palabra clave que desee, que puede ser una sola palabra o una frase corta.
Seleccione el recurso de voz (está incluido en una lista junto a Comando personalizado en la ventana de demostración y contiene el prefijo de la aplicación).
Haga clic en Save(Guardar).

Creación de un comando personalizado

El portal también proporciona una funcionalidad para crear comandos personalizados con recursos de voz existentes. "Comando personalizado" hace referencia a la propia aplicación del asistente para voz, no a un comando específico dentro de la aplicación ya existente. Al crear un comando personalizado, está creando un nuevo proyecto de voz, que debe seguir desarrollando en Speech Studio.

Para crear un nuevo comando personalizado desde la ventana de demostración, haga clic en + Create Custom Command (+ Crear comando personalizado) en la parte superior de la página y haga lo siguiente:

Escriba un nombre para el comando personalizado.
Escriba una descripción del proyecto (opcional).
Seleccione su idioma preferido.
Seleccione el recurso de voz.
Seleccione el recurso de LUIS.
Seleccione el recurso de creación de LUIS o cree uno.
Haga clic en Crear.

Captura de pantalla de la ventana de creación de comandos personalizados.

Una vez que haya creado un comando personalizado, debe ir a Speech Studio para su posterior desarrollo. Si abre Speech Studio y no ve el comando personalizado en la lista, siga estos pasos:

En el panel de menú de la izquierda de Azure Percept Studio, haga clic en Speech (Voz) en AI Projects (Proyectos de IA).
Seleccione la pestaña Commands (Comandos).
Seleccione el comando personalizado que desea desarrollar. Esto abrirá el proyecto en Speech Studio.

Para obtener más información sobre el desarrollo de comandos personalizados, consulte la documentación del servicio Voz.

Solución de problemas

Se ha creado el asistente para voz pero no responde a los comandos

Compruebe las luces LED en la placa del intermediador:

Tres luces azules fijas indican que el asistente para voz está listo y esperando la palabra clave.
Si el indicador LED del centro (L02) está en blanco, el kit de desarrollo ha completado la inicialización y debe configurarse con una palabra clave.
Si el LED del centro (L02) parpadea en blanco, el módulo de sistema de audio todavía no ha completado la inicialización. La operación puede tardar varios minutos en completarse.

Para más información acerca de los indicadores LED, consulte el artículo sobre indicadores LED.

El asistente para voz no responde a una palabra clave personalizada creada en Speech Studio.

Esto puede ocurrir si el módulo de voz no está actualizado. Siga estos pasos para actualizar el módulo de voz a la versión más reciente:

Haga clic en Devices (Dispositivos) en el panel de menú de la izquierda de la página principal de Azure Percept Studio.
Busque y seleccione el dispositivo.
En la ventana del dispositivo, seleccione la pestaña Speech (Voz).
Compruebe la versión del módulo de voz. Si hay disponible una actualización, aparecerá un botón Update (Actualizar) junto al número de versión.
Haga clic en Update (Actualizar) para implementar la actualización del módulo de voz. Por lo general, el proceso de actualización tarda 2-3 minutos en completarse.

Limpieza de recursos

Cuando haya terminado de trabajar con la aplicación del asistente para voz, siga estos pasos para eliminar los recursos de voz que implementó durante este tutorial:

En Azure Portal, seleccione Grupos de recursos en el panel de menú de la izquierda o escríbalo en la barra de búsqueda.
Seleccione el grupo de recursos que necesite.
Seleccione los seis recursos que contienen el prefijo de la aplicación y haga clic en el icono Eliminar en el panel de menú superior.
Para confirmar la eliminación, escriba sí en el cuadro de confirmación, compruebe que ha seleccionado los recursos correctos y haga clic en Eliminar.

Advertencia

Se eliminarán todas las palabras clave personalizadas creadas con los recursos de voz que va a eliminar y la demostración del asistente para voz dejará de funcionar.

Pasos siguientes

Ahora que ha creado una solución de voz sin código, intente crear una solución de visión sin código para Azure Percept DK.