Inicio rápido: introducción a la CLI de Voz de Azure AI

Artículo
09/24/2024

En este artículo, aprenderá a usar la CLI de Voz de Azure AI (también denominada SPX) para tener acceso a servicios Voz como conversión de voz en texto, texto a voz y traducción de voz, sin tener que escribir código. La CLI de Voz está lista para producción y puede usarla para automatizar flujos de trabajo sencillos en el servicio Voz mediante scripts de shell o .bat.

En este artículo se supone que tiene conocimientos prácticos de la ventana del símbolo del sistema, un terminal o PowerShell.

Nota

En PowerShell, el token stop-parsing (--%) debe seguir a spx. Por ejemplo, ejecute spx --% config @region para ver el valor de configuración de la región actual.

Descargar e instalar

Siga estos pasos para instalar la CLI de Voz en Windows:

Instale Microsoft Visual C++ Redistributable para Visual Studio 2019 para su plataforma. Durante la primera instalación es posible que deba reiniciar.
Instale .NET 6.

Para instalar la CLI de Voz mediante la CLI de .NET, escriba este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para actualizar la CLI de Voz, escriba este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Escriba spx o spx help para ver la ayuda de la CLI de Voz.

Limitaciones de fuentes

En Windows, la CLI de Voz solo puede mostrar las fuentes que están disponibles para el símbolo del sistema en el equipo local. El terminal de Windows admite todas las fuentes que genera de manera interactiva la CLI de Voz.

Si se genera la salida a un archivo, un editor de texto como el Bloc de notas o un explorador Web como Microsoft Edge también pueden mostrar todas las fuentes.

Las siguientes distribuciones de Linux son compatibles con las arquitecturas x64 mediante la CLI de Voz:

Ubuntu 20.04/22.04/24.04
Debian 11/12

Nota:

El SDK de Voz (no la CLI de Voz) admite arquitecturas adicionales. Para más información, consulte Acerca del SDK de Voz.

Siga estos pasos para instalar la CLI de Voz en Linux en una CPU x64:

Instale .NET 6.

Para instalar la CLI de Voz mediante la CLI de .NET, escriba este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para actualizar la CLI de Voz, escriba este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Instale GStreamer para la compatibilidad con audio comprimido.

Escriba spx para ver la ayuda de la CLI de Voz.

Siga estos pasos para instalar la CLI de Voz en macOS 10.14 o posterior:

Instale .NET 6.

Para instalar la CLI de Voz mediante la CLI de .NET, escriba este comando:

dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI

Para actualizar la CLI de Voz, escriba este comando:

dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI

Escriba spx o spx help para ver la ayuda de la CLI de Voz.

En el ejemplo siguiente se extrae una imagen de contenedor público de Docker Hub. Se recomienda autenticarse primero con la cuenta de Docker Hub (docker login) en lugar de realizar una solicitud de extracción anónima. Para mejorar la confiabilidad al usar contenido público, importe y administre la imagen en un registro de contenedor privado de Azure. Más información sobre cómo trabajar con imágenes públicas.

Siga estos pasos para instalar la CLI de Voz en un contenedor de Docker:

Instale Docker Desktop para su plataforma si aún no está instalado.
En un nuevo símbolo del sistema o terminal, escriba este comando:
```
docker pull msftspeech/spx
```

Escriba este comando para mostrar información de ayuda para la CLI de Voz:

docker run -it --rm msftspeech/spx help

Montaje de un directorio en el contenedor

La herramienta de la CLI de Voz guarda los valores de configuración como archivos. Carga estos archivos al ejecutar cualquier comando (excepto los de ayuda).

Cuando use la CLI de Voz dentro de un contenedor de Docker, debe montar un directorio local desde el contenedor, de modo que la herramienta pueda:

Almacenar o buscar los valores de configuración
Leer o escribir los archivos que requiera el comando, como los archivos de audio de voz

En Windows, escriba este comando para crear un directorio local que la CLI de Voz pueda usar desde dentro del contenedor:

mkdir c:\spx-data

En Linux o macOS, escriba este comando en un terminal para crear un directorio y ver su ruta de acceso absoluta:

mkdir ~/spx-data
cd ~/spx-data
pwd

Usará la ruta de acceso absoluta al llamar a la CLI de Voz.

Ejecución de la CLI de Voz en el contenedor

En esta documentación se muestra el comando spx de la CLI de Voz que se usa en instalaciones que no son de Docker. Al llamar al comando spx en un contenedor de Docker, debe montar un directorio en el contenedor para el sistema de archivos donde la CLI de Voz pueda almacenar y buscar los valores de configuración, y leer y escribir los archivos.

En Windows, los comandos se inician de la siguiente manera:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx

En Linux o macOS, los comandos son similares al ejemplo siguiente. Reemplace ABSOLUTE_PATH por la ruta de acceso absoluta del directorio montado. El comando pwd devolvió esta ruta de acceso en la sección anterior. Si ejecuta este comando antes de establecer la clave y la región, recibirá un error indicándole que las establezca.

sudo docker run -it -v ABSOLUTE_PATH:/data --rm msftspeech/spx

Para usar el comando spx instalado en un contenedor, escriba siempre el comando completo tal como se muestra en el ejemplo anterior, seguido de los parámetros de la solicitud. Por ejemplo, en Windows, este comando establece la clave:

docker run -it -v c:\spx-data:/data --rm msftspeech/spx config @key --set SUBSCRIPTION-KEY

Para una interacción extendida con la herramienta de línea de comandos, puede iniciar un contenedor con un shell de Bash interactivo mediante la adición de un parámetro entrypoint. En Windows, escriba este comando para iniciar un contenedor que muestre una interfaz de línea de comandos interactiva, donde puede escribir varios comandos spx:

docker run -it --entrypoint=/bin/bash -v c:\spx-data:/data --rm msftspeech/spx

Puede combinar esto con AZ Login y hacer que SPX Init le guíe a través de la creación de las claves de voz y la selección de una región de datos coincidente sin tener que utilizar el Azure Portal. Las claves se almacenarán automáticamente para su uso posterior.

docker run -it --rm --entrypoint /bin/bash -v c:\spx-data:/data msftspeech/spx

az login
spx init

Creación de una configuración de recursos

Terminal
PowerShell

Para empezar, necesita una clave de recurso de Voz y un identificador de región (por ejemplo, eastus, westus). Cree un recurso de voz en Azure Portal. Para obtener más información, consulte Creación de un recurso de servicios de Azure AI.

Para configurar la clave de recurso y el identificador de región, ejecute los comandos siguientes:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La clave y la región se almacenan para futuros comandos de la CLI de Voz. Para ver la configuración actual, ejecute los siguientes comandos:

spx config @key
spx config @region

Según sea necesario, incluya la opción clear para quitar cualquier valor almacenado:

spx config @key --clear
spx config @region --clear

Para empezar, necesita una clave de recurso de Voz y un identificador de región (por ejemplo, eastus, westus). Cree un recurso de voz en Azure Portal.

Para configurar la clave de recurso de Voz y el identificador de región, ejecute los comandos siguientes en PowerShell:

spx --% config @key --set SPEECH-KEY
spx --% config @region --set SPEECH-REGION

La clave y la región se almacenan para futuros comandos SPX. Para ver la configuración actual, ejecute los siguientes comandos:

spx --% config @key
spx --% config @region

Según sea necesario, incluya la opción clear para quitar cualquier valor almacenado:

spx --% config @key --clear
spx --% config @region --clear

Uso básico

Importante

Al usar la CLI de Voz en un contenedor, incluya la opción --host. También debes especificar --key none para garantizar que la CLI no intenta usar una clave de Azure Cognitive Service para voz para la autenticación. Por ejemplo, ejecute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconocer la voz de un archivo de audio en un contenedor de conversión de voz a texto.

En esta sección se muestran algunos comandos básicos de SPX que a menudo resultan útiles para la prueba y la experimentación iniciales. Para ver la ayuda den la herramienta, ejecute el siguiente comando:

spx

Puede buscar temas de ayuda por palabra clave. Por ejemplo, para ver una lista de ejemplos de uso de la CLI de Voz, ejecute el siguiente comando:

spx help find --topics "examples"

Para ver las opciones del comando recognize, ejecute el siguiente comando:

spx help recognize

En la salida de la consola se muestran más comandos de ayuda. Escríbalos si desea obtener ayuda detallada acerca de los subcomandos.

Conversión de voz a texto (reconocimiento de voz)

Nota

No puede usar el micrófono del equipo al ejecutar la CLI de Voz dentro de un contenedor de Docker. Sin embargo, puede leer y guardar archivos de audio en el directorio montado local.

Para convertir voz en texto (reconocimiento de voz) mediante el micrófono predeterminado del sistema, ejecute el siguiente comando:

spx recognize --microphone

Después de ejecutar el comando, SPX comienza a escuchar el audio en el dispositivo de entrada activo actual. Deja de escuchar cuando se selecciona Entrar. El audio con voz se reconoce y se convierte a texto en la salida de la consola.

Con la CLI de Voz también se puede reconocer voz procedente de un archivo de audio. Ejecute el siguiente comando:

spx recognize --file /path/to/file.wav

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help recognize.

Conversión de texto a voz (síntesis de voz)

El comando siguiente toma el texto como entrada y, a continuación, genera la voz sintetizada en el dispositivo de salida activo actual (por ejemplo, los altavoces del equipo).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

La salida sintetizada también se puede guardar en un archivo. En este ejemplo, vamos a crear un archivo llamado my-sample.wav en el directorio donde se ejecuta el comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

En estos ejemplos se presupone que las pruebas se realizan en inglés. Sin embargo, el servicio Voz admite la síntesis de voz en muchos idiomas. Puede desplegar una lista completa de voces ejecutando el siguiente comando o visitando la página de idiomas compatibles.

spx synthesize --voices

Este es un comando para usar una de las voces que ha descubierto.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help synthesize.

Conversión de voz en texto

Con la CLI de Voz, también se puede realizar una conversión de voz a texto. Ejecute el comando siguiente para capturar audio desde el micrófono predeterminado y generar la conversión en texto. Tenga en cuenta que debe especificar el idioma source y target con el comando translate.

spx translate --microphone --source en-US --target ru-RU

Al realizar la conversión a varios idiomas, separe los códigos de idioma con un punto y coma (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Si desea guardar la salida de la conversión, use la marca de --output. En este ejemplo, también se realiza la lectura de un archivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help translate.

Compartir vía

Inicio rápido: introducción a la CLI de Voz de Azure AI

Descargar e instalar

Limitaciones de fuentes

Montaje de un directorio en el contenedor

Ejecución de la CLI de Voz en el contenedor

Creación de una configuración de recursos

Uso básico

Conversión de voz a texto (reconocimiento de voz)

Conversión de texto a voz (síntesis de voz)

Conversión de voz en texto

Pasos siguientes

Comentarios

Recursos adicionales