Compartir vía


Inicio rápido: introducción a la CLI de Voz de Azure AI

En este artículo, aprenderá a usar la CLI de Voz de Azure AI (también denominada SPX) para tener acceso a servicios Voz como conversión de voz en texto, texto a voz y traducción de voz, sin tener que escribir código. La CLI de Voz está lista para producción y puede usarla para automatizar flujos de trabajo sencillos en el servicio Voz mediante scripts de shell o .bat.

En este artículo se supone que tiene conocimientos prácticos de la ventana del símbolo del sistema, un terminal o PowerShell.

Nota

En PowerShell, el token stop-parsing (--%) debe seguir a spx. Por ejemplo, ejecute spx --% config @region para ver el valor de configuración de la región actual.

Descargar e instalar

Siga estos pasos para instalar la CLI de Voz en Windows:

  1. Instale Microsoft Visual C++ Redistributable para Visual Studio 2019 para su plataforma. Durante la primera instalación es posible que deba reiniciar.

  2. Instale .NET 6.

  3. Para instalar la CLI de Voz mediante la CLI de .NET, escriba este comando:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    Para actualizar la CLI de Voz, escriba este comando:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

Escriba spx o spx help para ver la ayuda de la CLI de Voz.

Limitaciones de fuentes

En Windows, la CLI de Voz solo puede mostrar las fuentes que están disponibles para el símbolo del sistema en el equipo local. El terminal de Windows admite todas las fuentes que genera de manera interactiva la CLI de Voz.

Si se genera la salida a un archivo, un editor de texto como el Bloc de notas o un explorador Web como Microsoft Edge también pueden mostrar todas las fuentes.

Creación de una configuración de recursos

Para empezar, necesita una clave de recurso de Voz y un identificador de región (por ejemplo, eastus, westus). Cree un recurso de voz en Azure Portal. Para obtener más información, consulte Creación de un recurso de servicios de Azure AI.

Para configurar la clave de recurso y el identificador de región, ejecute los comandos siguientes:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

La clave y la región se almacenan para futuros comandos de la CLI de Voz. Para ver la configuración actual, ejecute los siguientes comandos:

spx config @key
spx config @region

Según sea necesario, incluya la opción clear para quitar cualquier valor almacenado:

spx config @key --clear
spx config @region --clear

Uso básico

Importante

Al usar la CLI de Voz en un contenedor, incluya la opción --host. También debes especificar --key none para garantizar que la CLI no intenta usar una clave de Azure Cognitive Service para voz para la autenticación. Por ejemplo, ejecute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav para reconocer la voz de un archivo de audio en un contenedor de conversión de voz a texto.

En esta sección se muestran algunos comandos básicos de SPX que a menudo resultan útiles para la prueba y la experimentación iniciales. Para ver la ayuda den la herramienta, ejecute el siguiente comando:

spx

Puede buscar temas de ayuda por palabra clave. Por ejemplo, para ver una lista de ejemplos de uso de la CLI de Voz, ejecute el siguiente comando:

spx help find --topics "examples"

Para ver las opciones del comando recognize, ejecute el siguiente comando:

spx help recognize

En la salida de la consola se muestran más comandos de ayuda. Escríbalos si desea obtener ayuda detallada acerca de los subcomandos.

Conversión de voz a texto (reconocimiento de voz)

Nota

No puede usar el micrófono del equipo al ejecutar la CLI de Voz dentro de un contenedor de Docker. Sin embargo, puede leer y guardar archivos de audio en el directorio montado local.

Para convertir voz en texto (reconocimiento de voz) mediante el micrófono predeterminado del sistema, ejecute el siguiente comando:

spx recognize --microphone

Después de ejecutar el comando, SPX comienza a escuchar el audio en el dispositivo de entrada activo actual. Deja de escuchar cuando se selecciona Entrar. El audio con voz se reconoce y se convierte a texto en la salida de la consola.

Con la CLI de Voz también se puede reconocer voz procedente de un archivo de audio. Ejecute el siguiente comando:

spx recognize --file /path/to/file.wav

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help recognize.

Conversión de texto a voz (síntesis de voz)

El comando siguiente toma el texto como entrada y, a continuación, genera la voz sintetizada en el dispositivo de salida activo actual (por ejemplo, los altavoces del equipo).

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

La salida sintetizada también se puede guardar en un archivo. En este ejemplo, vamos a crear un archivo llamado my-sample.wav en el directorio donde se ejecuta el comando.

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

En estos ejemplos se presupone que las pruebas se realizan en inglés. Sin embargo, el servicio Voz admite la síntesis de voz en muchos idiomas. Puede desplegar una lista completa de voces ejecutando el siguiente comando o visitando la página de idiomas compatibles.

spx synthesize --voices

Este es un comando para usar una de las voces que ha descubierto.

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help synthesize.

Conversión de voz en texto

Con la CLI de Voz, también se puede realizar una conversión de voz a texto. Ejecute el comando siguiente para capturar audio desde el micrófono predeterminado y generar la conversión en texto. Tenga en cuenta que debe especificar el idioma source y target con el comando translate.

spx translate --microphone --source en-US --target ru-RU

Al realizar la conversión a varios idiomas, separe los códigos de idioma con un punto y coma (;).

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

Si desea guardar la salida de la conversión, use la marca de --output. En este ejemplo, también se realiza la lectura de un archivo.

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

Sugerencia

Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help translate.

Pasos siguientes