Inicio rápido: introducción a la CLI de Voz de Azure AI
En este artículo, aprenderá a usar la CLI de Voz de Azure AI (también denominada SPX) para tener acceso a servicios Voz como conversión de voz en texto, texto a voz y traducción de voz, sin tener que escribir código. La CLI de Voz está lista para producción y puede usarla para automatizar flujos de trabajo sencillos en el servicio Voz mediante scripts de shell o .bat
.
En este artículo se supone que tiene conocimientos prácticos de la ventana del símbolo del sistema, un terminal o PowerShell.
Nota
En PowerShell, el token stop-parsing (--%
) debe seguir a spx
. Por ejemplo, ejecute spx --% config @region
para ver el valor de configuración de la región actual.
Descargar e instalar
Siga estos pasos para instalar la CLI de Voz en Windows:
Instale Microsoft Visual C++ Redistributable para Visual Studio 2019 para su plataforma. Durante la primera instalación es posible que deba reiniciar.
Instale .NET 6.
Para instalar la CLI de Voz mediante la CLI de .NET, escriba este comando:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
Para actualizar la CLI de Voz, escriba este comando:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
Escriba spx
o spx help
para ver la ayuda de la CLI de Voz.
Limitaciones de fuentes
En Windows, la CLI de Voz solo puede mostrar las fuentes que están disponibles para el símbolo del sistema en el equipo local. El terminal de Windows admite todas las fuentes que genera de manera interactiva la CLI de Voz.
Si se genera la salida a un archivo, un editor de texto como el Bloc de notas o un explorador Web como Microsoft Edge también pueden mostrar todas las fuentes.
Creación de una configuración de recursos
Para empezar, necesita una clave de recurso de Voz y un identificador de región (por ejemplo, eastus
, westus
). Cree un recurso de voz en Azure Portal. Para obtener más información, consulte Creación de un recurso de servicios de Azure AI.
Para configurar la clave de recurso y el identificador de región, ejecute los comandos siguientes:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
La clave y la región se almacenan para futuros comandos de la CLI de Voz. Para ver la configuración actual, ejecute los siguientes comandos:
spx config @key
spx config @region
Según sea necesario, incluya la opción clear
para quitar cualquier valor almacenado:
spx config @key --clear
spx config @region --clear
Uso básico
Importante
Al usar la CLI de Voz en un contenedor, incluya la opción --host
. También debes especificar --key none
para garantizar que la CLI no intenta usar una clave de Azure Cognitive Service para voz para la autenticación. Por ejemplo, ejecute spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
para reconocer la voz de un archivo de audio en un contenedor de conversión de voz a texto.
En esta sección se muestran algunos comandos básicos de SPX que a menudo resultan útiles para la prueba y la experimentación iniciales. Para ver la ayuda den la herramienta, ejecute el siguiente comando:
spx
Puede buscar temas de ayuda por palabra clave. Por ejemplo, para ver una lista de ejemplos de uso de la CLI de Voz, ejecute el siguiente comando:
spx help find --topics "examples"
Para ver las opciones del comando recognize
, ejecute el siguiente comando:
spx help recognize
En la salida de la consola se muestran más comandos de ayuda. Escríbalos si desea obtener ayuda detallada acerca de los subcomandos.
Conversión de voz a texto (reconocimiento de voz)
Nota
No puede usar el micrófono del equipo al ejecutar la CLI de Voz dentro de un contenedor de Docker. Sin embargo, puede leer y guardar archivos de audio en el directorio montado local.
Para convertir voz en texto (reconocimiento de voz) mediante el micrófono predeterminado del sistema, ejecute el siguiente comando:
spx recognize --microphone
Después de ejecutar el comando, SPX comienza a escuchar el audio en el dispositivo de entrada activo actual. Deja de escuchar cuando se selecciona Entrar. El audio con voz se reconoce y se convierte a texto en la salida de la consola.
Con la CLI de Voz también se puede reconocer voz procedente de un archivo de audio. Ejecute el siguiente comando:
spx recognize --file /path/to/file.wav
Sugerencia
Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help recognize
.
Conversión de texto a voz (síntesis de voz)
El comando siguiente toma el texto como entrada y, a continuación, genera la voz sintetizada en el dispositivo de salida activo actual (por ejemplo, los altavoces del equipo).
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
La salida sintetizada también se puede guardar en un archivo. En este ejemplo, vamos a crear un archivo llamado my-sample.wav en el directorio donde se ejecuta el comando.
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
En estos ejemplos se presupone que las pruebas se realizan en inglés. Sin embargo, el servicio Voz admite la síntesis de voz en muchos idiomas. Puede desplegar una lista completa de voces ejecutando el siguiente comando o visitando la página de idiomas compatibles.
spx synthesize --voices
Este es un comando para usar una de las voces que ha descubierto.
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
Sugerencia
Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help synthesize
.
Conversión de voz en texto
Con la CLI de Voz, también se puede realizar una conversión de voz a texto. Ejecute el comando siguiente para capturar audio desde el micrófono predeterminado y generar la conversión en texto. Tenga en cuenta que debe especificar el idioma source
y target
con el comando translate
.
spx translate --microphone --source en-US --target ru-RU
Al realizar la conversión a varios idiomas, separe los códigos de idioma con un punto y coma (;
).
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
Si desea guardar la salida de la conversión, use la marca de --output
. En este ejemplo, también se realiza la lectura de un archivo.
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
Sugerencia
Si se atasca o desea obtener más información sobre las opciones de reconocimiento de la CLI de Voz, puede ejecutar spx help translate
.