¿Qué es la CLI de Voz?

Artículo
01/22/2024

La CLI de Voz es una herramienta de línea de comandos para usar el servicio Voz sin necesidad de escribir código. La CLI de Voz requiere una configuración mínima. Puede usarla fácilmente para experimentar con características clave del servicio Voz y ver cómo funciona con sus casos de uso. En cuestión de minutos, podrá ejecutar flujos de trabajo de prueba sencillos como, por ejemplo, el reconocimiento de voz por lotes de un directorio de archivos o la conversión de texto a voz en una colección de cadenas de un archivo. Además de los flujos de trabajo sencillos, la CLI de Voz está preparada para producción y se puede escalar verticalmente para ejecutar procesos más grandes mediante scripts de shell o .bat automatizados.

La mayoría de las características principales del SDK de voz están disponibles en la CLI de voz, y algunas características y personalizaciones avanzadas se han simplificado en esta última. Tenga en cuenta las siguientes instrucciones para decidir cuándo usar la CLI de Voz o el SDK de Voz.

Use la CLI de voz cuando:

Quiera experimentar con las características del servicio Voz con una configuración mínima y sin necesidad de escribir código.
Tenga requisitos relativamente sencillos para una aplicación de producción que use el servicio Voz.

Use el SDK de voz cuando:

Desee integrar la funcionalidad del servicio de Voz con un lenguaje o plataforma específicos (por ejemplo, C#, Python o C++).
Tiene requisitos complejos que pueden requerir solicitudes de servicio avanzadas.
Está desarrollando un comportamiento personalizado, incluido el streaming de respuesta.

Características principales

Reconocimiento de voz: convierta voz en texto a partir de archivos de audio o directamente de un micrófono, o transcriba una conversación grabada.
Síntesis de voz: convierta texto en voz mediante la entrada de archivos de texto o directamente desde la línea de comandos. Personalice las características de salida de voz mediante configuraciones del lenguaje de marcado de síntesis de voz (SSML).
Traducción de voz: traduce el audio de un idioma de origen en texto o audio en un idioma de destino.
Ejecución en recursos de proceso de Azure: envíe comandos de la CLI de Voz para ejecutarlos en un recurso de proceso remoto de Azure mediante spx webjob.

Introducción

Para empezar a usar la CLI de voz, consulte la guía de inicio rápido. En este artículo se muestra cómo ejecutar algunos comandos básicos. También proporciona comandos ligeramente más avanzados para ejecutar operaciones por lotes para la conversión de voz en texto y de texto en voz. Después de leer el artículo de conceptos básicos, debe comprender la sintaxis lo suficientemente bien como para empezar a escribir algunos comandos personalizados o automatizar operaciones sencillas del servicio Voz.

¿Qué es la CLI de Voz?

Características principales

Introducción

Pasos siguientes

Recursos adicionales