Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
El servicio voz acepta y proporciona audio en varios formatos, y el área de audio es un tema complejo, pero puede resultar útil cierta información en segundo plano.
Conceptos de audio
La voz es intrínsecamente analógica, que se aproxima al convertirlo en una señal digital mediante el muestreo. El número de veces que se muestrea por segundo es la frecuencia de muestreo y la precisión de cada muestra se define mediante la profundidad de bits.
Frecuencia de muestreo
Cuántas muestras de audio hay por segundo. Una frecuencia de muestreo más alta reproducirá con más precisión frecuencias más altas, como la música. Normalmente, los seres humanos pueden escuchar entre 20 Hz y 20 kHz, pero más sensibles hasta 5 kHz. La frecuencia de muestreo debe ser el doble de la frecuencia más alta, por lo que para la voz humana una frecuencia de muestreo de 16 kHz normalmente es adecuada, pero una frecuencia de muestreo más alta puede proporcionar una mayor calidad aunque archivos más grandes. El valor predeterminado para la conversión de voz en texto y texto a voz es de 16 kHz, pero se recomienda 48 kHz para los libros de audio. Algunos audios de origen están en 8 kHz, especialmente cuando proceden de sistemas de telecomunicaciones heredados, lo que dará como resultado resultados degradados.
Profundidad de bits
Las muestras de audio sin comprimir se representan mediante muchos bits que definen su precisión o resolución. Para la voz humana se necesitan 13 bits, que se redondea hasta una muestra de 16 bits. Se necesitaría una profundidad de bits más alta para el audio profesional o la música. Los sistemas de telefonía heredados suelen usar 8 bits con compresión, pero no es ideal.
Canales
El servicio voz normalmente espera y proporciona una secuencia mono. El comportamiento de los archivos estéreo y de varios canales es específico de la API, por ejemplo, la API REST de voz en texto dividirá un archivo estéreo y generará un resultado para cada canal. Solo texto a voz es mono.
Formatos y códecs de audio
Para que el servicio voz pueda usar el audio, debe saber cómo está codificado. Además, como los archivos de audio pueden ser relativamente grandes, es habitual usar compresión para reducir su tamaño. Los archivos de audio y las secuencias se pueden describir mediante su formato de contenedor y el códec de audio. Los contenedores comunes son WAV o MP4 y los formatos de audio comunes son PCM o MP3. Normalmente no se puede suponer que un contenedor usa un formato de audio específico, por ejemplo, los archivos WAV suelen contener datos PCM, pero otros formatos de audio son posibles.
Audio sin comprimir
El servicio voz funciona internamente en audio sin comprimir, que se codifica con modulación de código de pulso (o PCM). Esto significa que cada muestra representa la amplitud de la señal. Se trata de una representación sencilla para el procesamiento, pero no de espacio eficiente, por lo que la compresión se suele usar para transportar audio.
Audio comprimido con pérdida
Los algoritmos de pérdida pueden permitir una mayor compresión, lo que da lugar a archivos más pequeños o un ancho de banda menor, lo que puede ser importante en las conexiones móviles o redes ocupadas. Un formato de audio común es MP3, que es un ejemplo de compresión perdida. Los archivos MP3 son significativamente más pequeños que los originales y pueden sonar casi idénticos al original, pero no se puede volver a crear el archivo de origen exacto. La compresión de pérdida funciona quitando partes del audio o aproximándolas. Al codificar con un algoritmo de pérdida, se reduce el ancho de banda para obtener precisión.
MP3 se diseñó para música en lugar de voz.
AMR y AMR-WB se diseñaron para comprimir eficazmente la voz para teléfonos móviles, y no funcionarán ni tampoco representar música o ruido.
A-Law y Mu-Law son algoritmos más antiguos que comprimen cada muestra por sí mismo y convierten una muestra de 16 bits a 8 bits mediante una técnica de cuantificación logarítmica. Solo se debe usar para admitir sistemas heredados.
Audio comprimido sin pérdida
La compresión sin pérdida permite volver a crear el archivo original sin comprimir. El archivo comprimido suele ser mucho menor que el original, sin pérdida, pero la compresión real depende de la entrada. Logra la compresión mediante varios métodos para quitar la redundancia del archivo.
La compresión sin pérdida más común es FLAC.