¿Qué es el servicio voz?

2025-07-10

El servicio Voz proporciona conversión de voz en texto y texto en funcionalidades de voz con un Recurso de voz. Puede transcribir voz en texto con alta precisión, producir voces de texto a voz de sonido natural, traducir audio hablado y usar el reconocimiento del hablante durante las conversaciones.

Imagen de iconos que resaltan algunas características del servicio voz.

Cree voces personalizadas, agregue palabras específicas al vocabulario base o cree sus propios modelos. Ejecute Voz en cualquier lugar, en la nube o en el perímetro en contenedores. Es fácil habilitar aplicaciones, herramientas y dispositivos mediante la CLI de Voz, el SDK de voz y las API de REST.

El servicio de Voz está disponible para muchos idiomas, regiones y puntos de precio.

Escenarios de voz

Entre los escenarios comunes de voz se incluyen:

Subtítulos: Obtenga información sobre la sincronización de los subtítulos con el audio de entrada, la aplicación de filtros de palabras soeces, la obtención de resultados parciales, la aplicación de personalizaciones y la identificación de los idiomas hablados en escenarios multilingües.
Creación de contenido de audio: puede usar voces neuronales para hacer que las interacciones con bots de chat y agentes de voz sean más naturales y atractivas, convierta textos digitales como libros electrónicos en audiobooks y mejore los sistemas de navegación en coche.
Centro de llamadas: Transcriba llamadas en tiempo real o procese las llamadas en lote, censure la información de identificación personal y extraiga información como opiniones para ayudar con el caso de uso del centro de llamadas.
Aprendizaje de idiomas: Proporcione comentarios de evaluación de la pronunciación a los aprendices de idiomas, admita la transcripción en tiempo real para conversaciones de aprendizaje remoto y lea materiales de enseñanza en voz alta con voces neuronales.
Voz en directo: Cree interfaces conversacionales naturales y similares a las humanas para aplicaciones y experiencias. La característica en directo de voz proporciona una interacción rápida y confiable entre un humano y una implementación del agente.

Microsoft usa el servicio de Voz para muchos escenarios, como los subtítulos en Teams, el dictado en Office 365 y la lectura en voz alta en el explorador Microsoft Edge.

Imagen que muestra logotipos de productos de Microsoft en los que se usa el servicio voz.

Funcionalidades de voz

En estas secciones se resumen las características de voz con vínculos para obtener más información.

Conversión de voz en texto

Use la conversión de voz en texto para transcribir audio en texto, ya sea en tiempo real o de forma asincrónica con la transcripción por lotes.

Sugerencia

Puede probar la conversión de voz en texto en tiempo real en Speech Studio sin registrarse ni escribir código.

Convierta audio en texto a partir de una variedad de orígenes, incluidos micrófonos, archivos de audio y almacenamiento de blobs. Use la diarización del hablante para determinar quién dijo qué y cuándo. Obtenga transcripciones legibles con formato automático y puntuación.

Es posible que el modelo base no sea suficiente si el audio contiene ruido ambiental o incluye una gran cantidad de jerga específica del sector y del dominio. En estos casos, puede crear y entrenar modelos de voz personalizados con datos acústicos, de lenguaje y pronunciación. Los modelos de voz personalizados son privados y pueden ofrecer una ventaja competitiva.

Conversión de voz en texto en tiempo real

Con la conversión de voz en texto en tiempo real, el audio se transcribe mientras la voz se reconoce desde un micrófono o archivo. Use la voz en tiempo real en texto para las aplicaciones que necesitan transcribir audio en tiempo real, como:

Transcripciones, títulos o subtítulos para reuniones en directo
Diarización
Valoración de la pronunciación
Asistencia de agentes del centro de contactos
Dictado
Agentes de voz

API de transcripción rápida

La API de Transcripción rápida se usa para transcribir archivos de audio con resultados de forma sincrónica y mucho más rápidos que en el audio en tiempo real. Use la transcripción rápida en los escenarios en los que necesite la transcripción de una grabación de audio lo más rápido posible con una latencia predecible, como los siguientes:

Transcripción rápida de audio o vídeo, subtítulos y edición.
Traducción de vídeo

Para empezar a trabajar con la transcripción rápida, consulte usar la API de transcripción rápida.

Transcripción por lotes

Transcripción por lotes se usa para transcribir una gran cantidad de audio en el almacenamiento. Puede apuntar a archivos de audio con un identificador URI de firma de acceso compartido (SAS) y recibir los resultados de las transcripciones de forma asincrónica. Use la transcripción por lotes para las aplicaciones que necesitan transcribir audio de forma masiva, como:

Transcripciones, títulos o subtítulos para audio grabado previamente
Análisis de llamadas posteriores al centro de contactos
Diarización

Texto a voz

Con texto a voz, puede convertir el texto de entrada en una voz sintetizada similar a la humana. Use voces neuronales, que son voces similares a las humanas con tecnología de redes neuronales profundas. Use el Lenguaje de marcado de síntesis de voz (SSML) para un ajuste preciso del tono, la pronunciación, la velocidad del habla, el volumen y mucho más.

Voz Estándar: voces predefinidas muy naturales. Compruebe los ejemplos de voz estándar de la Galería de voz y determine la voz adecuada para sus necesidades empresariales.
Voz personalizada: además de las voces estándar que salen de la caja, también puede crear una voz personalizada que sea reconocible y única para su marca o producto. Las voces personalizadas son privadas y pueden ofrecer una ventaja competitiva. Consulte los ejemplos de voz personalizados aquí.

Traducción de voz

Traducción de voz permite la traducción multilingüe y en tiempo real de voz a sus aplicaciones, herramientas y dispositivos. Use esta característica para la conversión de voz en voz y voz en texto.

Identificación del idioma

Identificación del idioma se usa para identificar los idiomas que se hablan en el audio mediante la comparación con una lista de idiomas admitidos. Use la identificación del idioma por sí mismo, con el reconocimiento de voz en texto o con la traducción de voz.

Reconocimiento del hablante

El reconocimiento del hablante proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas. El reconocimiento del hablante se usa para responder a la pregunta"¿Quién habla?".

Evaluación de pronunciación

La evaluación de la pronunciación evalúa la pronunciación de la voz y ofrece a los oradores comentarios sobre la precisión y la fluidez del audio hablado. Con la evaluación de la pronunciación, los estudiantes de idiomas pueden practicar, obtener comentarios instantáneos y mejorar su pronunciación para poder hablar y realizar presentaciones con confianza.

Reconocimiento de la intención

Reconocimiento de intenciones: Use la conversión de voz en texto con reconocimiento del lenguaje conversacional para deducir las intenciones del usuario a partir de la voz transcrita y actuar en los comandos de voz.

Entrega y presencia

Puede implementar características de Voz de Azure AI en la nube o en el entorno local.

Con los contenedores, puede acercar el servicio a los datos por motivos de cumplimiento, seguridad u otras razones operativas.

La implementación del servicio de Voz en nubes soberanas está disponible para algunas entidades gubernamentales y sus asociados. Por ejemplo, la nube de Azure Government está disponible para las entidades de la Administración Pública de Estados Unidos y sus asociados. Microsoft Azure operado por la nube 21Vianet está disponible para las organizaciones con presencia empresarial en China. Para obtener más información, consulte nubes soberanas.

Diagrama en el que se muestra dónde se puede implementar y acceder al servicio voz.

Uso del servicio de Voz en la aplicación

El Speech Studio es un conjunto de herramientas basadas en la interfaz de usuario para crear e integrar características del servicio de Voz de Azure AI en las aplicaciones. Debe crear proyectos en Speech Studio mediante un enfoque sin código y, a continuación, hacer referencia a esos recursos en las aplicaciones mediante el SDK de Voz, la CLI de Voz o las API de REST.

La CLI del servicio de Voz es una herramienta de la línea de comandos para usar el servicio de Voz sin necesidad de escribir código. La mayoría de las características principales del SDK de voz están disponibles en la CLI de voz, y algunas características y personalizaciones avanzadas se han simplificado en esta última.

El SDK de Voz expone muchas de las funcionalidades del servicio de Voz que se pueden usar para desarrollar aplicaciones habilitadas para voz. El SDK de voz está disponible en muchos lenguajes de programación y en todas las plataformas.

En algunos casos, no puede o no debe usar el SDK de Voz. En esos casos, puede usar las API REST para acceder al servicio de Voz. Por ejemplo, use las API REST para transcripción por lotes y las API REST de reconocimiento del hablante.

Primeros pasos

Ofrecemos inicios rápidos en los lenguajes de programación más conocidos. El diseño de cada inicio rápido le permite ejecutar el código en menos de 10 minutos. Consulte la siguiente lista para obtener la guía de inicio rápido de cada característica:

Ejemplos de código

Hay disponible código de ejemplo para el servicio de Voz en GitHub. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados. Use estos vínculos para ver ejemplos de SDK y REST:

Inteligencia artificial responsable

Un sistema de inteligencia artificial incluye no solo la tecnología, sino también las personas que la usan, las personas afectadas por ella y el entorno en el que se implementa. Lea las notas de transparencia para obtener información sobre el uso y la implementación de inteligencia artificial responsable en los sistemas.

Compartir a través de

¿Qué es el servicio voz?

Escenarios de voz

Funcionalidades de voz

Conversión de voz en texto

Conversión de voz en texto en tiempo real

API de transcripción rápida

Transcripción por lotes

Texto a voz

Traducción de voz

Identificación del idioma

Reconocimiento del hablante

Evaluación de pronunciación

Reconocimiento de la intención

Entrega y presencia

Uso del servicio de Voz en la aplicación

Primeros pasos

Ejemplos de código

Inteligencia artificial responsable

Conversión de voz en texto

Valoración de la pronunciación

Voz personalizada

Reconocimiento de voz

Pasos siguientes

Comentarios

Recursos adicionales