Integración y uso del reconocimiento y la transcripción de voz

2 minutos

El servicio de voz es la unificación de la conversión de voz en texto, la conversión de texto en voz y la traducción de voz en una sola suscripción a Azure. Es fácil habilitar la voz en tus aplicaciones, herramientas y dispositivos con la CLI de voz, el SDK de voz, el SDK de dispositivos de voz, Speech Studio o las API REST.

Reconocimiento de voz

El servicio Speaker Recognition proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas mediante la biometría de la voz. Se usa para responder a la pregunta "¿quién habla?" En primer lugar, proporcionará datos de entrenamiento de audio para un solo hablante, lo que creará un perfil de inscripción basado en las características únicas de la voz del hablante. A continuación, puede realizar una comprobación adicional de las muestras de voz de audio con este perfil para verificar que el hablante sea la misma persona (verificación del hablante), o bien puede realizar una comprobación adicional de las muestras de voz de audio con un grupo de perfiles de hablante inscritos para ver si coincide con algún perfil del grupo (identificación del hablante). Por el contrario, Speaker Diarization usa una operación por lotes para agrupar secuencias de audio por identidad del hablante, lo que significa que cada uno de ellos tendría sus propios segmentos de audio.

Transcripción

La transcripción es un conjunto de operaciones de API REST que permiten transcribir audio en el almacenamiento. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.

Comandos de voz de MRTK

Al igual que con la entrada de voz de Windows, los proveedores de entrada de voz no crean ningún controlador, sino que permiten definir palabras clave que generarán eventos de entrada de voz cuando se reconozcan. Configurará las palabras clave para que se reconozcan en el perfil de comandos de voz del perfil del sistema de entrada. Para cada comando también puede hacer lo siguiente:

Seleccionar una acción de entrada a la que asignar el comando. De este modo, por ejemplo, puede usar la palabra clave "select" para que tenga el mismo efecto que un clic izquierdo del mouse mediante la asignación de ambos elementos a la misma acción.
Especifique un código clave que produzca el mismo evento de voz cuando se presione.
Agregue una clave de localización que se use en las aplicaciones para UWP con el fin de obtener la palabra clave localizada de los recursos de la aplicación.

SDK de voz

El kit de desarrollo de software (SDK) de voz expone muchas funcionalidades del servicio de voz para que pueda desarrollar aplicaciones habilitadas para voz. El SDK de voz está disponible en muchos lenguajes de programación y en todas las plataformas. El SDK de Voz expone muchas características (aunque no todas) del servicio de voz. Las funcionalidades del SDK de voz suelen estar asociadas con escenarios. El SDK de voz es perfecto para escenarios en tiempo real y no en tiempo real, ya que se usan dispositivos locales, archivos, almacenamiento de blobs de Azure e incluso flujos de entrada y salida. Cuando un escenario no sea factible con el SDK de voz, busque una alternativa de la API REST.

Percepción espacial

La percepción espacial ofrece acceso mediante programación a los datos de asignación espacial, lo que proporciona a las aplicaciones de realidad mixta información sobre las superficies de las regiones de espacio especificadas por la aplicación cerca del usuario. Declare la funcionalidad de percepción espacial solo cuando la aplicación use explícitamente estas mallas de superficie. La capacidad no es necesaria para que las aplicaciones de realidad mixta realicen la representación holográfica en función de la posición de la cabeza del usuario.

Servidor de clientes de Internet

El servidor cliente de Internet permite escenarios de punto a punto (P2P) en los que la aplicación necesita escuchar las conexiones de red entrantes.

Servidor de clientes de redes privadas

El servidor cliente de red privada proporciona acceso de entrada y salida a las redes doméstica y de trabajo a través del firewall. Esta capacidad se utiliza normalmente para juegos que se comunican a través de la red de área local (LAN) y para aplicaciones que comparten datos a través de varios dispositivos locales.

Continuar