Share via


¿Qué es la transcripción de reuniones? (versión preliminar)

La transcripción de reuniones es una solución de conversión de voz en texto que proporciona transcripción asincrónica o en tiempo real de cualquier reunión. Esta característica, que se encuentra actualmente en versión preliminar, combina el reconocimiento de voz, la identificación del hablante y la atribución de oraciones para determinar quién ha dicho qué y cuándo en una reunión.

Importante

El antiguo escenario "transcripción de conversaciones" pasa a llamarse "transcripción de reuniones". Por ejemplo, use MeetingTranscriber en lugar de ConversationTranscriber, y use CreateMeetingAsync en lugar de CreateConversationAsync. Se lanza una nueva característica de "transcripción de conversaciones" sin usar perfiles de usuario ni firmas de voz. Para más información, consulte las notas de la versión.

Principales características

Es posible que encuentre útiles las siguientes características de transcripción de reuniones :

  • Marcas de tiempo: cada expresión del hablante tiene una marca de tiempo, por lo que puede encontrar fácilmente cuándo se dijo una frase.
  • Transcripciones legibles: el formato y la puntuación de las transcripciones se agregan automáticamente para garantizar que el texto coincide lo más posible con lo que se ha dicho.
  • Perfiles de usuario: los perfiles de usuario se generan mediante la recopilación de muestras de voz de usuarios y el envío de estas a la generación de firmas.
  • Identificación del hablante: los hablantes se identifican mediante perfiles de usuario; a cada hablante se le asigna un identificador de hablante.
  • Diarización de varios hablantes: determine quién dijo qué mediante la sintetización de la secuencia de audio con cada identificador de hablante.
  • Transcripción en tiempo real: proporcione transcripciones en directo de quién dice qué y en qué momento mientras tiene lugar la reunión.
  • Transcripción asincrónica: proporcione transcripciones con una mayor precisión mediante una secuencia de audio de varios canales.

Nota

Aunque la transcripción de reuniones no impone un límite sobre el número de hablantes en la sala, está optimizada para entre 2 y 10 hablantes por sesión.

Introducción

Consulte la guía de inicio rápido de transcripción de reuniones en tiempo real para comenzar.

Casos de uso

Para que las reuniones sean inclusivas para todo el mundo, por ejemplo, para los participantes sordos y con dificultades auditivas, es importante contar con transcripción en tiempo real. La transcripción de reuniones en tiempo real toma el audio de una reunión y determina quién dice qué, lo que permite a todos los participantes seguir la transcripción y participar en la reunión sin ningún retraso.

Los participantes en la reunión pueden centrarse en la reunión y dejar la toma de notas a la transcripción de reuniones . De este modo, pueden participar activamente en la reunión y realizar un seguimiento rápido de los pasos que vienen a continuación valiéndose de la transcripción en lugar de tomar notas y perderse algo posiblemente durante el evento.

Funcionamiento

En el siguiente diagrama se proporciona información general sobre el funcionamiento de la característica.

En el diagrama siguiente se muestran las relaciones entre las distintas partes de la solución de la transcripción de reuniones.

Entradas esperadas

La transcripción de reuniones usa dos tipos de entradas:

  • Secuencia de audio de varios canales: para conocer las especificaciones y los detalles de diseño, consulte Recomendación de la matriz de micrófonos.
  • Muestras de voz de usuarios: la transcripción de reuniones necesita perfiles de usuario antes de la conversación para la identificación del hablante. Recopile grabaciones de audio de cada usuario y, luego, envíelas al servicio de generación de firmas para validar el audio y generar los perfiles de usuario.

Nota

La configuración de audio de canal único para la transcripción de reuniones solo está disponible actualmente en versión preliminar privada.

Se requieren ejemplos de voz de usuario para las firmas de voz para la identificación del hablante. Los hablantes que no tengan ejemplos de voz se marcarán como Sin identificar. Los hablantes no identificados se pueden diferenciar igualmente si la propiedad DifferentiateGuestSpeakers está habilitada (consulte el ejemplo siguiente). A continuación, la salida de la transcripción muestra a los hablantes como, por ejemplo, Guest_0 y Guest_1, en lugar de reconocerlos como nombres de hablantes específicos inscritos previamente.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Tiempo real frente a asincrónico

En las secciones siguientes se proporcionan más detalles sobre los modos de transcripción que puede elegir.

Tiempo real

Los datos de audio se procesan en directo para devolver el identificador y la transcripción del hablante. Seleccione este modo si quiere usar la solución de transcripción para proporcionar a los participantes de la reunión una vista de la transcripción en directo de su reunión en curso. Por ejemplo, crear una aplicación para que las reuniones sean más accesibles para los participantes sordos y con dificultades auditivas es un caso de uso idóneo para la transcripción en tiempo real.

Asincrónica

Los datos de audio se procesan por lotes para devolver el identificador y la transcripción del hablante. Seleccione este modo si quiere usar la solución de transcripción para proporcionar una mayor precisión sin la vista de la transcripción en directo. Por ejemplo, si quiere crear una aplicación para permitir que los participantes de la reunión se pongan al día fácilmente con las reuniones a las que han faltado, use el modo de transcripción asincrónica para obtener resultados de transcripción de alta precisión.

Tiempo real y asincrónico

Los datos de audio se procesan en directo para devolver el identificador y la transcripción del hablante; además, se solicita una transcripción de alta precisión mediante el procesamiento asincrónico. Seleccione este modo si la aplicación necesita una transcripción en tiempo real y también requiere una transcripción de mayor precisión después de la reunión.

Compatibilidad con idiomas

Actualmente, la transcripción de reuniones admite todos los idiomas de conversión de voz en texto en las siguientes regiones: centralus, eastasia, eastus y westeurope.

Pasos siguientes