Compartilhar via


O que é a transcrição de reunião? (Visualização)

A transcrição de reunião é uma solução de conversão de fala em texto que fornece a transcrição em tempo real ou assíncrona de qualquer reunião. Esse recurso, atualmente em versão prévia, combina reconhecimento de fala, identificação de locutor e atribuição de frases para determinar quem disse o quê e quando em uma conversa.

Importante

O antigo cenário de "transcrição de conversas" foi renomeado como "transcrição de reunião". Por exemplo, use MeetingTranscriber em vez de ConversationTranscriber e use CreateMeetingAsync em vez de CreateConversationAsync. Um novo recurso de "transcrição de conversas" foi lançado sem o uso de perfis de usuário e assinaturas de voz. Para obter mais informações, consulte as notas sobre a versão.

Principais recursos

Os seguintes recursos de transcrição de reunião podem ser úteis:

  • Carimbos de data/hora: o enunciado de cada locutor tem um carimbo de data/hora, de modo que você possa encontrar com facilidade quando uma frase foi dita.
  • Transcrições legíveis: as transcrições têm formatação e sinais de pontuação adicionados automaticamente para garantir que o texto se aproxime do que foi dito.
  • Perfis de usuário: os perfis de usuário são gerados pela coleta de exemplos de voz do usuário e pelo envio deles à geração de assinatura.
  • Identificação de locutor: os locutores são identificados com o uso de perfis de usuário, e um identificador de locutor é atribuído a cada um deles.
  • Diarização de vários locutores: determine quem disse o quê sintetizando o fluxo de áudio com cada identificador de locutor.
  • Transcrição em tempo real: forneça transcrições ao vivo de quem está dizendo o quê e quando durante a conversa.
  • Transcrição assíncrona: forneça transcrições com maior precisão usando um fluxo de áudio multicanal.

Observação

Embora a transcrição de reunião não imponha um limite para o número de locutores na sala, ela é otimizada para dois a dez locutores por sessão.

Introdução

Confira o guia de início rápido da transcrição de reunião em tempo real para começar a usá-la.

Casos de uso

Para tornar as reuniões inclusivas para todos, como participantes surdos ou com deficiência auditiva, é importante apresentar transcrições em tempo real. O modo de transcrição de reunião em tempo real analisa o áudio de uma reunião e determina quem está dizendo o quê, permitindo que todos os participantes da reunião acompanhem a transcrição e participem sem atraso.

Os participantes podem se concentrar na reunião e deixar as anotações para a transcrição. Os participantes podem se envolver ativamente na reunião e ficar a par das próximas etapas rapidamente, usando a transcrição em vez de fazer anotações e, possivelmente, perder alguma informação durante a reunião.

Como ele funciona

O diagrama a seguir mostra uma visão geral de alto nível de como funciona o recurso.

Diagrama que mostra as relações entre diferentes partes da solução de transcrição de reunião.

Entradas esperadas

A transcrição de reunião usa dois tipos de entradas:

  • Fluxo de áudio multicanal: para ver detalhes de especificação e design, confira Recomendações de matriz de microfone.
  • Amostras de voz do usuário: a transcrição de reunião precisa ter perfis de usuário antes da conversa para fins de identificação de locutor. Colete gravações de áudio de cada usuário e envie-as ao serviço de geração de assinatura para validar o áudio e gerar perfis de usuário.

Observação

Atualmente, a configuração de áudio de canal único para a transcrição de reunião só está disponível na versão prévia privada.

Amostras de voz do usuário para assinaturas de voz são necessárias para identificação de locutor. Os locutores que não tiverem exemplos de voz serão reconhecidos como não identificados. Os locutores não identificados ainda poderão ser diferenciados quando a propriedade DifferentiateGuestSpeakers estiver habilitada (veja o exemplo a seguir). A saída de transcrição mostra os locutores como, por exemplo, Guest_0 e Guest_1, em vez de reconhecê-los como nomes de locutores específicos previamente registrados.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Tempo real ou assíncrona

As seções a seguir fornecem mais detalhes sobre os modos de transcrição que você pode escolher.

Tempo real

Os dados de áudio são processados ao vivo para retornar o identificador de locutor e a transcrição. Escolha esse modo se você precisa que a solução de transcrição apresente aos participantes uma exibição ao vivo da transcrição da reunião em andamento. Por exemplo, criar um aplicativo para tornar as reuniões mais acessíveis aos participantes surdos ou com deficiência auditiva é um caso de uso ideal para a transcrição em tempo real.

Assíncronos

Os dados de áudio são processados em lote para retornar o identificador de locutor e a transcrição. Escolha esse modo se você precisa que a solução de transcrição apresente maior precisão sem uma exibição da transcrição ao vivo. Por exemplo, se você quer criar um aplicativo para permitir que os participantes da reunião possam assistir facilmente as reuniões perdidas, use o modo de transcrição assíncrona para obter resultados de transcrição com alta precisão.

Em tempo real e assíncrona

Os dados de áudio são processados ao vivo para retornar o identificador de locutor e a transcrição. Além disso, eles solicitam uma transcrição de alta precisão por meio do processamento assíncrono. Escolha esse modo se o seu aplicativo exige a transcrição em tempo real e também uma transcrição de maior precisão para uso após a reunião.

Suporte ao idioma

No momento, a transcrição de reunião dá suporte a todos os idiomas de conversão de fala em texto nas seguintes regiões: centralus, eastasia, eastus e westeurope.

Próximas etapas