Compartilhar via


O que é a diarização multicanal de transcrição de conversa? (versão prévia)

Observação

Esse recurso está atualmente em visualização pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

A diarização multicanal de transcrição de conversas é uma solução de conversão de fala em texto que fornece transcrição assíncrona ou em tempo real de qualquer reunião. Este recurso combina reconhecimento de fala, identificação do locutor e atribuição de frase para determinar quem disse o que, e quando, em uma reunião.

Importante

A diarização multicanal de transcrição de conversa (versão prévia) será desativada em 28 de março de 2025. Para obter mais informações sobre como migrar para outros recursos de conversão de fala em texto, confira Migrar da diarização multicanal de transcrição de conversas.

Migrar para longe da diarização multicanal de transcrição de conversa

A diarização multicanal de transcrição de conversa (versão prévia) será desativada em 28 de março de 2025.

Para continuar usando a conversão de fala em texto com a diarização, use os seguintes recursos em vez disso:

Esses recursos de conversão de fala em texto só dão suporte à diarização para áudio de canal único. Não há suporte para áudio multicanal usado com a diarização multicanal de transcrição de conversa.

Principais recursos

Os seguintes recursos de transcrição de conversas podem ser úteis:

  • Carimbos de data/hora: o enunciado de cada locutor tem um carimbo de data/hora, de modo que você possa encontrar com facilidade quando uma frase foi dita.
  • Transcrições legíveis: as transcrições têm formatação e sinais de pontuação adicionados automaticamente para garantir que o texto se aproxime do que foi dito.
  • Perfis de usuário: os perfis de usuário são gerados pela coleta de exemplos de voz do usuário e pelo envio deles à geração de assinatura.
  • Identificação de locutor: os locutores são identificados com o uso de perfis de usuário, e um identificador de locutor é atribuído a cada um deles.
  • Diarização de vários locutores: determine quem disse o quê sintetizando o fluxo de áudio com cada identificador de locutor.
  • Transcrição em tempo real: forneça transcrições ao vivo de quem está dizendo o quê e quando durante a conversa.
  • Transcrição assíncrona: forneça transcrições com maior precisão usando um fluxo de áudio multicanal.

Observação

Embora a transcrição de conversas não imponha um limite para o número de locutores na sala, ela é otimizada para dois a dez locutores por sessão.

Casos de uso

Para tornar as reuniões inclusivas para todos, como participantes surdos ou com deficiência auditiva, é importante apresentar transcrições em tempo real. A transcrição de conversas no modo em tempo real usa o áudio de uma reunião e determina quem está dizendo o quê, permitindo que todos os participantes da reunião acompanhem a transcrição e participem da reunião sem atrasos.

Os participantes da reunião podem se concentrar na reunião e deixar as anotações para a transcrição de conversas. Os participantes podem se envolver ativamente na reunião e ficar a par das próximas etapas rapidamente, usando a transcrição em vez de fazer anotações e, possivelmente, perder alguma informação durante a reunião.

Como ele funciona

O diagrama a seguir mostra uma visão geral de alto nível de como funciona o recurso.

Diagrama que mostra as relações entre diferentes partes da solução de transcrição de conversas.

Entradas esperadas

A transcrição de conversas usa dois tipos de entradas:

  • Fluxo de áudio multicanal: para ver detalhes de especificação e design, confira Recomendações de matriz de microfone.
  • Exemplos de voz do usuário: a transcrição de conversas precisa ter perfis de usuário antes da conversa para fins de identificação de locutor. Colete gravações de áudio de cada usuário e envie-as ao serviço de geração de assinatura para validar o áudio e gerar perfis de usuário.

Amostras de voz do usuário para assinaturas de voz são necessárias para identificação de locutor. Os locutores que não tiverem exemplos de voz serão reconhecidos como não identificados. Os locutores não identificados ainda poderão ser diferenciados quando a propriedade DifferentiateGuestSpeakers estiver habilitada (veja o exemplo a seguir). A saída da transcrição mostra os oradores, como, por exemplo, Guest_0 e Guest_1, em vez de reconhecê-los como nomes de oradores específicos pré-registrados.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Em tempo real ou assíncrono

As seções a seguir fornecem mais detalhes sobre os modos de transcrição que você pode escolher.

Tempo real

Os dados de áudio são processados ao vivo para retornar o identificador de locutor e a transcrição. Escolha esse modo se você precisa que a solução de transcrição apresente aos participantes uma exibição ao vivo da transcrição da reunião em andamento. Por exemplo, criar um aplicativo para tornar as reuniões mais acessíveis aos participantes surdos ou com deficiência auditiva é um caso de uso ideal para a transcrição em tempo real.

Assíncronos

Os dados de áudio são processados em lote para retornar o identificador de locutor e a transcrição. Escolha esse modo se você precisa que a solução de transcrição apresente maior precisão sem uma exibição da transcrição ao vivo. Por exemplo, se você quer criar um aplicativo para permitir que os participantes da reunião possam assistir facilmente as reuniões perdidas, use o modo de transcrição assíncrona para obter resultados de transcrição com alta precisão.

Em tempo real e assíncrona

Os dados de áudio são processados ao vivo para retornar o identificador de locutor e a transcrição. Além disso, eles solicitam uma transcrição de alta precisão por meio do processamento assíncrono. Escolha esse modo se o seu aplicativo exige a transcrição em tempo real e também uma transcrição de maior precisão para uso após a reunião.

Suporte de idioma e região

No momento, a transcrição de conversas dá suporte a todos os idiomas de conversão de fala em texto nas seguintes regiões:centralus, eastasia, eastus e westeurope.