Partilhar via


O que é a diarização multicanal de transcrição de conversas? (pré-visualização)

Nota

Esta funcionalidade está atualmente em pré-visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

A diarização multicanal de transcrição de conversação é uma solução de fala para texto que fornece transcrição assíncrona ou em tempo real de qualquer reunião. Esse recurso combina reconhecimento de fala, identificação de oradores e atribuição de frases para determinar quem disse o quê e quando em uma reunião.

Importante

A diarização multicanal de transcrição de conversas (visualização) será aposentada em 28 de março de 2025. Para obter mais informações sobre como migrar para outros recursos de fala para texto, consulte Migrar da diarização multicanal de transcrição de conversa.

Migre da transcrição de conversas da diarização multicanal

A diarização multicanal de transcrição de conversas (visualização) será aposentada em 28 de março de 2025.

Para continuar usando fala para texto com diarização, use os seguintes recursos:

Esses recursos de fala para texto suportam apenas diarização para áudio de canal único. O áudio multicanal que você usou com a transcrição de conversas, a diarização multicanal não é suportada.

Funcionalidades principais

Você pode achar úteis os seguintes recursos da transcrição de conversas:

  • Carimbos de data/hora: Cada enunciado do orador tem um carimbo de data/hora, para que possa encontrar facilmente quando uma frase foi dita.
  • Transcrições legíveis: as transcrições têm formatação e pontuação adicionadas automaticamente para garantir que o texto corresponda ao que estava sendo dito.
  • Perfis de usuário: os perfis de usuário são gerados coletando amostras de voz do usuário e enviando-as para a geração de assinaturas.
  • Identificação do orador: Os oradores são identificados através de perfis de utilizador e é atribuído um identificador de altifalante a cada um deles.
  • Diarização de vários alto-falantes: determine quem disse o quê sintetizando o fluxo de áudio com cada identificador de alto-falante.
  • Transcrição em tempo real: forneça transcrições ao vivo de quem está dizendo o quê e quando, enquanto a reunião está acontecendo.
  • Transcrição assíncrona: forneça transcrições com maior precisão usando um fluxo de áudio multicanal.

Nota

Embora a transcrição da conversa não coloque um limite no número de oradores na sala, é otimizada para 2 a 10 oradores por sessão.

Casos de utilização

Para tornar as reuniões inclusivas para todos, como participantes surdos e com deficiência auditiva, é importante ter transcrição em tempo real. A transcrição da conversa em tempo real leva o áudio da reunião e determina quem está dizendo o quê, permitindo que todos os participantes da reunião sigam a transcrição e participem da reunião, sem demora.

Os participantes da reunião podem se concentrar na reunião e deixar anotações para a transcrição da conversa. Os participantes podem participar ativamente da reunião e acompanhar rapidamente as próximas etapas, usando a transcrição em vez de tomar notas e potencialmente perder algo durante a reunião.

Como funciona

O diagrama a seguir mostra uma visão geral de alto nível de como o recurso funciona.

Diagrama que mostra as relações entre diferentes partes da solução de transcrição de conversa.

Insumos esperados

A transcrição da conversa usa dois tipos de entradas:

  • Fluxo de áudio multicanal: para obter detalhes de especificação e design, consulte Recomendações de matriz de microfone.
  • Amostras de voz do usuário: a transcrição da conversa precisa de perfis de usuário antes da conversa para identificação do orador. Colete gravações de áudio de cada usuário e, em seguida, envie as gravações para o serviço de geração de assinatura para validar o áudio e gerar perfis de usuário.

Amostras de voz do usuário para assinaturas de voz são necessárias para a identificação do alto-falante. Os alto-falantes que não têm amostras de voz são reconhecidos como não identificados. Alto-falantes não identificados ainda podem ser diferenciados quando a propriedade está habilitada DifferentiateGuestSpeakers (veja o exemplo a seguir). A saída da transcrição mostra os oradores como, por exemplo, Guest_0 e Guest_1, em vez de reconhecê-los como nomes de oradores específicos pré-inscritos.

config.SetProperty("DifferentiateGuestSpeakers", "true");

Em tempo real ou assíncrono

As seções a seguir fornecem mais detalhes sobre os modos de transcrição que você pode escolher.

Em Tempo Real

Os dados de áudio são processados ao vivo para retornar o identificador do alto-falante e a transcrição. Selecione este modo se o requisito da solução de transcrição for fornecer aos participantes da reunião uma visão de transcrição ao vivo da reunião em andamento. Por exemplo, criar um aplicativo para tornar as reuniões mais acessíveis aos participantes com perda auditiva ou surdez é um caso de uso ideal para transcrição em tempo real.

Assíncrono

Os dados de áudio são processados em lote para retornar o identificador do alto-falante e a transcrição. Selecione este modo se o requisito da solução de transcrição for fornecer maior precisão, sem a visualização de transcrição ao vivo. Por exemplo, se você quiser criar um aplicativo para permitir que os participantes da reunião acompanhem facilmente as reuniões perdidas, use o modo de transcrição assíncrona para obter resultados de transcrição de alta precisão.

Em tempo real e assíncrono

Os dados de áudio são processados ao vivo para retornar o identificador e a transcrição do alto-falante e, além disso, solicitam uma transcrição de alta precisão por meio de processamento assíncrono. Selecione este modo se o seu aplicativo tiver necessidade de transcrição em tempo real e também exigir uma transcrição de maior precisão para uso após a ocorrência da reunião.

Suporte de idioma e região

Atualmente, a transcrição de conversação suporta todos os idiomas de fala para texto nas seguintes regiões: centralus, eastasia, eastus, westeurope.