Usar um pipeline de transcrição de fala em texto para analisar as conversas gravadas

Fala de IA do Azure

Linguagem de IA do Azure

Serviços de IA do Azure

Azure Synapse Analytics

Aplicativos Lógicos do Azure

O reconhecimento de fala e a análise de chamadas de clientes gravadas podem fornecer ao seu negócio informações valiosas sobre tendências atuais, deficiências de produtos e sucessos.

A solução de exemplo descrita neste artigo demonstra um pipeline repetível para transcrever e analisar dados de conversa.

Arquitetura

A arquitetura consiste em dois pipelines: um pipeline de transcrição para converter áudio em texto e um pipeline de enriquecimento e visualização.

Pipeline de transcrição

Diagrama que ilustra como ingerir fala e convertê-la em texto usando os Serviços de IA do Azure.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

Os arquivos de áudio são carregados em uma conta do Armazenamento do Azure por meio de qualquer método com suporte. Você pode usar uma ferramenta baseada em interface do usuário, como o Gerenciador de Armazenamento do Azure, ou um SDK ou uma API de armazenamento.
O upload no Armazenamento do Azure dispara um aplicativo lógico do Azure. O aplicativo lógico acessa todas as credenciais necessárias no Azure Key Vault e faz uma solicitação à API de transcrição em lote do serviço de Fala.
O aplicativo lógico envia a chamada de arquivos de áudio ao serviço de Fala, incluindo configurações opcionais para a diarização de locutor.
O serviço de Fala conclui a transcrição em lote e carrega os resultados da transcrição na conta do Armazenamento.

Pipeline de enriquecimento e visualização

Diagrama que ilustra o pipeline de enriquecimento e visualização.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

Um pipeline do Azure Synapse Analytics é executado para recuperar e processar o texto de áudio transcrito.
O pipeline envia o texto processado por meio de uma chamada à API ao serviço de linguagem. O serviço executa vários enriquecimentos de NLP (processamento de linguagem natural), como mineração de sentimento e opinião, sumarização e reconhecimento de entidade nomeada personalizado e predefinido.
Os dados processados são armazenados em um pool de SQL do Azure Synapse Analytics, no qual podem ser fornecidos a ferramentas de visualização como o Power BI.

Componentes

Armazenamento de Blobs do Azure. Armazenamento de objetos extremamente escalonável e seguro para cargas de trabalho nativas de nuvem, arquivos, data lakes, computação de alto desempenho e machine learning. Nesta solução, ele armazena os arquivos de áudio e os resultados da transcrição e os fornece como um data lake para análise downstream.
Aplicativos Lógicos do Azure. Uma iPaaS (plataforma como serviço) de integração criada em um runtime conteinerizado. Nesta solução, ela integra os serviços de IA de fala e armazenamento.
Serviço de IA de Fala. Uma API baseada em IA que fornece funcionalidades de fala, como conversão de fala em texto, conversão de texto em fala, tradução de fala e Reconhecimento do Locutor. A funcionalidade de transcrição em lote dela é usada nesta solução.
Linguagem de IA. Um serviço gerenciado baseado em IA que fornece funcionalidades de linguagem natural, como análise de sentimento, extração de entidade e resposta automatizada às perguntas.
Azure Synapse Analytics. Um pacote de serviços que fornece integração de dados, armazenamento de dados corporativos e análise de Big Data. Nesta solução, ele transforma e enriquece os dados de transcrição e os fornece para ferramentas de visualização downstream.
Power BI. Uma ferramenta de modelagem de dados e análise visual. Nesta solução, ela apresenta insights do áudio transcrito para usuários e tomadores de decisão.

Alternativas

Veja algumas abordagens alternativas a esta arquitetura de solução:

Considere a configuração da conta do Armazenamento de Blobs para usar um namespace hierárquico. Essa configuração fornece controles de segurança baseados em lista de controle de acesso (ACL) e pode aprimorar o desempenho de algumas cargas de trabalho de Big Data.
Você poderá usar o Azure Functions como uma ferramenta de integração code-first em vez dos Aplicativos Lógicos ou dos pipelines do Azure Synapse, dependendo do tamanho e da escala da carga de trabalho.

Detalhes do cenário

Os centros de atendimento ao cliente são parte integrante do sucesso de muitas empresas em vários setores. Esta solução usa a API de Fala dos Serviços de IA do Azure para a transcrição de áudio e a diarização de chamadas gravadas de clientes. O Azure Synapse Analytics é usado para processar e executar tarefas de NLP, como análise de sentimento e reconhecimento de entidade nomeada personalizada por meio de chamadas à API à Linguagem de IA.

Use os serviços e o pipeline descritos aqui para processar textos transcritos a fim de reconhecer e remover informações confidenciais, executar análise de sentimento, entre outros. Você pode escalar os serviços e o pipeline para acomodar qualquer volume de dados gravados.

Possíveis casos de uso

Esta solução pode fornecer valor às organizações em vários setores, incluindo telecomunicações, serviços financeiros e governo. Ela se aplica a qualquer organização que faz gravações de conversas. Em particular, o suporte técnico ou os call centers internos ou voltados ao cliente podem se beneficiar dos insights obtidos com essa solução.

Considerações

Essas considerações implementam os pilares do Azure Well-Architected Framework, um conjunto de princípios orientadores que você pode usar para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

A solicitação à API de Fala pode incluir uma URI de Assinatura de Acesso Compartilhado (SAS) para um contêiner de destino no Armazenamento do Azure. Um URI SAS permite que o serviço de Fala gere diretamente os arquivos de transcrição no local do contêiner. Se a sua organização não permitir o uso de URIs SAS para armazenamento, você precisará implementar uma função para sondar periodicamente a API de Fala em busca dos ativos concluídos.
Credenciais como chaves de API ou conta devem ser armazenadas no Azure Key Vault como segredos. Configure os aplicativos lógicos ou os pipelines do Azure Synapse para acessar o cofre de chaves usando identidades gerenciadas a fim de evitar o armazenamento de segredos nas configurações ou no código do aplicativo.
Os arquivos de áudio armazenados no blob podem conter dados confidenciais do cliente. Se vários clientes estiverem usando a solução, você precisará restringir o acesso a esses arquivos. Use o namespace hierárquico na conta de armazenamento e imponha permissões de nível de arquivo e pasta para limitar o acesso apenas à instância necessária do Microsoft Entra.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Todos os serviços do Azure descritos nesta arquitetura fornecem uma opção de cobrança paga conforme o uso, ou seja, os custos da solução são escalados linearmente.

O Azure Synapse fornece uma opção para pools de SQL sem servidor, portanto, a computação da carga de trabalho do armazenamento de dados pode ser ativada sob demanda. Se você não estiver usando o Azure Synapse para atender a outros casos de uso downstream, considere o uso da computação sem servidor para reduzir os custos.

Confira Visão geral do pilar de otimização de custos para ver mais estratégias de otimização de custos.

Para ver os preços dos serviços sugeridos aqui, confira esta estimativa na calculadora de preços do Azure.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar sua carga de trabalho para atender às demandas colocadas por usuários de maneira eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

A API de fala em lote foi projetada para alto volume, mas outras APIs dos Serviços de IA do Azure podem ter limites de solicitação para cada camada de assinatura. Considere a conteinerização dessas APIs para evitar a limitação do processamento de volumes grandes. Os contêineres oferecem flexibilidade de implantação, na nuvem ou no local. Você também pode reduzir os efeitos colaterais das novas distribuições de versão usando contêineres. Para obter mais informações, consulte o Suporte ao contêiner nos Serviços de IA do Azure.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Dhanashri Kshirsagar | Gerente sênior de programas de conteúdo
Brady Leavitt | Diretor especialista em GBB
Kirpa Singh | Engenheiro sênior de software
Christina Skarpathiotaki | Arquiteta de soluções de nuvem

Outros colaboradores:

Mick Alberts | Escritor técnico

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Usar um pipeline de transcrição de fala em texto para analisar as conversas gravadas

Arquitetura

Pipeline de transcrição

Fluxo de dados

Pipeline de enriquecimento e visualização

Fluxo de dados

Componentes

Alternativas

Detalhes do cenário

Possíveis casos de uso

Considerações

Segurança

Otimização de custo

Eficiência de desempenho

Colaboradores

Próximas etapas

Comentários

Comentários

Recursos adicionais

Usar um pipeline de transcrição de fala em texto para analisar as conversas gravadas

Arquitetura

Pipeline de transcrição

Fluxo de dados

Pipeline de enriquecimento e visualização

Fluxo de dados

Componentes

Alternativas

Detalhes do cenário

Possíveis casos de uso

Considerações

Segurança

Otimização de custo

Eficiência de desempenho

Colaboradores

Próximas etapas

Recursos relacionados

Comentários

Comentários

Recursos adicionais