Usar o Azure OpenAI para processar arquivos de áudio de podcast

Azure AI Search

Azure OpenAI Service

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe com os requisitos específicos da sua carga de trabalho.

Este artigo fornece um exemplo de design de um pipeline que você pode usar para processar arquivos de áudio. O pipeline usa os serviços de IA do Azure para fala para texto e o Serviço OpenAI do Azure para análise. A arquitetura consiste em um aplicativo Web estático que fornece um painel operacional e três funções do Azure que orquestram e processam os arquivos de mídia. Você pode usar essa solução para cargas de trabalho de mídia que exigem análise de IA automatizada e escalável.

Arquitetura

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de Trabalho

O usuário vai para uma página da Web que tem uma interface do usuário para carregar arquivos de áudio.
O aplicativo Web estático contém código que carrega o arquivo de áudio no Armazenamento de Blobs do Azure.
O usuário interage com a página da Web, que dispara uma função que usa um ponto de extremidade HTTP para iniciar a transferência do arquivo de áudio para um contêiner designado dentro da conta de armazenamento.
Depois que o Armazenamento de Blobs deteta que um novo arquivo é carregado, outra função é invocada que converte o áudio em texto usando o Azure AI Speech. Os resultados da transcrição são armazenados em um formato de arquivo de texto e carregados em outro contêiner.
Uma terceira função usa IA generativa para detetar e processar as transcrições e gerar resumos, palavras-chave otimizadas para mecanismos de pesquisa e traduções.

Componentes

Static Web Apps é um serviço que você pode usar para simplificar a hospedagem e implantação de aplicativos Web estáticos. O Static Web Apps oferece integração perfeita com repositórios GitHub para implantação automática e pipelines de integração contínua e implantação contínua (CI/CD).
O Azure Functions é um serviço de computação sem servidor que os desenvolvedores podem usar para executar código sem precisar gerenciar a infraestrutura.
O Armazenamento de Blobs é um serviço de armazenamento que pode ser usado para armazenar grandes quantidades de dados não estruturados, como texto ou dados binários.
Os serviços de IA são um conjunto de APIs baseadas na nuvem e modelos de IA pré-construídos que oferecem recursos como reconhecimento de fala, compreensão de linguagem natural e visão computacional.
O Azure OpenAI é uma parceria entre o Microsoft Azure e a OpenAI que fornece acesso aos modelos e tecnologias da OpenAI através da plataforma Azure.

Detalhes do cenário

Os podcasts são um meio eficaz para partilhar as suas ideias, histórias e perspetivas. Muitas organizações e indivíduos descobriram o poder de usar podcasts para conectar e aumentar seu público. Para alcançar um público ainda maior, os criadores podem usar uma sinopse de podcast e localização de conteúdo para tornar seu conteúdo mais acessível a falantes de outros idiomas.

Uma sinopse de podcast é uma maneira rápida e fácil de os criadores informarem aos ouvintes sobre o que é o episódio do podcast. Uma sinopse de podcast pode ajudar os ouvintes a decidir se querem sintonizar. Uma sinopse traduzida torna mais fácil para potenciais ouvintes internacionais descobrirem o podcast e aprenderem sobre o que ele oferece.

A localização é o processo de adaptar o conteúdo do seu podcast a um idioma e cultura específicos. A localização vai além da tradução e considera as nuances, preferências e expectativas do seu público-alvo. A localização pode ajudá-lo a se conectar com seus ouvintes em um nível mais profundo e aumentar seu envolvimento e lealdade.

Produzir e publicar conteúdo é difícil. A IA pode ajudá-lo a automatizar processos e escalar a produção e distribuição de podcasts. Você pode usar a infraestrutura de IA e IA para transcrever o áudio do seu podcast, traduzir sua sinopse e gerar locuções em vários idiomas e sotaques.

Este artigo descreve como usar a IA para criar uma sinopse de podcast, localizar o podcast em vários idiomas e gerar automaticamente palavras-chave de marketing e otimização para mecanismos de pesquisa (SEO) que ajudam a ampliar seu público de conteúdo. Esta solução ilustra como usar o poder do GPT para automatizar uma grande parte desse processo com o Speech e o Azure OpenAI. Você pode usar o GPT para transcrever automaticamente o áudio em texto, gerar uma sinopse em um estilo e tom específicos, sugerir linhas de tag cativantes e palavras-chave de SEO e traduzir a sinopse em vários idiomas para alcançar um público global, tudo em questão de minutos.

Aplicação Web

Uma aplicação Web estática expõe a funcionalidade desta aplicação. O aplicativo é escrito usando a biblioteca da Web React. Você pode usar a biblioteca da Web React para carregar arquivos de áudio. Depois que os arquivos de áudio são processados, o React gera resultados visíveis e para download que incluem:

Uma sinopse.
Sinopse traduzida.
Um título alternativo.
Palavras-chave SEO.

Armazenamento

Esta solução usa uma única conta de Armazenamento do Azure com vários contêineres para armazenar arquivos raw (áudio), transcrições (transcrições de texto de áudio) e os resultados do Azure OpenAI.

Computação

Esta solução utiliza três funções do Azure num fluxo de trabalho específico para processar ficheiros de áudio. Todas as três funções são escritas em Python.

Função acionada por HTTP

O site estático consome a primeira função acionada por HTTP. A função tem uma estrutura de aplicativo Flask e expõe dois pontos finais:

Operação POST para carregar o arquivo de áudio no Armazenamento de Blobs
Operação GET para recuperar os resultados dos insights de IA gerados

Função acionada por blob para o contêiner de arquivos brutos

A segunda função é uma função acionada por blob que tem ligações definidas para usar o contêiner de arquivos brutos da conta de armazenamento. A função é acionada automaticamente quando um arquivo é carregado nesse contêiner. Essa função também aproveita a ffmpeg ferramenta CLI montada usando Arquivos do Azure para converter arquivos de áudio em WAV. A fala usa o formato WAV. Depois que o arquivo é convertido para o formato de arquivo WAV, ele é passado para Speech. A fala cria uma transcrição de texto do arquivo de áudio. A transcrição de texto é então carregada para o contêiner de transcrições dentro da conta de armazenamento.

Função acionada por blob para o contêiner de transcrições

A terceira e última função é uma função acionada por blob que tem ligações definidas para usar o contêiner de transcrições da conta de armazenamento. Qualquer arquivo carregado nesse contêiner aciona a função para ser executada. Essa função final compõe uma série de prompts no Azure OpenAI que resumem a transcrição, geram linhas de tag e palavras-chave SEO e traduzem a transcrição para idiomas diferentes do inglês.

Depois que a sinopse, as palavras-chave de SEO e a tradução são geradas, as respostas do Azure OpenAI são carregadas no contêiner open-ai-results na conta de armazenamento.

IA e aprendizagem automática

Esta solução usa duas cargas de trabalho de IA do Azure:

Voz
Azure OpenAI

Os recursos de fala para texto no Speech transcrevem áudio em texto. Os modelos GPT do Azure OpenAI processam o texto. Os modelos usam recursos generativos para gerar tags, palavras-chave SEO, resumo e serviço de tradução. Eles usam a transcrição para executar tarefas de geração de conteúdo de texto.

Potenciais casos de utilização

A estrutura arquitetônica é projetada para tarefas de mídia que a IA analisa automaticamente. Esta estrutura destina-se a aplicações de mídia, mas pode ser usada para aplicações mais amplas, especificamente para tarefas que exigem resumo de texto de gravações de áudio e usam conteúdo gerado por IA para transcrições, resumos, slogans e sinopses.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Kathy Lee - Brasil | Arquiteto de Soluções Cloud Sênior
Uffaz Nathaniel - Brasil | Engenheiro de Software Principal
Mastigar inhame yean | Cientista de Dados Principal

Outros contribuidores:

Andy Beach - Brasil | Diretor Técnico (CTO), Media and Entertainment Worldwide
Simon Powell - Brasil | Gerente de Programa Principal

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Partilhar via