Usar o OpenAI do Azure para processar arquivos de áudio de podcast

Azure AI Search

Serviço OpenAI do Azure

Ideias de soluções

Este artigo descreve uma ideia de solução. Seu arquiteto de nuvem pode usar essa orientação para ajudar a visualizar os principais componentes para uma implementação típica dessa arquitetura. Use este artigo como ponto de partida para projetar uma solução bem arquitetada que se alinhe aos requisitos específicos de sua carga de trabalho.

Este artigo fornece um exemplo de design de um pipeline que pode ser usado para processar arquivos de áudio. O pipeline usa os serviços de IA do Azure para conversão de fala em texto e o Serviço OpenAI do Azure para análise. A arquitetura consiste em um aplicativo Web estático que fornece um painel operacional e três funções do Azure que orquestram e processam os arquivos de mídia. Você pode usar essa solução para cargas de trabalho de mídia que exigem análise automatizada e escalável da IA.

Arquitetura

Baixe um Arquivo Visio dessa arquitetura.

Workflow

O usuário vai para uma página da Web que tem uma interface do usuário para carregar arquivos de áudio.
O aplicativo Web estático contém código que carrega o arquivo de áudio no Armazenamento de Blobs do Azure.
O usuário interage com a página da Web, o que dispara uma função que usa um ponto de extremidade HTTP para iniciar a transferência do arquivo de áudio para um contêiner designado dentro da conta de armazenamento.
Depois que o Armazenamento de Blobs detecta que um novo arquivo foi carregado, outra função é invocada para converter o áudio em texto usando a Fala de IA do Azure. Os resultados da transcrição são armazenados em um formato de arquivo de texto e carregados em outro contêiner.
Uma terceira função usa a IA generativa para detectar e processar as transcrições e gerar resumos, palavras-chave otimizadas para mecanismos de pesquisa e traduções.

Componentes

Os Aplicativos Web Estáticos são um serviço que você pode usar para simplificar a hospedagem e a implantação de aplicativos Web estáticos. Os Aplicativos Web Estáticos oferecem integração perfeita com repositórios do GitHub para implantação automática e integração contínua, bem como pipelines de implantação contínua (CI/CD).
O Azure Functions é um serviço de computação sem servidor que os desenvolvedores podem usar para executar código sem precisar gerenciar a infraestrutura.
O Armazenamento de Blobs é um serviço de armazenamento que você pode usar para armazenar grandes quantidades de dados não estruturados, como texto ou dados binários.
Os Serviços de IA são um conjunto de APIs baseadas em nuvem e modelos de IA predefinidos que oferecem recursos como reconhecimento de fala, reconhecimento de linguagem natural e visão computacional.
O OpenAI do Azure é uma parceria entre o Microsoft Azure e a OpenAI para fornecer acesso aos modelos e tecnologias da OpenAI por meio da plataforma Azure.

Detalhes do cenário

Os podcasts são um meio eficaz de compartilhar ideias, histórias e perspectivas. Muitas pessoas e empresas descobriram o poder de usar os podcasts para se conectar e aumentar seu público. Para alcançar um público ainda maior, os criadores podem usar uma sinopse de podcast e a localização de conteúdo para tornar o conteúdo mais acessível a pessoas que falam outros idiomas.

Uma sinopse de podcast é uma maneira rápida e fácil para os criadores informarem aos ouvintes sobre o que é o episódio do podcast. Uma sinopse de podcast pode ajudar ouvintes a decidir se querem sintonizar. Com uma sinopse traduzida, fica mais fácil para potenciais ouvintes internacionais descobrir o podcast e ficar sabendo sobre o que ele é.

A localização é o processo de adaptar o conteúdo do podcast a um idioma e cultura específicos. A localização vai além da tradução e considera as nuances, preferências e expectativas do seu público-alvo. A localização pode ajudar você a se conectar com os ouvintes em um nível mais profundo e aumentar o engajamento e a fidelidade.

É difícil produzir e publicar conteúdo. A IA pode ajudar você a automatizar processos e escalar a produção e a distribuição de podcasts. Você pode usar a infraestrutura de IA e a IA para transcrever o áudio do podcast, traduzir a sinopse e gerar narrações em vários idiomas e sotaques.

Este artigo descreve como usar a IA para criar uma sinopse de podcast, localizar ele em vários idiomas e gerar automaticamente palavras-chave de marketing e otimização de mecanismo de pesquisa (SEO) que ajudam a ampliar o público do conteúdo. Essa solução ilustra como usar o poder do GPT para automatizar uma grande parte do processo com o recurso Fala e o OpenAI do Azure. Você pode usar o GPT para transcrever automaticamente o áudio em texto, gerar uma sinopse em um estilo e tom específicos, sugerir slogans e palavras-chave de SEO atraentes e traduzir a sinopse para vários idiomas de modo a alcançar um público global, tudo em questão de minutos.

Aplicativo Web

Um aplicativo Web estático expõe a funcionalidade desse aplicativo. O aplicativo é criado usando a biblioteca da Web do React. Você pode usar a biblioteca da Web do React para carregar arquivos de áudio. Depois que os arquivos de áudio são processados, o React gera resultados visíveis e para download que incluem:

Uma sinopse.
Uma sinopse traduzida.
Um título alternativo.
Palavras-chave do SEO.

Armazenamento

Essa solução usa uma única conta de Armazenamento do Azure com vários contêineres para armazenar arquivos brutos (áudio), transcrições (transcrições de texto de áudio) e os resultados de OpenAI do Azure.

Computação

Esta solução usa três funções do Azure em um fluxo de trabalho específico para processar arquivos de áudio. Todas as três funções são escritas em Python.

Função disparada por HTTP

O site estático consome a primeira função disparada por HTTP. A função tem uma estrutura de aplicativo Flask e expõe dois pontos de extremidade:

Operação POST para carregar o arquivo de áudio no Armazenamento de Blobs
Operação GET para recuperar os resultados dos insights de IA gerados

Função disparada por blob para o contêiner de arquivos brutos

A segunda função é uma função disparada por blob que tem associações definidas para usar o contêiner de arquivos brutos da conta de armazenamento. A função é acionada automaticamente quando um arquivo é carregado nesse contêiner. Essa função também utiliza a ffmpeg ferramenta CLI que foi montada usando os Arquivos do Azure para converter arquivos de áudio em WAV. O recurso Fala usa o formato WAV. Depois que o arquivo é convertido em formato de arquivo WAV, ele é passado para o recurso Fala. O recurso Fala cria uma transcrição de texto do arquivo de áudio. A transcrição de texto é, então, carregada no contêiner de transcrições dentro da conta de armazenamento.

Função disparada por blob para o contêiner de transcrições

A terceira e última função é uma função disparada por blob que tem associações definidas para usar o contêiner de transcrições da conta de armazenamento. Qualquer arquivo carregado nesse contêiner aciona a função para execução. Essa função final compõe uma série de solicitações no OpenAI do Azure que resumem a transcrição, geram slogans e palavras-chave de SEO e traduzem a transcrição em idiomas que não o inglês.

Depois que a sinopse, as palavras-chave de SEO e a tradução são geradas, as respostas do OpenAI do Azure são carregadas no contêiner open-ai-results na conta de armazenamento.

IA e machine learning

Essa solução usa duas cargas de trabalho de IA do Azure:

Fala
OpenAI do Azure

Os recursos de conversão de fala em texto no Fala transcrevem áudio em texto. Os modelos de GPT do OpenAI do Azure processam o texto. Os modelos usam recursos generativos para gerar tags, palavras-chave de SEO, sumarização e serviço de tradução. Eles usam a transcrição para executar tarefas de geração de conteúdo de texto.

Possíveis casos de uso

A estrutura arquitetônica é projetada para tarefas de mídia que a IA analisa automaticamente. Essa estrutura é destinada a aplicativos de mídia, mas pode ser usada para aplicativos mais amplos, especificamente para tarefas que exigem sumarização de texto de gravações de áudio e usam conteúdo gerado por IA para transcrições, sumarizações, slogans e sinopses.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Kathy Lee | Arquiteta Sênior de Soluções de Nuvem
Uffaz Nathaniel | Diretor Engenheiro de Software
Chew-Yean Yam| Principal Cientista de Dados

Outros colaboradores:

Andy Beach | Diretor Técnico (CTO), Mídia e Entretenimento Mundial
Simon Powell | Principal Gerente de Programas

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Compartilhar via