Modifier

Partager via


Utilisez Azure OpenAI pour traiter les fichiers audio des podcasts

Azure AI Search
Azure OpenAI Service

Idées de solution

Cet article présente une idée de solution. Votre architecte cloud peut s’appuyer sur ces conseils pour visualiser les principaux composants d’une implémentation typique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui répond aux exigences spécifiques de votre charge de travail.

Cet article présente un exemple de conception d'un pipeline que vous pouvez utiliser pour traiter des fichiers audio. Le pipeline utilise les Azure AI services pour la synthèse vocale et Azure OpenAI Service pour l'analyse. L'architecture se compose d'une application Web statique qui fournit un tableau de bord opérationnel et de trois fonctions Azure qui orchestrent et traitent les fichiers multimédias. Vous pouvez utiliser cette solution pour les charges de travail des médias qui nécessitent une analyse automatisée et évolutive de l'IA.

Architecture

Diagramme qui montre l'architecture de traitement des fichiers audio en utilisant Azure OpenAI pour l'analyse.

Téléchargez un fichier Visio de cette architecture.

Workflow

  1. L'utilisateur accède à une page Web dotée d'une interface utilisateur permettant de charger des fichiers audio.

  2. L'application Web statique contient du code qui charge le fichier audio dans Azure Blob Storage.

  3. L'utilisateur interagit avec la page Web, qui déclenche une fonction utilisant un point de terminaison HTTP pour initier le transfert du fichier audio vers un conteneur désigné au sein du compte de stockage.

  4. Une fois que Blob Storage détecte qu'un nouveau fichier est chargé, une autre fonction est invoquée qui convertit l'audio en texte en utilisant Azure AI Speech. Les résultats de la transcription sont stockés dans un format de fichier texte et chargés dans un autre conteneur.

  5. Une troisième fonction utilise l'IA générative pour détecter et traiter les transcriptions et générer des résumés, des mots-clés optimisés pour les moteurs de recherche et des traductions.

Composants

  • Static Web Apps est un service que vous pouvez utiliser pour simplifier l'hébergement et le déploiement d'applications Web statiques. Static Web Apps offre une intégration transparente avec les référentiels GitHub pour un déploiement automatique et des pipelines d'intégration et de déploiement continus (CI/CD).

  • Azure Functions est un service informatique serverless que les développeurs peuvent utiliser pour exécuter du code sans avoir à gérer l'infrastructure.

  • Le stockage Blob est un service de stockage que vous pouvez utiliser pour stocker de grandes quantités de données non structurées, comme du texte ou des données binaires.

  • Les services d'IA sont une suite d'API basées sur le cloud et de modèles d'IA préconstruits qui offrent des capacités telles que la reconnaissance vocale, la compréhension du langage naturel et la vision par ordinateur.

  • Azure OpenAI est un partenariat entre Microsoft Azure et OpenAI qui permet d'accéder aux modèles et aux technologies d'OpenAI via la plateforme Azure.

Détails du scénario

Les podcasts sont un moyen efficace de partager vos idées, vos histoires et vos points de vue. De nombreuses organisations et personnes ont découvert la puissance de l'utilisation des podcasts pour se connecter et développer leur audience. Pour toucher un public encore plus large, les créateurs peuvent utiliser un synopsis de podcast et la localisation de contenu pour rendre leur contenu plus accessible aux locuteurs d'autres langues.

Un synopsis de podcast est un moyen rapide et facile pour les créateurs d'informer les auditeurs du contenu de leur épisode de podcast. Un synopsis de podcast peut aider les auditeurs à décider s'ils veulent écouter le podcast. En traduisant le synopsis, il est plus facile pour les auditeurs internationaux potentiels de découvrir le podcast et d'en apprendre davantage sur ce qu'il propose.

La localisation est le processus d'adaptation du contenu de votre podcast à une langue et une culture spécifiques. La localisation va au-delà de la traduction et prend en compte les nuances, les préférences et les attentes de votre public cible. La localisation peut vous aider à établir un lien plus profond avec vos auditeurs et à accroître leur engagement et leur fidélité.

Produire et publier du contenu est une tâche difficile. L'IA peut vous aider à automatiser les processus et à faire évoluer la production et la distribution de vos podcasts. Vous pouvez utiliser l'IA et l'infrastructure d'IA pour transcrire l'audio de votre podcast, traduire votre synopsis et générer des voix off dans différentes langues et accents.

Cet article explique comment utiliser l'IA pour créer un synopsis de podcast, localiser le podcast dans plusieurs langues et générer automatiquement des mots-clés marketing et SEO (optimisation du référencement d'un site auprès d'un moteur de recherche) qui vous aideront à élargir l'audience de votre contenu. Cette solution illustre comment utiliser la puissance de GPT pour automatiser une grande partie de ce processus avec Speech et Azure OpenAI. Vous pouvez utiliser GPT pour transcrire automatiquement l'audio en texte, générer un synopsis dans un style et un ton particuliers, suggérer des titres accrocheurs et des mots-clés pour le référencement, et traduire le synopsis en plusieurs langues pour atteindre un public international, le tout en quelques minutes.

Application web

Une application Web statique expose les fonctionnalités de cette application. L'application est écrite en utilisant la bibliothèque Web React. Vous pouvez utiliser la bibliothèque Web React pour charger des fichiers audio. Une fois les fichiers audio traités, React génère des résultats consultables et téléchargeables :

  • Un synopsis.
  • Un synopsis traduit.
  • Un titre alternatif.
  • Des mots-clés de référencement.

Stockage

Cette solution utilise un compte de stockage Azure unique avec plusieurs conteneurs pour stocker les fichiers bruts (audio), les transcriptions (transcriptions textuelles de l'audio) et les résultats Azure OpenAI.

Compute

Cette solution utilise trois fonctions Azure dans un workflow spécifique pour traiter les fichiers audio. Les trois fonctions sont écrites en Python.

Fonction déclenchée par HTTP

Le site Web statique consomme la première fonction déclenchée par HTTP. La fonction comporte un cadre d'application Flask et expose deux points de terminaison :

  • Opération POST pour charger le fichier audio dans le stockage Blob
  • Opération GET pour récupérer les résultats des aperçus de l'IA générés

Fonction déclenchée par les blob pour le conteneur de fichiers bruts

La deuxième fonction est une fonction déclenchée par un blob dont les liaisons sont définies pour utiliser le conteneur de fichiers bruts du compte de stockage. La fonction se déclenche automatiquement lorsqu'un fichier est chargé dans ce conteneur. Cette fonction tire également parti de ffmpegl'outil CLI qui est monté en utilisant Azure Files pour convertir les fichiers audio en WAV. Speech utilise le format WAV. Une fois le fichier converti au format WAV, il est transmis à Speech. Speech crée une transcription textuelle du fichier audio. La transcription du texte est ensuite chargée dans le conteneur de transcriptions du compte de stockage.

Fonction déclenchée par les blob pour le conteneur de transcriptions

La troisième et dernière fonction est une fonction déclenchée par un blob dont les liaisons sont définies pour utiliser le conteneur de transcriptions du compte de stockage. Tout fichier chargé dans ce conteneur déclenche l'exécution de la fonction. Cette dernière fonction compose une série de requêtes dans Azure OpenAI qui résument la transcription, génèrent des lignes de balise et des mots-clés de référencement, et traduisent la transcription dans des langues autres que l'anglais.

Une fois le synopsis, les mots-clés de référencement et la traduction générés, les réponses Azure OpenAI sont chargées dans le conteneur open-ai-results du compte de stockage.

IA et Machine Learning

Cette solution utilise deux charges de travail Azure AI :

  • Speech
  • Azure OpenAI

Les fonctions de reconnaissance vocale de Speech transcrivent l'audio en texte. Les modèles Azure OpenAI GPT traitent le texte. Les modèles utilisent des capacités génératives pour générer des balises, des mots-clés de référencement, des résumés et un service de traduction. Ils utilisent la transcription pour effectuer des tâches de génération de contenu textuel.

Cas d’usage potentiels

Le cadre architectural est conçu pour les tâches médiatiques que l'IA analyse automatiquement. Ce cadre est destiné aux applications médiatiques mais peut être utilisé pour des applications plus larges, en particulier pour les tâches qui nécessitent un résumé textuel des enregistrements audio et qui utilisent du contenu généré par l'IA pour les transcriptions, les résumés, les titres d'appel et les synopsis.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Principaux auteurs :

Autres contributeurs :

  • Andy Beach | Chief Technical Officer (CTO), Media and Entertainment Worldwide
  • Simon Powell | Gestionnaire principal de programme

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes