Modifier

Utiliser un pipeline de transcription de reconnaissance vocale pour analyser des conversations enregistrées

Azure AI Speech
Azure AI Language
Azure AI services
Azure Synapse Analytics
Azure Logic Apps

La reconnaissance et l’analyse vocales d’enregistrements d’appels de clients peuvent donner à votre entreprise de précieuses informations sur les tendances actuelles, les défauts et les succès des produits.

L’exemple de solution décrit dans cet article montre un pipeline reproductible pour la transcription et l’analyse de données conversationnelles.

Architecture

L’architecture se compose de deux pipelines : d’un pipeline de transcription pour convertir l’audio en texte et d’un pipeline d’enrichissement et de visualisation.

Pipeline de transcription

Diagramme montrant comment ingérer de la parole et la convertir en texte en utilisant Azure Cognitive Services.

Téléchargez un fichier Visio de cette architecture.

Dataflow

  1. Les fichiers audio sont chargés sur un compte de stockage Azure via n’importe quelle méthode prise en charge. Vous pouvez utiliser un outil basé sur une interface utilisateur, comme Explorateur Stockage Azure, ou utiliser un SDK ou une API de stockage.
  2. Le chargement sur Stockage Azure déclenche une application logique Azure. L’application logique accède aux informations d’identification nécessaires dans Azure Key Vault et envoie une requête à l’API de transcription par lots du service Speech.
  3. L’application logique envoie l’appel de fichiers audio au service Speech, y compris des paramètres facultatifs pour la diarisation de l’orateur.
  4. Le service Speech effectue la transcription par lots et charge les résultats de la transcription sur le compte de stockage.

Pipeline d’enrichissement et de visualisation

Diagramme illustrant le pipeline d’enrichissement et de visualisation.

Téléchargez un fichier Visio de cette architecture.

Dataflow

  1. Un pipeline Azure Synapse Analytics s’exécute pour récupérer et traiter le texte audio transcrit.
  2. Le pipeline envoie du texte traité via un appel d’API au service Language. Le service effectue différents enrichissements de traitement en langage naturel, comme l’exploration des sentiment et des opinions, le résumé, et la reconnaissance d’entités nommées personnalisées et prédéfinies.
  3. Les données traitées sont stockées dans un pool SQL Azure Synapse Analytics, où elles peuvent être délivrées à des outils de visualisation comme Power BI.

Composants

  • Stockage Blob Azure. Stockage d’objets massivement évolutif et sécurisé pour les charges de travail, les archives, les lacs de données, l’informatique hautes performances et le Machine Learning natifs du cloud. Dans cette solution, il stocke les fichiers audio et les résultats de la transcription, et sert de lac de données pour l’analytique en aval.
  • Azure Logic Apps. Plateforme d’intégration en tant que service (iPaaS) basée sur un runtime conteneurisé. Dans cette solution, elle intègre les services de stockage et d’IA vocale.
  • Service Speech d’Azure Cognitive Services API basée sur l’IA qui fournit des fonctionnalités vocales comme la reconnaissance vocale, la synthèse vocale, la traduction vocale et la reconnaissance de l’orateur. Sa fonctionnalité de transcription par lots est utilisée dans cette solution.
  • Azure Cognitive Service for Language Service managé basé sur l’IA qui fournit des fonctionnalités en langage naturel comme l’analyse des sentiments, l’extraction d’entités et la réponse automatisée aux questions.
  • Azure Synapse Analytics Suite de services qui fournissent l’intégration des données, l’entreposage de données d’entreprise et l’analytique Big Data. Dans cette solution, elle transforme et enrichit les données de transcription, et délivre les données à des outils de visualisation en aval.
  • Power BI. Outil de modélisation des données et d’analytique visuelle. Dans cette solution, il présente des insights sur les fichiers audio transcrits aux utilisateurs et aux décideurs.

Autres solutions

Voici quelques approches alternatives à cette architecture de la solution :

  • Envisagez de configurer le compte Stockage Blob pour utiliser un espace de noms hiérarchique. Cette configuration fournit des contrôles de sécurité basés sur une liste de contrôle d’accès (ACL) et peut améliorer les performances de certaines charges de travail Big Data.
  • Vous pouvez utiliser Azure Functions comme outil d’intégration Code First à la place des pipelines Logic Apps ou Azure Synapse, en fonction de la taille et de l’échelle de la charge de travail.

Détails du scénario

Les centres de service clientèle font partie intégrante du succès de beaucoup d’entreprises dans de nombreux secteurs. Cette solution utilise l’API Speech d’Azure Cognitive Services pour la transcription audio et la diarisation des appels clients enregistrés. Azure Synapse Analytics est utilisé pour traiter et effectuer des tâches de traitement en langage naturel, comme l’analyse des sentiments et la reconnaissance d’entités nommées personnalisées via des appels d’API à Azure Cognitive Service for Language.

Vous pouvez utiliser les services et le pipeline décrits ici pour traiter le texte transcrit afin de reconnaître et de supprimer des informations sensibles, effectuer une analyse des sentiments, etc. Vous pouvez mettre à l’échelle les services et le pipeline pour prendre en charge n’importe quel volume de données enregistrées.

Cas d’usage potentiels

Cette solution peut offrir de la valeur ajoutée aux organisations de nombreux secteur, y compris les télécommunications, les services financiers et l’administration. Elle s’applique à toute organisation enregistrant des conversations. En particulier, les centres d’appels internes ou orientés client, ou les services de support technique peuvent tirer parti des insights dérivés de cette solution.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d'informations, consultez Microsoft Azure Well-Architected Framework.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

  • La demande adressée à l’API Speech peut inclure un URI de signature d’accès partagé (SAS) pour un conteneur de destination dans Stockage Azure. Un URI SAS permet au service Speech de générer directement les fichiers de transcription à l’emplacement du conteneur. Si votre organisation n’autorise pas l’utilisation d’URI SAS pour le stockage, vous devez implémenter une fonction pour interroger périodiquement l’API Speech pour obtenir les ressources terminées.
  • Les informations d’identification, comme les clés de compte ou d’API, doivent être stockées dans Azure Key Vault sous forme de secrets. Configurez vos pipelines Logic Apps et Azure Synapse pour accéder au coffre de clés en utilisant des identités managées afin d’éviter de stocker des secrets dans les paramètres ou dans le code de l’application.
  • Les fichiers audio stockés dans l’objet blob peuvent contenir des données client sensibles. Si plusieurs clients utilisent cette solution, il est important de restreindre l’accès aux fichiers. Utilisez un espace de noms hiérarchique sur le compte de stockage, et appliquez des autorisations au niveau des dossiers et des fichiers pour limiter l’accès à l’instance Microsoft Entra nécessaire.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Tous les services Azure décrits dans cette architecture offrent une option pour la facturation avec paiement à l’utilisation : les coûts de la solution évoluent donc de façon linéaire.

Azure Synapse offre une option pour les pools SQL serverless : la capacité de calcul pour la charge de travail d’entreposage des données peut donc être augmentée à la demande. Si vous n’utilisez pas Azure Synapse pour traiter d’autres cas d’usage en aval, envisagez d’utiliser une configuration serverless pour réduire les coûts.

Consultez Vue d’ensemble du pilier d’optimisation des coûts pour plus de stratégies d’optimisation des coûts.

Pour connaître la tarification des services suggérés ici, consultez cette estimation dans la calculatrice de prix Azure.

Efficacité des performances

L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour plus d’informations, consultez Vue d’ensemble du pilier d’efficacité des performances.

L’API de reconnaissance vocale par lots est conçue pour un grand volume, mais d’autres API Cognitive Services peuvent avoir des limites de demande pour chaque niveau d’abonnement. Pensez à conteneuriser ces API pour éviter que le traitement de grands volumes soit limité. Les conteneurs vous donnent de la flexibilité dans le déploiement, sur le cloud ou localement. Vous pouvez également atténuer les effets secondaires des lancements de la nouvelle version à l’aide de conteneurs. Pour plus d’informations, consultez Prise en charge des conteneurs dans Azure Cognitive Services.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Autre contributeur :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes