Usare una pipeline di trascrizione vocale per il testo per analizzare le conversazioni registrate

Voce di Azure AI
Lingua di Azure AI
Servizi di intelligenza artificiale di Azure
Azure Synapse Analytics
App per la logica di Azure

Il riconoscimento vocale e l'analisi delle chiamate registrate dei clienti possono fornire all'azienda informazioni preziose sulle tendenze attuali, sulle carenze del prodotto e sui successi.

La soluzione di esempio descritta in questo articolo descrive una pipeline ripetibile per la trascrizione e l'analisi dei dati della conversazione.

Architettura

L'architettura è costituita da due pipeline: una pipeline di trascrizione per convertire l'audio in testo e una pipeline di arricchimento e visualizzazione.

Pipeline di trascrizione

Diagramma che illustra come inserire la voce e convertirla in testo usando i servizi di intelligenza artificiale di Azure.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. I file audio vengono caricati in un account Archiviazione di Azure tramite qualsiasi metodo supportato. È possibile usare uno strumento basato sull'interfaccia utente come Archiviazione di Azure Explorer o usare un SDK di archiviazione o un'API.
  2. Il caricamento in Archiviazione di Azure attiva un'app per la logica di Azure. L'app per la logica accede alle credenziali necessarie in Azure Key Vault e invia una richiesta all'API di trascrizione batch del servizio Voce.
  3. L'app per la logica invia la chiamata dei file audio al servizio Voce, incluse le impostazioni facoltative per la diarizzazione dell'altoparlante.
  4. Il servizio Voce completa la trascrizione batch e carica i risultati della trascrizione nell'account Archiviazione.

Pipeline di arricchimento e visualizzazione

Diagramma che illustra la pipeline di arricchimento e visualizzazione.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. Una pipeline di Azure Synapse Analytics viene eseguita per recuperare ed elaborare il testo audio trascritto.
  2. La pipeline invia testo elaborato tramite una chiamata API al servizio di linguaggio. Il servizio esegue diversi arricchimenti di elaborazione del linguaggio naturale( NLP), ad esempio sentiment e opinion mining, riepilogo e riconoscimento di entità denominate personalizzate e predefinite.
  3. I dati elaborati vengono archiviati in un pool SQL di Azure Synapse Analytics, in cui possono essere serviti agli strumenti di visualizzazione come Power BI.

Componenti

  • Archiviazione BLOB di Azure. Archiviazione di oggetti altamente scalabile e sicura per carichi di lavoro nativi del cloud, archivi, data lake, elaborazione ad alte prestazioni e Machine Learning. In questa soluzione archivia i file audio e i risultati della trascrizione e funge da data lake per l'analisi downstream.
  • App per la logica di Azure. Piattaforma di integrazione distribuita come servizio (iPaaS) basata su un runtime in contenitori. In questa soluzione integra i servizi di archiviazione e riconoscimento vocale.
  • Servizio Voce di intelligenza artificiale. UN'API basata su intelligenza artificiale che offre funzionalità vocali come riconoscimento vocale, sintesi vocale, traduzione vocale e Riconoscimento del parlante. La funzionalità di trascrizione batch viene usata in questa soluzione.
  • Linguaggio di intelligenza artificiale. Un servizio gestito basato su intelligenza artificiale che offre funzionalità in linguaggio naturale come l'analisi del sentiment, l'estrazione di entità e la risposta automatica alle domande.
  • Azure Synapse Analytics. Una suite di servizi che forniscono l'integrazione dei dati, il data warehousing aziendale e l'analisi dei Big Data. In questa soluzione trasforma e arricchisce i dati di trascrizione e fornisce i dati agli strumenti di visualizzazione downstream.
  • Power BI. Strumento di modellazione dei dati e analisi visiva. In questa soluzione vengono presentate informazioni audio trascritte agli utenti e ai decision maker.

Alternative

Ecco alcuni approcci alternativi a questa architettura della soluzione:

  • Valutare la possibilità di configurare l'account Archiviazione BLOB per l'uso di uno spazio dei nomi gerarchico. Questa configurazione fornisce controlli di sicurezza basati sull'elenco di controllo di accesso (ACL) e può migliorare le prestazioni per alcuni carichi di lavoro di Big Data.
  • È possibile usare Funzioni di Azure come strumento di integrazione code-first anziché come pipeline di App per la logica o Azure Synapse, a seconda delle dimensioni e della scala del carico di lavoro.

Dettagli dello scenario

I centri di assistenza clienti sono parte integrante del successo di molte aziende in molti settori. Questa soluzione usa l'API Voce dei servizi di intelligenza artificiale di Azure per la trascrizione audio e la diarizzazione delle chiamate registrate dei clienti. Azure Synapse Analytics viene usato per elaborare ed eseguire attività NLP come l'analisi del sentiment e il riconoscimento personalizzato di entità denominate tramite chiamate API al linguaggio di intelligenza artificiale.

È possibile usare i servizi e la pipeline descritti qui per elaborare il testo trascritto per riconoscere e rimuovere informazioni riservate, eseguire l'analisi del sentiment e altro ancora. È possibile ridimensionare i servizi e la pipeline per contenere qualsiasi volume di dati registrati.

Potenziali casi d'uso

Questa soluzione può offrire valore alle organizzazioni in molti settori, tra cui telecomunicazioni, servizi finanziari e enti pubblici. Si applica a qualsiasi organizzazione che registra le conversazioni. In particolare, i call center interni o i call center interni o i desk di supporto possono trarre vantaggio dalle informazioni dettagliate derivate da questa soluzione.

Considerazioni

Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, che è un set di set di principi guida che è possibile usare per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Framework ben progettato di Microsoft Azure.

Sicurezza

La sicurezza offre garanzie contro attacchi intenzionali e l'abuso di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.

  • La richiesta all'API Voce può includere un URI di firma di accesso condiviso per un contenitore di destinazione in Archiviazione di Azure. Un URI di firma di accesso condiviso consente al servizio Voce di restituire direttamente i file di trascrizione nel percorso del contenitore. Se l'organizzazione non consente l'uso di URI di firma di accesso condiviso per l'archiviazione, è necessario implementare una funzione per eseguire periodicamente il polling dell'API Voce per gli asset completati.
  • Le credenziali come account o chiavi API devono essere archiviate in Azure Key Vault come segreti. Configurare le app per la logica e le pipeline di Azure Synapse per accedere all'insieme di credenziali delle chiavi usando le identità gestite per evitare di archiviare segreti nelle impostazioni dell'applicazione o nel codice.
  • I file audio archiviati nel BLOB potrebbero contenere dati sensibili dei clienti. Se più client usano la soluzione, è necessario limitare l'accesso a questi file. Usare lo spazio dei nomi gerarchico nell'account di archiviazione e applicare autorizzazioni a livello di cartella e file per limitare l'accesso solo all'istanza di Microsoft Entra necessaria.

Ottimizzazione dei costi

L'ottimizzazione dei costi riguarda l'analisi dei modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.

Tutti i servizi di Azure descritti in questa architettura offrono un'opzione per la fatturazione con pagamento in base al consumo, quindi i costi della soluzione vengono ridimensionati in modo lineare.

Azure Synapse offre un'opzione per i pool SQL serverless, quindi il calcolo per il carico di lavoro di data warehousing può essere attivato su richiesta. Se non si usa Azure Synapse per gestire altri casi d'uso downstream, è consigliabile usare serverless per ridurre i costi.

Per altre strategie di ottimizzazione dei costi, vedere Panoramica del pilastro dell'ottimizzazione dei costi.

Per i prezzi per i servizi suggeriti qui, vedere questa stima nel calcolatore prezzi di Azure.

Efficienza prestazionale

L'efficienza delle prestazioni è la capacità di dimensionare il carico di lavoro per soddisfare in modo efficiente le richieste poste dagli utenti. Per altre informazioni, vedere Panoramica dell'efficienza delle prestazioni.

L'API di riconoscimento vocale batch è progettata per volumi elevati, ma altre API dei servizi di intelligenza artificiale di Azure potrebbero avere limiti di richiesta per ogni livello di sottoscrizione. Prendere in considerazione la possibilità di inserire in contenitori queste API per evitare la limitazione dell'elaborazione di volumi elevati. I contenitori offrono flessibilità nella distribuzione, nel cloud o in locale. È anche possibile attenuare gli effetti collaterali delle nuove implementazioni della versione usando i contenitori. Per altre informazioni, vedere Supporto dei contenitori nei servizi di intelligenza artificiale di Azure.

Collaboratori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.

Autori principali:

Altro collaboratore:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi