Che cos'è il riconoscimento delle parole chiave?

Articolo
04/24/2024

Il riconoscimento delle parole chiave rileva una parola o una frase breve all'interno di un flusso audio. Questa tecnica è detta anche spotting di parole chiave.

Il caso d'uso più comune del riconoscimento delle parole chiave è l'attivazione vocale degli assistenti virtuali. Ad esempio, "Ehi Cortana" è la parola chiave per l'assistente Cortana. Al riconoscimento della parola chiave, viene eseguita un'azione specifica per lo scenario. Per gli scenari dell'assistente virtuale, un'azione risultante comune è il riconoscimento vocale dell'audio che segue la parola chiave.

In genere, gli assistenti virtuali sono sempre in ascolto. Il riconoscimento delle parole chiave funge da limite per la privacy dell'utente. Un requisito di parola chiave agisce da gate che impedisce all'audio dell'utente non correlato di passare dal dispositivo locale al cloud.

Per bilanciare l'accuratezza, la latenza e la complessità computazionale, il riconoscimento delle parole chiave è implementato come un sistema a più livelli. Per tutte le fasi successive alla prima, l'audio viene elaborato solo se la fase precedente riconosce la parola chiave di interesse.

Il sistema corrente è progettato con più fasi che si estendono alla rete perimetrale e al cloud:

Diagram that shows multiple stages of keyword recognition across the edge and cloud.

L'accuratezza del riconoscimento delle parole chiave viene misurata tramite le metriche seguenti:

Tasso di accettazione corretto: misura la capacità del sistema di riconoscere la parola chiave quando viene pronunciata da un utente. Il tasso di accettazione corretto è noto anche come tasso di vero positivo.
Tasso di accettazione falso: misura la capacità del sistema di filtrare l'audio che non è la parola chiave pronunciata dall'utente. Il tasso di accettazione falso è noto anche come tasso di falso positivo.

L'obiettivo è massimizzare il tasso di accettazione corretto e minimizzare il tasso di accettazione falso. Il sistema corrente è progettato per rilevare una parola o una frase chiave preceduta da un breve periodo di silenzio. Il rilevamento di una parola chiave nel mezzo di una frase o di un'espressione non è supportato.

Parola chiave personalizzata per i modelli on-device

Con il Portale della parola chiave personalizzata di Speech Studio, è possibile generare modelli di riconoscimento di parole chiave che vengono eseguiti a livello perimetrale specificando qualsiasi parola o breve frase. È possibile personalizzare ulteriormente il modello delle parole chiave scegliendo le pronunce giuste.

Prezzi

L'uso di parole chiave personalizzate per generare modelli, compresi quelli di Basic e Advanced, non comporta alcun costo. Inoltre, l'esecuzione di modelli sul dispositivo con Speech SDK non comporta alcun costo se usati con altre funzionalità del Servizio Voce, ad esempio il riconoscimento vocale.

Tipi di modelli

È possibile usare una parola chiave personalizzata per generare due tipi di modelli sul dispositivo per qualsiasi parola chiave.

Tipo di modello	Descrizione
Di base	Ideale per scopi dimostrativi o di prototipazione rapida. I modelli vengono generati con un modello di base comune e possono richiedere fino a 15 minuti per essere pronti. I modelli potrebbero non avere caratteristiche di accuratezza ottimali.
Avanzato	Ideale per l'integrazione dei prodotti. I modelli vengono generati con l'adattamento di un modello di base comune usando dati di training simulati per migliorare le caratteristiche di accuratezza. La preparazione dei modelli può richiedere fino a 48 ore.

Nota

È possibile visualizzare un elenco di aree che supportano il tipo di modello Advanced nella documentazione di supporto della regione di riconoscimento delle parole chiave.

Nessuno dei due tipi di modello richiede il caricamento di dati di training. La parola chiave personalizzata gestisce completamente la generazione di dati e il training del modello.

Pronunce

Quando si crea un nuovo modello, la parola chiave personalizzata genera automaticamente le possibili pronunce della parola chiave specificata. È possibile ascoltare ogni pronuncia e scegliere tutte le varianti che rappresentano fedelmente il modo in cui si prevede che gli utenti pronuncino la parola chiave. Non è consigliabile selezionare tutte le altre pronunce.

È importante scegliere deliberatamente le pronunce per garantire le migliori caratteristiche di accuratezza. Ad esempio, se si scelgono più pronunce di quelle necessarie, si potrebbe ottenere un tasso di accettazione falso più elevato. Se si scelgono troppo poche pronunce, in cui non sono coperte tutte le variazioni previste, si possono ottenere tassi di accettazione corretti più bassi.

Modelli di test

Dopo che la parola chiave personalizzata genera modelli su dispositivo, i modelli possono essere testati direttamente nel portale. È possibile usare il portale per parlare direttamente nel browser e ottenere i risultati del riconoscimento delle parole chiave.

Verifica della parola chiave

La verifica delle parole chiave è un servizio cloud che riduce l'effetto delle accettazioni false dai modelli su dispositivo con modelli affidabili in esecuzione in Azure. Non è necessaria alcuna ottimizzazione o training affinché la verifica delle parole chiave funzioni con la propria parola chiave. Gli aggiornamenti incrementali del modello vengono continuamente distribuiti al servizio per migliorare l'accuratezza e la latenza e sono trasparenti alle applicazioni client.

Prezzi

La verifica delle parole chiave viene sempre usata in combinazione con il riconoscimento vocale. L'utilizzo della verifica delle parole chiave non comporta alcun costo, oltre a quello del riconoscimento vocale.

Verifica delle parole chiave e riconoscimento vocale

Quando si utilizza la verifica delle parole chiave, è sempre in combinazione con il riconoscimento vocale. Entrambi i servizi vengono eseguiti in parallelo, il che significa che l'audio viene inviato a entrambi i servizi per l'elaborazione simultanea.

Diagram that shows parallel processing of keyword verification and speech to text.

Eseguendo in parallelo la verifica delle parole chiave e il riconoscimento vocale si ottengono i vantaggi seguenti:

Nessun'altra latenza nei risultati di riconoscimento vocale: l'esecuzione parallela indica che la verifica delle parole chiave non aggiunge latenza. Il cliente riceve i risultati del riconoscimento vocale con la stessa rapidità. Se la verifica della parola chiave determina che la parola chiave non era presente nell'audio, l'elaborazione del riconoscimento vocale viene terminata. Questa azione protegge da elaborazioni di riconoscimento vocale non necessarie. L'elaborazione del modello di rete e del cloud aumenta la latenza percepita dall'utente dell'attivazione vocale. Per altre informazioni, vedere Raccomandazioni e linee guida.
Prefisso di parola chiave forzato nei risultati del riconoscimento vocale: l'elaborazione del riconoscimento vocale garantisce che i risultati inviati al client siano preceduti dalla parola chiave. Questo comportamento consente di aumentare l'accuratezza dei risultati del riconoscimento vocale per la voce che segue la parola chiave.
Aumento del timeout del riconoscimento vocale : a causa della presenza prevista della parola chiave all'inizio dell'audio, il riconoscimento vocale consente una pausa più lunga, fino a cinque secondi dopo la parola chiave, prima di determinare la fine del parlato e terminare l'elaborazione del riconoscimento vocale. Questo comportamento garantisce che l'esperienza utente venga gestita correttamente per i comandi a fasi (<parola chiave><sospendi><comando>) e comandi concatenati (<parola chiave><comando>).

Risposte di verifica delle parole chiave e considerazioni sulla latenza

Per ogni richiesta al servizio, la verifica delle parole chiave restituisce una delle due risposte: accettata o rifiutata. La latenza di elaborazione varia a seconda della lunghezza della parola chiave e della lunghezza del segmento audio che dovrebbe contenere la parola chiave. La latenza di elaborazione non include i costi di rete tra il client e i Servizi Voce.

Risposta di verifica delle parole chiave	Descrizione
Accettata	Indica che il servizio ritiene che la parola chiave sia presente nel flusso audio fornito come parte della richiesta.
Rifiutato	Indica che il servizio ritiene che la parola chiave non sia presente nel flusso audio fornito come parte della richiesta.

I casi rifiutati spesso producono latenze più elevate, perché il servizio elabora più audio rispetto ai casi accettati. Per impostazione predefinita, la verifica delle parole chiave elabora un massimo di due secondi di audio per cercare la parola chiave. Se la parola chiave non viene trovata in due secondi, il servizio raggiunge il timeout e segnala una risposta rifiutata al client.

Usare la verifica delle parole chiave con i modelli sul dispositivo da parole chiave personalizzate

Speech SDK consente di usare facilmente i modelli generati sul dispositivo usando parole chiave personalizzate con verifica delle parole chiave e il riconoscimento vocale. Gestisce in modo trasparente:

Controllo audio per la verifica delle parole chiave e il riconoscimento vocale basato sui risultati di un modello su dispositivo.
Comunicare la verifica della parola chiave alla parola chiave.
Comunicare altri metadati al cloud per orchestrare lo scenario end-to-end.

Non è necessario specificare esplicitamente alcun parametro di configurazione. Tutte le informazioni necessarie vengono estratte automaticamente dal modello sul dispositivo generato dalla parola chiave personalizzata.

L'esempio e le esercitazioni collegate qui illustrano come usare SDK Speech:

Integrazione e scenari di Speech SDK

Speech SDK consente di usare facilmente modelli personalizzati di riconoscimento delle parole chiave sul dispositivo, generati con parole chiave personalizzate e la verifica delle parole chiave. Per garantire che le esigenze del prodotto possano essere soddisfatte, l'SDK supporta i due scenari seguenti:

Scenario	Descrizione	Esempi
Riconoscimento end-to-end delle parole chiave con riconoscimento vocale	Ideale per i prodotti che usano un modello di parole chiave personalizzato sul dispositivo, a partire da parole chiave personalizzate con verifica delle parole chiave e riconoscimento vocale. Questo scenario è il più comune.	Codice di esempio di assistente vocale Esercitazione: Abilitare l'assistente vocale creato usando il servizio Azure Bot con Speech SDK C# Esercitazione: Creare un'applicazione di comandi personalizzati con semplici comandi vocali
Riconoscimento delle parole chiave offline	Ideale per i prodotti privi di connettività di rete che usano un modello di parola chiave personalizzato sul dispositivo da parola chiave personalizzata.	C# nell'esempio della piattaforma UWP (Universal Windows Platform) di Windows Esempio Java in Android

Che cos'è il riconoscimento delle parole chiave?

Parola chiave personalizzata per i modelli on-device

Prezzi

Tipi di modelli

Pronunce

Modelli di test

Verifica della parola chiave

Prezzi

Verifica delle parole chiave e riconoscimento vocale

Risposte di verifica delle parole chiave e considerazioni sulla latenza

Usare la verifica delle parole chiave con i modelli sul dispositivo da parole chiave personalizzate

Integrazione e scenari di Speech SDK

Passaggi successivi

Risorse aggiuntive