Condividi tramite


Valutazione della pronuncia nel Portale Fonderia Azure AI

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

La valutazione della pronuncia usa la funzionalità di Riconoscimento vocale e offre feedback soggettivi e obiettivi per gli studenti di lingue. Le esercitazioni sulla pronuncia e il feedback tempestivo sono essenziali per migliorare le competenze linguistiche. Le valutazioni di qualità fornite da insegnanti esperti possono richiedere molto tempo e impegno, e rappresentano un costo per gli studenti. La valutazione della pronuncia può rendere più coinvolgente e accessibile la valutazione linguistica per tutti gli studenti.

Nota

Per informazioni sulla disponibilità della valutazione della pronuncia, vedere le lingue supportate e le aree disponibili.

Questo articolo descrive come usare lo strumento di valutazione della pronuncia senza scrivere codice tramite il Portale Fonderia Azure AI. Per informazioni su come integrare la valutazione della pronuncia nelle applicazioni di riconoscimento vocale, vedere Come usare la valutazione della pronuncia.

Scenari di lettura, conversazione e gioco

Per la valutazione della pronuncia, esistono tre scenari: Lettura, Pronuncia e Gioco.

  • Lettura: questo scenario è progettato per la valutazione con script. Richiede allo studente di leggere un determinato testo. Il testo di riferimento viene fornito in anticipo.
  • Parlato: questo scenario è progettato per valutazione senza script. Richiede allo studente di parlare di un determinato argomento. Il testo di riferimento non viene fornito in anticipo.
  • Attività di gioco: Questo scenario è progettato per la valutazione programmata. Richiede agli studenti di leggere uno scioglilingua per ricevere punteggi per ogni sillaba e per la pronuncia. Il testo di riferimento viene fornito in anticipo.

Eseguire una valutazione di lettura

Per valutare la pronuncia del testo di riferimento, seguire questa procedura:

  1. Passare a Valutazione della pronuncia nel Portale Fonderia Azure AI.

    Screenshot di come passare a Valutazione della pronuncia in Fonderia Azure AI.

  2. Nella scheda Lettura scegliere una lingua supportata di cui si vuole valutare la pronuncia.

    Screenshot della scelta di una lingua supportata nella scheda Lettura di cui si vuole valutare la pronuncia.

  3. È possibile usare campioni di testo forniti o immettere uno script personalizzato.

    Quando si legge il testo, avvicinarsi al microfono per assicurarsi che la voce registrata non sia troppo bassa.

    Screenshot della posizione in cui registrare l'audio con un microfono nella scheda Lettura.

    In alternativa, è possibile caricare l'audio registrato per la valutazione della pronuncia. Dopo il caricamento corretto, l'audio sarà valutato automaticamente dal sistema, come illustrato nello screenshot seguente.

    Screenshot del caricamento dell'audio registrato da valutare.

Eseguire una valutazione parlante

Se si vuole eseguire una valutazione senza script, selezionare la scheda Parlato. Questa funzionalità consente di eseguire una valutazione senza script, senza fornire prima un testo di riferimento. Come procedere:

  1. Passare a Valutazione della pronuncia nel Portale Fonderia Azure AI.

  2. Nella scheda Parlato, scegliere una lingua supportata di cui si vuole valutare la pronuncia.

    Screenshot della scelta di una lingua supportata nella scheda Parlato di cui si vuole valutare la pronuncia.

  3. Successivamente è possibile selezionare tra gli argomenti campione forniti o immettere un argomento personalizzato. Questa scelta consente di valutare la capacità di parlare di un determinato argomento senza uno schema predefinito.

    Screenshot dell'inserimento di un argomento nella scheda Parlato per valutare la capacità di parlare di un determinato argomento senza uno schema predefinito.

    Durante la registrazione del parlato per la valutazione della pronuncia è importante accertare che il tempo di registrazione rientri nell'intervallo consigliato compreso tra 15 secondi (equivalente a più di 50 parole) e 10 minuti. Questo intervallo di tempo è ottimale e consente di valutare accuratamente il contenuto del parlato. Per ricevere un punteggio di argomento, l'audio parlato deve contenere almeno tre frasi.

    È anche possibile caricare l'audio registrato per la valutazione della pronuncia. Dopo il caricamento corretto, l'audio viene valutato automaticamente dal sistema.

Eseguire una valutazione dei giochi

Se vuoi praticare l'apprendimento linguistico tramite un gioco, segui questi passaggi:

  1. Passare a Valutazione della pronuncia nel Portale Fonderia Azure AI.

  2. Nella scheda Giochi, scegli una lingua supportata per verificare la pronuncia e generare un nuovo twister da praticare.

    Screenshot della scelta di una lingua supportata nella scheda Gioco e della generazione di un nuovo scioglilingua di cui si vuole valutare la pronuncia.

  3. È possibile iniziare a registrare e a esercitarsi con lo scioglilingua per ottenere i punteggi.

    Screenshot della finestra di visualizzazione che mostra il risultato del gioco, che include la pronuncia, i punteggi delle parole e delle sillabe.

Risultati della valutazione della pronuncia

Dopo aver registrato il parlato o caricato l'audio registrato, sarà restituito risultato della valutazione. Questo include l'audio parlato e il feedback sulla valutazione vocale. È possibile ascoltare l'audio del parlato e scaricarlo, se necessario.

Inoltre è possibile controllare il risultato della valutazione della pronuncia in formato JSON. I punteggi di accuratezza a livello di parole, sillabe e fonemi sono inclusi nel file JSON.

Screenshot che mostra il risultato della valutazione nella finestra di visualizzazione, che include trascrizioni e feedback sul parlato.

La parola risulta evidenziata in base al tipo di errore. I tipi di errore nella valutazione della pronuncia sono rappresentati usando colori diversi. Questa distinzione visiva semplifica l'identificazione e l'analisi di errori specifici. Fornisce una panoramica chiara dei tipi di errore e della loro frequenza nell'audio del parlato, consentendo di concentrarsi sulle aree che necessitano di miglioramenti. È possibile attivare/disattivare ciascun tipo di errore per concentrarsi su tipi di errore specifici o per escludere determinati tipi dalla visualizzazione. Questa funzionalità offre flessibilità di revisione e analisi degli errori nell'audio parlato. Se si passa con il mouse su ogni parola, è possibile visualizzare i punteggi di accuratezza dell'intera parola o di fonemi specifici.

Nella parte inferiore del risultato di Valutazione è possibile visualizzare i risultati dei punteggi. Per la valutazione della pronuncia con script, viene fornito solo il punteggio di pronuncia (comprensivo dei punteggi di accuratezza, scorrevolezza, completezza e prosodia). Per la valutazione della pronuncia senza script, vengono visualizzati sia il punteggio di pronuncia (comprensivo dei punteggi di accuratezza, scorrevolezza, completezza e prosodia) sia il punteggio di contenuto (comprensivo dei punteggi di vocabolario, grammatica e argomento).

Granularità della valutazione della pronuncia

La valutazione della pronuncia fornisce risultati di valutazione con diversi livelli di granularità, dall'analisi dei singoli fonemi all'intero input di testo.

  • A livello di testo completo, la valutazione della pronuncia offre punteggi aggiuntivi di Fluenza, Completezza e Prosodia: Fluenza indica quanto il parlato corrisponda all'uso di un parlante nativo di interruzioni silenziose tra le parole; Completezza indica il numero di parole pronunciate correttamente nel parlato rispetto all'input di testo di riferimento; Prosodia indica quanto bene un parlante trasmette elementi di naturalezza, espressività e prosodia complessiva nel discorso. Viene quindi assegnato un punteggio complessivo aggregato di accuratezza, scorrevolezza, completezza e prosodia, per indicare la qualità complessiva della pronuncia del parlato. La valutazione della pronuncia offre inoltre un punteggio del contenuto (vocabolario, grammatica e argomento) a livello di testo completo.
  • A livello di parola, la valutazione della pronuncia può rilevare automaticamente errori e fornire al contempo un punteggio di accuratezza, con informazioni più dettagliate su omissioni, ripetizioni, inserimenti ed errori di pronuncia nel parlato preso in considerazione.
  • I punteggi di accuratezza a livello di sillabe sono al momento disponibili tramite file JSON o Speech SDK.
  • A livello di fonema, la valutazione della pronuncia fornisce punteggi di accuratezza per ogni fonema, consentendo agli studenti di comprendere meglio i dettagli della pronuncia del proprio discorso.

Oltre ai punteggi di base di accuratezza, scorrevolezza e completezza, la funzionalità di valutazione della pronuncia in Fonderia Azure AI include punteggi più completi per fornire un feedback dettagliato su vari aspetti delle prestazioni vocali e della comprensione. I punteggi avanzati sono i seguenti: punteggio prosodia, punteggio vocabolario, punteggio grammatica e punteggio argomento. Questi punteggi offrono informazioni dettagliate utili sulla prosodia vocale, sull'utilizzo del vocabolario, sulla correttezza grammaticale e sulla comprensione degli argomenti.

Screenshot del punteggio di pronuncia complessivo e del punteggio di contenuto complessivo in Fonderia Azure AI.

Nella parte inferiore del risultato della valutazione vengono visualizzati due punteggi complessivi: punteggio per la pronuncia e punteggio per il contenuto. Nella scheda Lettura è disponibile il punteggio per la pronuncia. Nella scheda Parlato vengono visualizzati sia il punteggio per la pronuncia che il punteggio per il contenuto.

Punteggio di pronuncia: questo punteggio rappresenta una valutazione aggregata della qualità della pronuncia e include quattro aspetti secondari. Questi punteggi sono disponibili nelle schede Lettura e Parlato, per le valutazioni con script e senza script.

  • Punteggio di accuratezza: valuta la correttezza della pronuncia.
  • Punteggio di scorrevolezza: misura il livello di fluidità e naturalezza nel parlato.
  • Punteggio di completezza: riflette il numero di parole pronunciate correttamente.
  • Punteggio di prosodia: valuta l'uso dell'intonazione, del ritmo e degli accenti appropriati. Sono stati introdotti diversi tipi di errore correlati alla valutazione della prosodia, ad esempio Interruzione imprevista, Interruzione mancante e Monotono. Rispetto al motore precedente, questi tipi di errore forniscono informazioni più dettagliate sugli errori di pronuncia.

Punteggio di contenuto: questo punteggio fornisce una valutazione aggregata del contenuto del parlato e include tre aspetti secondari. Il punteggio è disponibile solo nella scheda Parlato per una valutazione senza script.

  • Punteggio vocabolario: valuta l'uso effettivo delle parole e la loro adeguatezza all'interno del contesto specificato per esprimere le idee in modo accurato, oltre al livello di complessità lessicale.
  • Punteggio grammaticale: valuta la correttezza dell'utilizzo della grammatica e la varietà di modelli di frase. Considera l'accuratezza lessicale, l'accuratezza grammaticale e la diversità delle strutture delle frasi, fornendo una valutazione più completa per la competenza linguistica.
  • Punteggio dell'argomento: valuta il livello di comprensione e coinvolgimento con l'argomento descritto nel discorso. Valuta la capacità del parlante di esprimere in modo efficace pensieri e idee correlati all'argomento specificato.

I punteggi complessivi offrono una valutazione completa sia della pronuncia sia del contenuto, fornendo agli studenti un feedback prezioso su vari aspetti delle prestazioni relative al parlato e alla comprensione. Grazie a queste funzionalità avanzate, gli studenti di lingue possono ottenere informazioni più dettagliate sui vantaggi e sulle aree di miglioramento, in termini di pronuncia e di espressione del contenuto.

Nota

Le valutazioni di prosodia e contenuto sono disponibili solo nelle impostazioni locali en-US.

Punteggi di valutazione in modalità di streaming

La valutazione della pronuncia supporta la modalità di streaming ininterrotta. La demo di Fonderia Azure AI consente di valutare fino a 60 minuti di registrazione in modalità di streaming. Finché non si preme il pulsante per interrompere la registrazione, il processo di valutazione non termina e si può sospendere e riprendere la valutazione secondo le esigenze specifiche.

La valutazione della pronuncia esamina diversi aspetti. Nella parte inferiore del Risultato valutazione è possibile visualizzare il Punteggio di pronuncia come punteggio complessivo aggregato che include 4 aspetti secondari: Punteggio di accuratezza, Punteggio di scorrevolezza, Punteggio di completezza e Punteggio di prosodia. In modalità di streaming, poiché il Punteggio di accuratezza, il Punteggio di scorrevolezza e il Punteggio di prosodia variano nel tempo durante tutto il processo di registrazione, viene illustrato un approccio in Fonderia Azure AI per visualizzare il punteggio complessivo approssimativo in modo incrementale prima della fine della valutazione, ponderato solo con il punteggio di accuratezza, il punteggio di scorrevolezza e il punteggio di prosodia. Il Punteggio di completezza viene calcolato solo alla fine della valutazione dopo aver premuto il pulsante di arresto, quindi il punteggio complessivo della pronuncia finale consiste nell'aggregazione del Punteggio di accuratezza, Punteggio di scorrevolezza, Punteggio di completezza e Punteggio di prosodia con peso.

Per l'intero processo di valutazione della pronuncia in modalità streaming, vedere gli esempi demo seguenti.

Avviare la registrazione

Quando si inizia la registrazione, i punteggi nella parte inferiore iniziano a cambiare a partire da 0.

Screenshot dei punteggi di valutazione complessivi all'inizio della registrazione.

Durante la registrazione

Durante la registrazione di un lungo paragrafo, è possibile sospendere la registrazione in qualsiasi momento. È possibile continuare a valutare la registrazione, purché non si prema il pulsante di arresto.

Screenshot dei punteggi di valutazione complessivi durante la registrazione.

Fine della registrazione

Dopo aver premuto il pulsante di arresto, nella parte inferiore è possibile visualizzare Punteggio di pronuncia, Punteggio di accuratezza, Punteggio di scorrevolezza, Punteggio di completezza e Punteggio di prosodia.

Screenshot dei punteggi di valutazione complessivi dopo la registrazione.

Prezzi

L'utilizzo della valutazione della pronuncia ha indicativamente lo stesso costo del riconoscimento vocale, con prezzi del livello Standard o del livello di impegno. Se si acquista un livello di impegno per il riconoscimento vocale, la spesa per la valutazione della pronuncia contribuisce al raggiungimento dell'impegno.

La funzionalità di valutazione della pronuncia offre anche altri punteggi che non sono inclusi nel prezzo baseline di riconoscimento vocale: prosodia, grammatica, argomento e vocabolario. Questi punteggi sono disponibili dietro pagamento di una quota aggiuntiva oltre al prezzo baseline di riconoscimento vocale. Per informazioni sui prezzi, vedere Prezzi del riconoscimento vocale.

Ecco una tabella dei punteggi di valutazione della pronuncia disponibili, indipendentemente dal fatto che siano disponibili nelle valutazioni con script o senza script e che siano inclusi nel prezzo del riconoscimento vocale baseline o come quota di componente aggiuntivo.

Punteggio Con script o senza script Cosa include il prezzo baseline di riconoscimento vocale?
Accuratezza Con script e senza script
Scorrevolezza Con script e senza script
Completezza Con script
Errore Con script e senza script
Prosodia Con script e senza script NO
Grammatica Solo senza script NO
Argomento Solo senza script NO
Vocabolario Solo senza script NO

Intelligenza artificiale responsabile

Un sistema IA include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. Leggere le note sulla trasparenza per informazioni sull'uso e sulla distribuzione dell'intelligenza artificiale responsabile nei propri sistemi.

Passaggi successivi