Introduzione al riconoscimento vocale in Azure

Completato

Microsoft Azure offre funzionalità di riconoscimento vocale e di sintesi vocale tramite il servizio Voce di Azure AI, che include le API (Application Programming Interface) seguenti:

  • L'API Riconoscimento vocale
  • L'API Sintesi vocale

Risorse di Azure per Voce di Azure AI

Per usare il servizio Voce di Azure AI in un'applicazione, è necessario creare una risorsa appropriata nella sottoscrizione di Azure. È possibile scegliere di creare uno dei tipi di risorsa seguenti:

  • Una risorsa Voce: scegliere questo tipo di risorsa se si prevede di usare solo il servizio Voce di Azure AI o se si vuole gestire l'accesso e la fatturazione per la risorsa separatamente da altri servizi.
  • Una risorsa di Servizi di Azure AI: scegliere questo tipo di risorsa se si prevede di usare il servizio Voce di Azure AI in combinazione con altri servizi di Azure AI e si vuole gestire l'accesso e la fatturazione per questi servizi insieme.

L'API Riconoscimento vocale

È possibile usare l'API Riconoscimento vocale di Azure AI per eseguire la trascrizione in tempo reale o in batch dell'audio in un formato di testo. L'origine audio per la trascrizione può essere un flusso audio in tempo reale da un microfono o un file audio.

Il modello usato dall'API Riconoscimento vocale è basato sul modello linguistico universale di cui è stato eseguito il training da Microsoft. I dati del modello sono di proprietà di Microsoft e vengono distribuiti in Microsoft Azure. Il modello è ottimizzato per due scenari: conversazione e dettatura. È anche possibile creare ed eseguire il training di modelli personalizzati, tra cui acustica, lingua e pronuncia, se i modelli predefiniti di Microsoft non forniscono gli elementi necessari.

Trascrizione in tempo reale

Il riconoscimento vocale in tempo reale consente di trascrivere il testo in flussi audio. È possibile usare la trascrizione in tempo reale per presentazioni, dimostrazioni o qualsiasi altro scenario in cui una persona parla.

Per il funzionamento della trascrizione in tempo reale, è necessario che l'applicazione sia in ascolto dell'audio in ingresso da un microfono o da altre origini di input audio, ad esempio un file audio. Il codice dell'applicazione trasmette l'audio al servizio, che restituisce il testo trascritto.

Trascrizione batch

Non tutti gli scenari di riconoscimento vocale sono in tempo reale. Potrebbero essere presenti registrazioni audio archiviate in una condivisione file, in un server remoto o anche in Archiviazione di Azure. È possibile puntare a file audio con un URI di firma di accesso condiviso (SAS) e ricevere in modo asincrono i risultati della trascrizione.

La trascrizione batch deve essere eseguita in modo asincrono, perché i processi batch sono pianificati secondo il principio del best effort. In genere l'esecuzione di un processo verrà avviata entro pochi minuti dalla richiesta, ma non è prevista alcuna stima in relazione al momento della modifica di un processo nello stato in esecuzione.

L'API Sintesi vocale

L'API sintesi vocale consente di convertire l'input di testo in voce, che può essere riprodotta direttamente tramite un altoparlante del computer o scritta in un file audio.

Voci della sintesi vocale

Quando si usa l'API Sintesi vocale, è possibile specificare la voce da usare per vocalizzare il testo. Questa funzionalità offre la flessibilità necessaria per personalizzare la soluzione di sintesi vocale e assegnarle un carattere specifico.

Il servizio include più voci predefinite con supporto per più lingue e pronuncia a livello di area, incluse le voci neurali che sfruttano le reti neurali per superare le limitazioni comuni nella sintesi vocale per quanto riguarda l'intonazione, con conseguente voce più naturale. È anche possibile sviluppare voci personalizzate e usarle con l'API Sintesi vocale.

Lingue supportate

Sia l'API Riconoscimento vocale che l'API Sintesi vocale supportano un'ampia scelta di lingue. Usare i collegamenti di seguito per trovare informazioni dettagliate sulle lingue supportate: