Usare l'API Riconoscimento vocale di Azure AI

Completato

Il servizio Voce di Intelligenza artificiale di Azure supporta il riconoscimento vocale tramite le funzionalità seguenti:

  • Trascrizione in tempo reale: trascrizione istantanea con risultati intermedi per gli input audio live.
  • Trascrizione rapida: output sincrono più veloce per situazioni con latenza prevedibile.
  • Trascrizione batch: elaborazione efficiente per volumi elevati di audio pre-registrato.
  • Riconoscimento vocale personalizzato: modelli con accuratezza avanzata per domini e condizioni specifici.

Uso di Azure AI Speech SDK

Anche se i dettagli specifici variano, a seconda dell'SDK usato (Python, C# e così via); esiste un modello coerente per l'uso dell'API Riconoscimento vocale :

Diagramma che mostra come viene creato un oggetto SpeechRecognizer da SpeechConfig e AudioConfig e il relativo metodo RecognizeOnceAsync viene usato per chiamare l'API Voce.

  1. Usare un oggetto SpeechConfig per incapsulare le informazioni necessarie per connettersi alla risorsa Voce di Intelligenza artificiale di Azure. In particolare, la posizione e la chiave.
  2. Facoltativamente, usare un AudioConfig per definire l'origine di input per l'audio da trascrivere. Per impostazione predefinita, si tratta del microfono di sistema predefinito, ma è anche possibile specificare un file audio.
  3. Usare SpeechConfig e AudioConfig per creare un oggetto SpeechRecognizer . Questo oggetto è un client proxy per l'API Riconoscimento vocale .
  4. Usare i metodi dell'oggetto SpeechRecognizer per chiamare le funzioni API sottostanti. Ad esempio, il metodo RecognizeOnceAsync() usa il servizio Voce di Intelligenza artificiale di Azure per trascrivere in modo asincrono una singola espressione parlata.
  5. Elaborare la risposta dal servizio Voce di Intelligenza artificiale di Azure. Nel caso del metodo RecognizeOnceAsync(), il risultato è un oggetto SpeechRecognitionResult che include le proprietà seguenti:
    • Durata
    • OffsetInTicks
    • Proprietà
    • Motivo
    • IdRisultato
    • Testo

Se l'operazione ha esito positivo, la proprietà Reason ha il valore enumerato RecognizedSpeech e la proprietà Text contiene la trascrizione. Altri valori possibili per Result includono NoMatch (che indica che l'audio è stato analizzato correttamente ma non è stato riconosciuto il riconoscimento vocale) o Canceled, a indicare che si è verificato un errore (in questo caso, è possibile controllare l'insieme Properties per la proprietà CancellationReason per determinare cosa è andato storto).