Introduzione

Completato

Come funzionano veramente gli assistenti vocali? Come fanno a capire le parole pronunciate? Prendendo in considerazione gli assistenti vocali, il primo passaggio prevede il riconoscimento vocale, quindi si ha l'elaborazione del linguaggio naturale (NLP, Natural Language Processing), ovvero l'incorporamento delle parole (conversione delle parole in numeri), e infine la classificazione dell'espressione (ciò che le persone dicono) per la finalità (ciò che l'assistente vocale deve fare). Chi sta seguendo questo percorso di apprendimento avrà già appreso il funzionamento dell'elaborazione del linguaggio naturale. Si vedrà ora come ottenere il testo dall'audio parlato. La classificazione audio può essere usata per molte finalità, non solo per gli assistenti vocali. Ad esempio, è possibile classificare i generi musicali o rilevare lo stato di salute di una persona dal suo tono di voce. Vi possono inoltre essere altre applicazioni a cui non si è ancora pensato.

In questo modulo si apprenderà come eseguire la classificazione audio con TensorFlow. Esistono vari modi per creare un modello di classificazione audio. È possibile usare la forma d'onda, contrassegnare con tag le sezioni di un file d'onda o persino usare la visione artificiale nell'immagine dello spettrogramma. In questa esercitazione verrà prima descritto come comprendere i dati audio, dalle rappresentazioni analogiche a quelle digitali, quindi verrà compilato il modello usando la visione artificiale sulle immagini dello spettrogramma. Si può infatti trasformare l'audio in una rappresentazione di immagine e quindi usare la visione artificiale per classificare le parole pronunciate. Verrà compilato un modello semplice in grado di comprendere yes e no. Il set di dati che verrà usato è il set di dati aperto Speech Command integrato nei set di dati di TensorFlow. Questo set di dati include 36 parole/suoni in totale da usare per la classificazione. Ogni espressione viene archiviata come file in formato WAVE di un secondo (o meno). Verranno usati solo yes e no per una classificazione binaria.

Obiettivi di apprendimento

  • Informazioni su alcune funzionalità chiave dei dati audio.
  • Introduzione alla creazione di modelli di Machine Learning audio.
  • Informazioni su come creare un modello di classificazione binaria dai file wave.

Prerequisiti

  • Conoscenza di Python
  • Informazioni di base su Machine Learning