Introduzione

Completato

Mai chiedersi come gli assistenti vocali riconoscono brevi comandi come "sì", "no" o "stop"? Gli assistenti vocali completi combinano in genere molti sistemi, tra cui acquisizione audio, riconoscimento vocale, elaborazione del linguaggio naturale e classificazione delle finalità. Questo modulo è incentrato su un'attività più piccola ma importante: classificazione delle parole chiave da brevi clip audio.

Esistono vari modi per creare un modello di classificazione audio. Un modello può apprendere direttamente dalle forme d'onda, dalle funzionalità audio ingegneriate o dagli spettrogrammi che rappresentano il contenuto della frequenza nel tempo. In questo modulo si usa TensorFlow per trasformare le forme d'onda audio in tensori spettrogrammi e addestrare una semplice rete neurale convoluzionale per classificare le parole yes e no.

Gli esempi usano il set di dati dei comandi vocali più piccolo fornito da TensorFlow per le esercitazioni. Il set di dati originale dei comandi vocali (Warden, 2018) contiene più di 105.000 file WAV di un secondo o più brevi tra 35 parole pronunciate. Il mini set di dati Comandi vocali contiene otto comandi e questo modulo utilizza solo le cartelle yes e no per la classificazione binaria.

Obiettivi di apprendimento

  • Comprendere le funzionalità principali dei dati audio, tra cui frequenza di campionamento, ampiezza, canali e forme d'onda.
  • Convertire le forme d'onda audio in tensori dello spettrogramma.
  • Compilare e valutare un modello di classificazione delle parole chiave binaria da file WAV.

Prerequisiti

  • Conoscenze base di Python
  • Conoscenza di base di Machine Learning
  • Ambiente Python che supporta TensorFlow 2.10 o versione successiva, con TensorFlow e Matplotlib installati. Usare una versione Python supportata dalla versione di TensorFlow installata. Per indicazioni sull'installazione, vedere Installare TensorFlow con pip e Installare Matplotlib.