Einführung
Haben Sie sich jemals gefragt, wie die Sprach-Assistenten eigentlich funktionieren? Wie verstehen sie die Wörter, die wir sagen? Wenn Sie über Sprach-Assistenten nachdenken, gehen Sie vom ersten Schritt, nämlich die Spracherkennung, dann vom Schritt der Verarbeitung natürlicher Sprache (NLP), d. h. die Einbettung von Wörtern (Umwandlung von Wörtern in Zahlen), und dann von einer Klassifizierung der Äußerung (was gesagt wird) in die Absicht (was der Sprach-Assistent tun soll) aus. Wenn Sie diesem Lernpfad folgen, haben Sie bereits gelernt, wie der NLP-Teil funktioniert. Nun möchten wir uns ansehen, wie aus den gesprochenen Audiodaten Text wird. Audioklassifizierung kann für viele Dinge verwendet werden, nicht nur für Sprach-Assistenten. Beispielsweise können Sie Musikgenres klassifizieren oder Krankheit am Klang der Stimme einer Person erkennen, und es gibt noch weitere Anwendungen, an die wir noch nicht einmal gedacht haben.
In diesem Lernmodul erfahren Sie, wie Sie die Audioklassifizierung mit TensorFlow verwenden. Es gibt mehrere Möglichkeiten, ein Audioklassifizierungsmodell zu erstellen. Sie können die Wellenform verwenden, Abschnitte einer Wellendatei markieren oder sogar maschinelles Sehen für das Spektrogrammbild verwenden. In diesem Tutorial erfahren Sie zunächst Grundlegendes zu Audiodaten (von analogen bis zu digitalen Darstellungen). Anschließend erstellen Sie das Modell mithilfe von maschinellem Sehen für die Spektrogrammbilder. Das ist richtig. Sie können Audiodaten in eine Bilddarstellung umwandeln und dann das gesprochene Wort mit maschinellem Sehen klassifizieren. Wir erstellen ein einfaches Modell, das yes und no verstehen kann. Das Dataset, das wir verwenden, ist das offene Dataset „Speech Commands“, das in TensorFlow-Datasets integriert ist. Dieses Dataset enthält insgesamt 36 verschiedene Wörter/Laute, die für die Klassifizierung verwendet werden sollen. Jede Äußerung ist als Datei im WAV-Format mit einer Länge von einer Sekunde (oder weniger) gespeichert. Wir verwenden nur yes und no für eine binäre Klassifizierung.
Lernziele
- Grundlegendes zu einigen wichtigen Features von Audiodaten.
- Einführung in das Erstellen von Machine Learning-Audiomodellen.
- Erfahren Sie, wie Sie ein binäres Klassifizierungsmodell aus Wavedateien erstellen.
Voraussetzungen
- Kenntnisse in Python
- Grundlegende Kenntnisse zu maschinellem Lernen