Einführung

Abgeschlossen

Haben Sie sich schon einmal gefragt, wie die Sprachassistenten arbeiten, die wir tagtäglich verwenden? Wie verstehen sie die Wörter, die wir sagen?

Der Assistent muss die Sprache in Text und dann diesen Text in Zahlen konvertieren (als Worteinbettung bezeichnet). Der Assistent klassifiziert dann die Äußerung und korreliert sie mit der Absicht (was der Sprecher vom Sprach-Assistenten verlangt). Weitere Informationen zu diesem Prozess finden Sie im Modul „Einführung in die Verarbeitung natürlicher Sprache“ in diesem PyTorch-Lernpfad.

Aber was geschieht, wenn ein Hund bellt oder eine Katze miaut? Diese Klänge können nicht in Text konvertiert werden.

Image that shows how sounds can come from a variety of sources.

In diesem Modul sehen wir uns an, wie Klangwellenmuster aus einer Audioaufzeichnung gesprochener Wörter extrahiert werden. Audioklassifizierung ist für viele Dinge nützlich, nicht nur für Sprachassistenten. Es gibt verschiedene Klangquellen, die eine Anwendung erkennen muss. Beispielsweise können Sie Musikgenres klassifizieren oder Krankheit am Klang der Stimme einer Person erkennen. Es gibt mehr Anwendungen, an die noch nicht einmal gedacht wurde.

Sie erfahren, wie Sie Audioklassifizierung mit PyTorch durchführen, einem beliebten Python-Framework für maschinelles Lernen. Es gibt viele Möglichkeiten, ein Audioklassifizierungsmodell zu erstellen. Sie können die Wellenform verwenden, Abschnitte einer Wave-Datei markieren oder sogar maschinelles Sehen für ein Spektrogrammbild verwenden.

In diesem Modul wird zuerst aufgeschlüsselt, wie Sie Audiodaten verstehen und Soundsignale mithilfe eines Spektrogramms in eine bildliche Darstellung umwandeln. Anschließend erstellen Sie ein Modell mithilfe von maschinellem Sehen, das den Sprachbefehl Ja oder Nein verstehen kann.

Richtig! Sie können Audiodaten in eine Bilddarstellung umwandeln und dann maschinelles Sehen verwenden, um das gesprochene Wort zu klassifizieren.

Lernziele

In diesem Modul lernen Sie Folgendes:

  • Kennenlernen der grundlegenden Features von Audiodaten.
  • Hier erfahren Sie, wie Sie Soundsignale mithilfe von Spektrogrammen in ein visuelles Bildformat umwandeln können.
  • Erstellen Sie ein Sprachklassifizierungsmodell, das Sounds oder gesprochenen Text mithilfe von Convolutional Neural Networks (CNNs) erkennen kann.

Voraussetzungen

  • Grundlegendes Python-Wissen.
  • Grundlegende Kenntnisse zur Verwendung von Jupyter Notebooks.
  • Grundlegendes Verständnis von CNNs (Ein guter Ausgangspunkt ist das Modul „Einführung in maschinelles Sehen mit PyTorch“ in diesem Lernpfad.)