Einführung in die Audioklassifizierung mit PyTorch

Modul
5 Einheiten

Anfänger

Data Scientist

Entwickler

Kursteilnehmer

Azure

In diesem Lernmodul erfahren Sie, wie Sie die Audioklassifizierung mit PyTorch verwenden. Sie lernen mehr über Audiodatenfeatures und wie Sie die Soundsignale in eine visuelle Darstellung mit der Bezeichnung Spektrogramme transformieren. Anschließend erstellen Sie das Modell mithilfe des maschinellen Sehens auf den Spektrogrammbildern. Das ist richtig! Sie können Audiodaten in ein Bildformat umwandeln und dann das gesprochene Wort mit maschinellem Sehen klassifizieren.

Lernziele

In diesem Modul lernen Sie Folgendes:

Kennenlernen der grundlegenden Features von Audiodaten
Hier erfahren Sie, wie Sie Soundsignale mithilfe von Spektrogrammen in ein visuelles Bildformat umwandeln können.
Erstellen Sie ein Sprachklassifizierungsmodell, das Sounds oder gesprochenen Text mithilfe von Convolutional Neural Networks (CNNs) erkennen kann.

Voraussetzungen

Grundlegendes Python-Wissen.
Grundlegende Kenntnisse zur Verwendung von Jupyter Notebooks.
Grundlegendes Verständnis von CNNs Ein guter Ausgangspunkt ist das Modul „Einführung in maschinelles Sehen mit PyTorch“ in diesem Lernpfad.

Einführung min
Grundlegendes zu Audiodaten und -konzepten min
Audiotransformationen und -visualisierungen min
Erstellen des Sprachmodells min
Zusammenfassung min