Zusammenfassung
Herzlichen Glückwunsch zum Erstellen eines binären Audiomodells für die Sprachklassifizierung!
Sie wissen nun, wie analoges Audiomaterial in digitalen Klang umgewandelt wird und wie Sie Spektrogramme aus Ihren Wave-Dateien erstellen können. Sie haben das PyTorch Speech Commands-Dataset verwendet, die Klassen bis hinab zu yes
und no
analysiert und dann die Möglichkeiten angesehen, wie Sie Audiodatenmuster verstehen und visualisieren können. Von dort aus haben Sie die Spektrogramme verwendet, Bilder erstellt und ein Convolutional Neural Network verwendet, um das Modell aufzubauen.
Sie können diese Kenntnisse vertiefen, indem Sie sich andere Datensätze und Klänge sowie den MFCC
-Transformator ansehen. Anschließend können Sie das Modell erstellen.
Sehen Sie sich auch die anderen Module an:
- Einführung in PyTorch
- Einführung in das maschinelle Sehen mit PyTorch
- Einführung in die Verarbeitung natürlicher Sprache mit PyTorch
Tipp
Klicken Sie zum Öffnen eines Links mit der rechten Maustaste, und wählen Sie dann Open in new tab or window (In neuer Registerkarte oder neuem Fenster öffnen) aus. Auf diese Weise können Sie die Ressource einsehen und problemlos zum Modul zurückkehren.