Introductie
Vraagt u zich ooit af hoe de spraakassistenten eigenlijk werken? Hoe begrijpen ze de woorden die we zeggen? Wanneer u nadenkt over spraakassistenten, hebt u de eerste stap, namelijk spraak-naar-tekst, dan de NLP-stap (Natural Language Processing), het woord insluiten (woorden omzetten in getallen), dan hebt u een classificatie van de uiting (wat mensen zeggen) aan de intentie (wat ze willen dat de spraakassistent doet). Als u dit leertraject volgt, hebt u geleerd hoe het NLP-onderdeel al werkt. Nu willen we kijken hoe we de tekst van de gesproken audio krijgen. Audioclassificatie kan worden gebruikt voor veel dingen, niet alleen spraakassistenten. In muziek kunt u bijvoorbeeld genres classificeren of ziekte detecteren door de toon van iemands stem, en nog meer toepassingen die we nog niet eens hebben bedacht.
In deze leermodule leert u hoe u audioclassificatie kunt uitvoeren met TensorFlow. Er zijn meerdere manieren om een audioclassificatiemodel te bouwen. U kunt de golfvorm, tagsecties van een golfbestand gebruiken of zelfs computer vision gebruiken op de spectrogramafbeelding. In deze zelfstudie wordt eerst uitgelegd hoe u audiogegevens begrijpt, van analoge tot digitale representaties. Vervolgens bouwen we het model met behulp van computer vision op de spectrogramafbeeldingen. Dat klopt, u kunt audio omzetten in een afbeeldingsweergave en computer vision gebruiken om het gesproken woord te classificeren. We gaan een eenvoudig model bouwen dat begrijpt yes
en no
. De gegevensset die we gaan gebruiken, is de open gegevensset Speech Commands die zijn ingebouwd in TensorFlow-gegevenssets. Deze gegevensset heeft 36 totaal verschillende woorden/geluiden die moeten worden gebruikt voor classificatie. Elke utterance wordt opgeslagen als een WAVE-indelingsbestand van één seconde (of minder). We gebruiken yes
alleen en no
voor een binaire classificatie.
Leerdoelen
- Inzicht in enkele belangrijke functies van audiogegevens.
- Inleiding tot het bouwen van machine learning-modellen voor audio.
- Leer hoe u een binair classificatiemodel bouwt op basis van golfbestanden.
Vereisten
- Kennis van Python
- Basiskennis van machine learning