Verstehen von Spracherkennung und -synthese

3 Minuten

Die Spracherkennung konvertiert gesprochenen Text in Daten, die verarbeitet werden können. Häufig werden diese dafür in eine Textdarstellung transkribiert. Der gesprochene Text kann in Form einer aufgezeichneten Stimme in einer Audiodatei oder von Liveaufnahmen über ein Mikrofon vorliegen. Sprachmuster werden in der Audiodatei analysiert, um erkennbare Muster zu ermitteln, die Wörtern zugeordnet sind. Hierfür verwendet die Software normalerweise mehrere Modelltypen, einschließlich:

Ein Akustikmodell, das das Audiosignal in Phoneme (Darstellungen bestimmter Laute) konvertiert
Ein Sprachmodell, das Phoneme Wörtern zuordnet. Hierfür wird in der Regel ein statistischer Algorithmus verwendet, der die wahrscheinlichste Wortabfolge anhand der Phoneme vorhersagt.

Die erkannten Wörter werden meistens in Text konvertiert, den Sie für verschiedene Zwecke verwenden können:

Bereitstellen von Untertiteln für aufgezeichnete Videos oder Livevideos
Erstellen eines Transkripts für ein Telefonat oder eine Besprechung
Automatisiertes Diktat von Notizen
Bestimmen der beabsichtigten Benutzereingabe für die weitere Verarbeitung

Die Sprachsynthese generiert gesprochenen Text aus Daten. In der Regel wird hierfür Text in Sprache konvertiert. Eine Sprachsyntheselösung benötigt in der Regel die folgenden Informationen:

Den zu sprechenden Text
Die Stimme, die zum Sprechen des Texts verwendet werden soll

Um die Sprache zu synthetisieren, tokenisiert das System den Text üblicherweise, um ihn in einzelne Worte zu unterteilen. Diesen werden dann phonetische Laute zugewiesen. Die phonetische Transkription wird dann in prosodische Einheiten (wie Phrasen, Teilsätze oder Sätze) unterteilt, um Phoneme zu erstellen, die in ein Audioformat konvertiert werden. Diese Phoneme werden dann als Audio synthetisiert und können einer bestimmten Stimme, Sprachfrequenz, Tonhöhe und Lautstärke zugewiesen werden.

Sie können die Ausgabe der Sprachsynthese für viele Zwecke verwenden:

Generieren gesprochener Antworten auf Benutzereingaben
Erstellen von Sprachmenüs für Telefonsysteme
Lautes Vorlesen von E-Mails oder SMS in Situationen, in denen Sie keine Hand frei haben
Öffentliche Durchsagen, z. B. an Bahnhöfen oder Flughäfen

Weiter

Feedback