Anzeigen der Textformatierung mit Spracherkennung

Die Spracherkennung bietet eine Reihe von Formatierungsfunktionen, um sicherzustellen, dass der transkribierte Text klar und lesbar ist. In den folgenden Abschnitten finden Sie eine Übersicht darüber, wie jedes Feature verwendet wird, um die Gesamtschärfe der endgültigen Textausgabe zu verbessern.

ITN

Umgekehrte Textnormalisierung (ITN) ist ein Prozess, der gesprochenen Text in dessen schriftliche Form konvertiert. Beispielsweise wird der gesprochene Text „vier“ in das geschriebene Formular „4“ konvertiert. Der Sprache-in-Text-Dienst schließt diesen Prozess ab und kann nicht konfiguriert werden. Einige der unterstützten Textformate umfassen Datumsangaben, Uhrzeiten, Dezimalstellen, Währungen, Adressen, E-Mails und Telefonnummern. Sie können auf natürliche Weise sprechen, und der Dienst formatiert den Text wie erwartet. In der folgenden Tabelle sind die ITN-Regeln aufgeführt, die auf die Textausgabe angewendet werden.

Erkannte Sprache Anzeigetext
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Großbuchstaben

Spracherkennungsmodelle erkennen Wörter, die großgeschrieben werden sollten, um die Lesbarkeit, Genauigkeit und Grammatik zu verbessern. Beispielsweise schreibt der Sprachdienst Eigennamen und Wörter am Anfang eines Satzes automatisch groß. Einige Beispiele werden in dieser Tabelle gezeigt.

Erkannte Sprache Anzeigetext
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Unzulänglichkeitsentfernung

Beim Sprechen ist es üblich, dass jemand stottert, Wörter wiederholt und Füllwörter wie „ähm“ oder „äh“ sagt. Die Spracherkennung kann solche Unzulänglichkeiten erkennen und sie aus dem Anzeigetext entfernen. Die Unzulänglichkeitsentfernung eignet sich hervorragend zum Transkribieren von Live-Reden ohne Drehbuch, um sie später noch einmal zu lesen. Einige Beispiele werden in dieser Tabelle gezeigt.

Erkannte Sprache Anzeigetext
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Interpunktion

Die Spracherkennung interpunktiert Ihren Text automatisch, um die Klarheit zu verbessern. Interpunktion ist hilfreich für das Lesen von Anruf- oder Unterhaltungstranskriptionen. Einige Beispiele werden in dieser Tabelle gezeigt.

Erkannte Sprache Anzeigetext
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

Wenn Sie Spracherkennung mit fortlaufender Erkennung verwenden, können Sie den Sprachdienst so konfigurieren, dass er explizite Interpunktionszeichen erkennt. Dann können Sie Interpunktion laut sprechen, um Ihren Text lesbarer zu machen. Dies ist besonders nützlich in einer Situation, in der Sie komplexe Interpunktion verwenden möchten, ohne sie später zusammenführen zu müssen. Einige Beispiele werden in dieser Tabelle gezeigt.

Erkannte Sprache Anzeigetext
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Verwenden Sie das Speech SDK, um den Diktiermodus zu aktivieren, wenn Sie Spracherkennung mit kontinuierlicher Erkennung verwenden. Dieser Modus bewirkt, dass die Sprachkonfigurationsinstanz Wortbeschreibungen von Satzstrukturen wie z. B. Interpunktion interpretiert.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Filter für anstößige Ausdrücke

Sie können angeben, ob im endgültig transkribierten Text obszöne Inhalte maskiert, entfernt oder angezeigt werden sollen. Beim Maskieren werden obszöne Wörter durch Sternchen (*) ersetzt, sodass Sie die ursprüngliche Stimmung Ihres Textes beibehalten und ihn gleichzeitig für bestimmte Situationen geeigneter gestalten können

Hinweis

Microsoft behält sich ebenfalls das Recht vor, Wörter zu maskieren oder zu entfernen, die als unangemessen angesehen werden. Solche Wörter werden vom Speech-Dienst nicht zurückgegeben, unabhängig davon, ob Sie die Filterung nach unanständigen Ausdrücken aktiviert haben.

Diese Optionen stehen für die Filterung nach unanständigen Ausdrücken zur Verfügung:

  • Masked: Ersetzt Buchstaben in anstößigen Wörtern durch Sternsymbole (*). Maskiert ist die Standardoption.
  • Raw: Schließt die anstößigen Ausdrücke im Wortlaut ein.
  • Removed: Entfernt anstößige Ausdrücke.

Wenn Sie beispielsweise anstößige Wörter aus dem Ergebnis der Spracherkennung entfernen möchten, legen Sie den Filter für anstößige Ausdrücke wie folgt auf Removed fest:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Der Filter für anstößige Ausdrücke wird auf die Eigenschaften Text und MaskedNormalizedForm des Ergebnisses angewendet. Der Filter für anstößige Ausdrücke wird nicht auf die Eigenschaften LexicalForm und NormalizedForm des Ergebnisses angewendet. Noch wird der Filter auf die Ergebnisse auf Wortebene angewendet.

Nächste Schritte