Aussprachebewertung in Speech Studio

Artikel
01/21/2024

Die Aussprachebewertung verwendet die Spracherkennungsfunktion, um subjektives und objektives Feedback für Sprachlerner bereitzustellen. Die Übung der Aussprache und das rechtzeitige Feedback sind für die Verbesserung der Sprachkompetenz von wesentlicher Bedeutung. Assessments durch erfahrene Lehrkräfte können mit viel Zeit und Aufwand einhergehen und ein hochwertiges Assessment für Lernende kostspielig machen. Die Sprachbewertung kann dazu beitragen, dass die Sprachbewertung ansprechender und barrierefreier für Lernende aus allen Hintergründen ist.

Hinweis

Informationen zur Verfügbarkeit der Aussprachebewertung finden Sie unter Unterstützte Sprachen und Verfügbare Regionen.

In diesem Artikel wird beschrieben, wie Sie mit Speech Studio das Tool zur Bewertung der Aussprache verwenden können, ohne Code zu schreiben. Informationen zum Integrieren der Sprachbewertung in Ihre Sprachanwendungen finden Sie unter Verwenden der Aussprachebewertung.

Zusätzlich zu den Basiswerten für Genauigkeit, Flüssigkeit und Vollständigkeit enthält die Aussprachebewertungsfunktion in Speech Studio umfassendere Bewertungen, die detailliertes Feedback zu verschiedenen Aspekten der Sprachleistung und des Verständnisses liefern. Die erweiterten Bewertungen sind wie folgt: Prosodiebewertung, Vokabularbewertung, Grammatikbewertung und Themenbewertung. Diese Bewertungen bieten wertvolle Einblicke in die Prosodie der Sprache, den Wortschatzgebrauch, die grammatikalische Korrektheit und das Themenverständnis.

Screenshot of overall pronunciation score and overall content score on Speech Studio.

Im unteren Teil des Bewertungsergebnisses werden zwei Gesamtbewertungen angezeigt: Bewertung für die Aussprache und Bewertung für den Inhalt. Auf der Registerkarte „Lesen“ wird die Aussprachebewertung angezeigt. Auf der Registerkarte „Sprechen“ werden sowohl die Aussprachebewertung als auch die Inhaltsbewertung angezeigt.

Aussprachebewertung: Diese Bewertung stellt ein aggregiertes Assessment der Aussprachequalität dar und umfasst vier Teilaspekte. Diese Bewertungen sind sowohl in der Registerkarte Lesen als auch in der Registerkarte Sprechen und zwar sowohl für Bewertungen mit als auch ohne Skript verfügbar.

Genauigkeitsbewertung: Wertet die Richtigkeit der Aussprache aus.
Flüssigkeitsbewertung: Misst den Grad der Gleichmäßigkeit und Natürlichkeit in der Sprache.
Vollständigkeitsbewertung: Gibt die Anzahl der Wörter wieder, die richtig ausgesprochen wurden.
Prosodiebewertung: Bewertet den Einsatz geeigneter Intonation, Rhythmus und Betonung. Es werden weitere zusätzliche Fehlertypen im Zusammenhang mit dem Prosodieassessment eingeführt, wie „Unerwartete Unterbrechung“, „Fehlende Unterbrechung“ und „Monotonie“. Diese Fehlertypen liefern im Vergleich zum vorherigen Modul detailliertere Informationen über Aussprachefehler.

Inhaltsbewertung: Diese Bewertung stellt ein aggregiertes Assessment des Inhalts der Sprache dar und umfasst drei Teilaspekte. Diese Bewertung ist nur auf der Registerkarte Sprechen für eine Bewertung ohne Skript verfügbar.

Vokabularbewertung: Hierbei wird der effektive Gebrauch von Wörtern und deren Angemessenheit im gegebenen Kontext bewertet, um Gedanken präzise auszudrücken, sowie das Niveau der lexikalischen Komplexität.
Grammatikbewertung: Wertet die Richtigkeit des Grammatikgebrauchs und die Vielfalt von Satzmustern aus. Dabei werden die lexikalische Genauigkeit, die grammatikalische Genauigkeit und die Vielfalt der Satzstrukturen berücksichtigt, so dass eine umfassendere Bewertung der Sprachkenntnisse möglich ist.
Themenbewertung: Bewertet den Grad des Verständnisses und der Auseinandersetzung mit dem in der Sprache behandelten Thema. Dabei wird die Fähigkeit des Sprechers bzw. der Sprecherin bewertet, Gedanken und Ideen zu einem bestimmten Thema effektiv auszudrücken.

Diese Gesamtbewertungen bieten eine umfassende Beurteilung sowohl der Aussprache als auch des Inhalts und geben den Lernenden wertvolles Feedback zu verschiedenen Aspekten ihrer Sprachleistung und ihres Verständnisses. Durch die Verwendung dieser erweiterten Funktionen können Sprachschüler*innen tiefere Einblicke in ihre Vorteile und verbesserungswürdigen Bereiche sowohl bei der Aussprache als auch beim inhaltlichen Ausdruck gewinnen.

Hinweis

Inhalts- und Prosodie-Bewertungen sind nur in der Sprachversion en-US verfügbar.

Preisberechnung

Die Kosten für die Nutzung der Aussprachebewertung sind dieselben wie für die Spracherkennung, unabhängig davon, ob es sich um einen Tarif mit nutzungsbasierter Bezahlung oder Mindestabnahme handelt. Wenn Sie für die Spracherkennung einen Mindestabnahmetarif erwerben, werden die Ausgaben für die Aussprachebewertung auf die Erfüllung der Mindestabnahme angerechnet.

Das Assessmentfeature für die Aussprache bietet auch zusätzliche Bewertungen, die im Basispreis für die Spracherkennung nicht enthalten sind: Prosodie, Grammatik, Thema und Wortschatz. Diese Ergebnisse sind als Add-on verfügbar, das zusätzlich zum Grundpreis für die Spracherkennung berechnet wird. Informationen zu Preisen finden Sie unter Preise für die Spracherkennung.

Hier finden Sie eine Tabelle mit den verfügbaren Bewertungen der Aussprache, ob sie in den Bewertungen mit oder ohne Skript verfügbar sind und ob sie im Grundpreis für die Spracherkennung oder im Preis für das Add-on enthalten sind.

Ergebnis	Mit oder ohne Skript	Im Grundpreis für die Spracherkennung enthalten?
Genauigkeit	Mit und ohne Skript	Ja
Geläufigkeit	Mit und ohne Skript	Ja
Vollständigkeit	Skript erstellt	Ja
Fehler beim Lesen	Mit und ohne Skript	Ja
Prosodie	Mit und ohne Skript	Nein
Grammatik	Nur ohne Skript	Nein
Thema	Nur ohne Skript	Nein
Vokabular	Nur ohne Skript	Nein

Probieren Sie die Aussprachebewertung aus

Sie können die Aussprache auch ohne Anmeldung entdecken und ausprobieren.

Tipp

Um mehr als 5 Sprechsekunden mit Ihrem eigenen Skript zu bewerten, melden Sie sich mit einem Azure-Konto und verwenden Sie unter Ihre Sprachressource.

Beurteilung der Granularität der Aussprache

Die Aussprachebewertung bietet verschiedene Bewertungsergebnisse in unterschiedlichen Granularitäten, von einzelnen Phonemen bis hin zur gesamten Texteingabe.

Auf der Volltextebene bietet die Aussprachebewertung zusätzliche Bewertungen für Flüssigkeit, Vollständigkeit und Prosodie: Flüssigkeit zeigt an, wie genau die Aussprache mit der Verwendung von Unterbrechungen zwischen den Wörtern durch einen Muttersprachler übereinstimmt; Vollständigkeit zeigt an, wie viele Wörter in der Aussprache im Vergleich zur Referenztexteingabe ausgesprochen werden; Prosodie zeigt an, wie gut ein*e Sprecher*in Elemente der Natürlichkeit, Ausdruckskraft und allgemeinen Prosodie in der Aussprache vermittelt. Eine Gesamtbewertung, die sich aus Genauigkeit, Flüssigkeit, Vollständigkeit und Prosodie zusammensetzt, gibt dann die Gesamtqualität der Aussprache an. Die Bewertung der Aussprache bietet auch eine Inhaltsbewertung (Wortschatz, Grammatik und Thema) auf Volltextebene.
Auf Wortebene kann die Aussprache automatisch Fehlschläge erkennen und gleichzeitig Genauigkeitsbewertungen bereitstellen, die ausführlichere Informationen zu Auslassung, Wiederholung, Einfügungen und falsche Aussprachen in der angegebenen Sprache bereitstellen.
Genauigkeitsbewertungen auf Silbenebene sind derzeit nur über die JSON-Datei oder das Speech-SDK verfügbar.
Auf Phonem-Ebene bietet die Aussprache Genauigkeitsbewertungen für jedes Phonem und hilft Lernenden, die Aussprache-Details ihrer Sprache besser zu verstehen.

Lese- und Sprachszenarien

Für die Bewertung der Aussprache gibt es zwei Szenarien: Lesen und Sprechen.

Lesen: Dieses Szenario wurde für Bewertungen mit Skript entwickelt. Es erfordert, dass der oder die Lernende einen bestimmten Text vorliest. Der Referenztext wird im Voraus bereitgestellt.
Sprechen: Dieses Szenario wurde für Bewertungen ohne Skript entwickelt. Es erfordert, dass der oder die Lernende eine Rede zu einem bestimmten Thema hält. Der Referenztext wird im Voraus nicht bereitgestellt.

Durchführen einer Bewertung mit Skript

Führen Sie die folgenden Schritte aus, um die Aussprache des Referenztexts zu bewerten:

Gehen Sie zu Aussprachebewertung im Speech Studio.
Wählen Sie in der Registerkarte „Lesen“ eine unterstützte Sprache aus, für die Sie die Aussprache bewerten möchten.
Sie können bereitgestellte Textbeispiele verwenden oder Ihr eigenes Skript eingeben.

Beim Lesen des Texts sollten Sie in der Nähe des Mikrofons sein, um sicherzustellen, dass die aufgezeichnete Stimme nicht zu leise ist.

Andernfalls können Sie eine Audioaufzeichnung für die Aussprachebewertung hochladen. Nach dem erfolgreichen Hochladen wird die Audioaufzeichnung automatisch vom System ausgewertet, wie im folgenden Screenshot dargestellt.

Durchführen einer Bewertung ohne Skript

Wenn Sie eine Bewertung ohne Skript durchführen möchten, wählen Sie die Registerkarte „Sprechen“ aus. Mit diesem Feature können Sie ein Assessment ohne Skript durchführen, ohne im Voraus Referenztext bereitzustellen. Gehen Sie dazu folgendermaßen vor:

Gehen Sie zu Aussprachebewertung im Speech Studio.
Wählen Sie in der Registerkarte „Sprechen“ eine unterstützte Sprache aus, für die Sie die Aussprache bewerten möchten.
Als Nächstes können Sie aus den bereitgestellten Beispielthemen auswählen oder ein eigenes Thema eingeben. So können Sie ihre Fähigkeit zu Sprechen bewerten, ohne ein vordefiniertes Skript zu einem bestimmten Thema angeben zu müssen.

Wenn Sie Ihre Sprache zur Aussprachebewertung aufnehmen, sollten Sie darauf achten, dass die Aufnahmezeit innerhalb des empfohlenen Bereichs von 15 Sekunden (entspricht mehr als 50 Wörtern) bis 10 Minuten liegt. Dieser Zeitraum ist optimal für die genaue Auswertung des Inhalts Ihrer Rede. Um eine Themenbewertung zu erhalten, sollte Ihr gesprochenes Audio mindestens drei Sätze enthalten.

Sie können auch eine Audioaufzeichnung für die Aussprachebewertung hochladen. Nachdem die Audioaufzeichnung erfolgreich hochgeladen wurde, wird sie automatisch vom System ausgewertet.

Ergebnisse der Aussprachebewertung

Nachdem Sie das Gesprochene aufgezeichnet oder die Audioaufzeichnung hochgeladen haben, wird das Assessmentergebnis ausgegeben. Das Ergebnis umfasst Ihre gesprochenen Audiodaten und das Feedback zu Ihrer Sprachbewertung. Sie können Ihre gesprochene Audioaufzeichnung anhören und sie bei Bedarf herunterladen.

Sie können auch das Ergebnis der Aussprachebewertung in JSON überprüfen. Die Genauigkeitsbewertungen auf Wortebene, Silbenebene und Phonemebene sind in der JSON-Datei enthalten.

Anzeige
JSON

Screenshot of showing the assessment result on the display window, which includes transcript and feedback on your speech.

Die vollständige Transkription wird im Anzeigefenster angezeigt. Das Wort wird entsprechend dem Fehlertyp hervorgehoben. Die Fehlertypen in der Aussprachebewertung werden in verschiedenen Farben dargestellt. Diese visuelle Unterscheidung erleichtert die Identifizierung und Analyse bestimmter Fehler. Sie bietet einen klaren Überblick über die Fehlertypen und Häufigkeiten im gesprochenen Audio, sodass Sie sich auf Bereiche konzentrieren können, die verbessert werden müssen. Sie können jeden Fehlertyp ein-/ausschalten, um sich auf bestimmte Fehlertypen zu konzentrieren oder bestimmte Typen von der Anzeige auszuschließen. Diese Funktion bietet Ihnen Flexibilität bei der Überprüfung und Analyse von Fehlern in Ihrem gesprochenen Audio. Während Sie jedes Wort überfliegen, können Sie Genauigkeitsbewertungen für das gesamte Wort oder bestimmte Phoneme sehen.

Am unteren Rand des Assessments werden die Bewertungsergebnisse angezeigt. Für das Ausspracheassessment mit Skript wird nur die Aussprachebewertung (einschließlich Genauigkeit, Flüssigkeit, Vollständigkeit und Prosodie) angegeben. Beim Ausspracheassessment ohne Skript werden sowohl die Bewertung für die Aussprache (einschließlich Genauigkeit, Flüssigkeit und Prosodie) als auch die Bewertung für den Inhalt (einschließlich Vokabular, Grammatik und Themen) angezeigt.

Die vollständige Transkription wird im text-Attribut angezeigt. Sie können Genauigkeitsbewertungen für das gesamte Wort, die Silben und bestimmte Phoneme sehen. Sie können die gleichen Ergebnisse mithilfe des Speech SDK abrufen. Weitere Informationen finden Sie unter Verwendung der Aussprachebewertung.

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

Bewertungsergebnisse im Streamingmodus

Die Aussprachebewertung unterstützt den unterbrechungsfreien Streamingmodus. Mit der Speech Studio-Demo können Sie bis zu 60 Minuten im Streamingmodus aufzeichnen und auswerten. Solange Sie nicht die Schaltfläche „Aufzeichnung beenden“ drücken, wird der Auswertungsprozess nicht abgeschlossen, und Sie können die Auswertung bequem anhalten und fortsetzen.

Die Aussprachebewertung bewertet mehrere Aspekte der Aussprache. Am unteren Rand des Assessmentergebnisses sehen Sie die Aussprachebewertung als aggregierte Gesamtbewertung, die vier Teilaspekte umfasst: Genauigkeitsbewertung, Flüssigkeitsbewertung, Vollständigkeitsbewertung und Prosodiebewertung. Da die Genauigkeitsbewertung, die Flüssigkeitsbewertung und die Prosodiebewertung während des Aufzeichnungsprozesses variieren, demonstrieren wir in Speech Studio einen Ansatz, um die ungefähre Gesamtbewertung inkrementell vor dem Ende der Auswertung anzuzeigen, die nur mit Genauigkeitsbewertung, Flüssigkeitsbewertung und Prosodiebewertung gewichtet wird. Die Vollständigkeitsbewertung wird erst am Ende der Auswertung berechnet, nachdem Sie die Schaltfläche „Beenden“ gedrückt haben, sodass die endgültige Gesamtaussprachebewertung aus Genauigkeitsbewertung, Flüssigkeitsbewertung, Vollständigkeitsbewertung und Prosodiebewertung mit Gewichtung aggregiert wird.

Den gesamten Prozess der Auswertung der Aussprache im Streamingmodus finden Sie in den folgenden Demobeispielen.

Aufzeichnung starten

Wenn Sie mit der Aufzeichnung beginnen, ändern sich die Bewertungen am unteren Rand von 0.

Während der Aufzeichnung

Während der Aufzeichnung eines langen Absatzes können Sie die Aufzeichnung jederzeit anhalten. Sie können mit der Auswertung Ihrer Aufzeichnung fortfahren, solange Sie nicht die Stopptaste drücken.

Aufzeichnung abschließen

Nachdem Sie die Schaltfläche „Beenden“ gedrückt haben, können Sie am unteren Rand die Aussprachebewertung, die Genauigkeitsbewertung, die Flüssigkeitsbewertung, die Vollständigkeitsbewertung sowie die Prosodiebewertung sehen.

Verantwortungsbewusste künstliche Intelligenz

Ein KI-System umfasst nicht nur Technologie, sondern auch die Personen, die das System verwenden, die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Nächste Schritte

Verwenden Sie die Aussprachebewertung mit dem Speech SDK
Lesen Sie den Blog zu Anwendungsfällen