Anwendungsfälle für die Spracherkennung

2025-06-25

Von Bedeutung

Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte wenden Sie sich an die EN-US Version dieses Dokuments für die Bindungsversion.

Was ist ein Transparenzhinweis?

Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die das System verwenden, die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Die Schaffung eines Systems, das für seinen vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, was ihre Möglichkeiten und Einschränkungen sind und wie die beste Leistung erreicht wird. Die Transparenzhinweise von Microsoft sollen Ihnen helfen zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzende treffen können, um die Systemleistung und das Systemverhalten zu beeinflussen, und wie wichtig es ist, das gesamte System zu betrachten, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die Ihr System verwenden oder von ihm betroffen sind.

Die Transparenzhinweise von Microsoft sind Teil einer größeren Initiative bei Microsoft, unsere KI-Prinzipien praktisch umzusetzen. Weitere Informationen finden Sie unter den KI-Prinzipien von Microsoft.

Die Grundlagen der Spracherkennung

Sprache an Text, auch bekannt als automatische Spracherkennung (ASR), ist ein Feature unter dem Azure AI Speech-Dienst, der Teil von Azure AI-Diensten ist. Sprache in Text konvertiert gesprochene Audiodaten in Text. Sprach-zu-Text in Azure unterstützt über 140 Sprachregionen für die Eingabe. Eine aktuelle Liste unterstützter Gebietsschemas finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst.

Schlüsselbegriffe

Begriff	Definition
Audioeingabe	Die gestreamten Audiodaten oder Audiodateien, die als Eingabe für die Sprach-zu-Text-Funktion verwendet werden. Audioeingaben können nicht nur Stimme, sondern auch Stumm- und Nicht-Sprachgeräusche enthalten. Sprache zu Text generiert Text für die Sprachteile der Audioeingabe.
Äußerung	Eine Komponente der Audioeingabe, die menschliche Stimme enthält. Eine Äußerung kann aus einem einzelnen Wort oder mehreren Wörtern bestehen, z. B. einem Ausdruck.
Transkription	Die Textausgabe der Spracherkennungsfunktion. Diese automatisch generierte Textausgabe nutzt Sprachmodelle und wird manchmal als maschinelle Transkription oder automatisierte Spracherkennung (ASR) bezeichnet. Die Transkription in diesem Kontext ist vollständig automatisiert und unterscheidet sich daher von der menschlichen Transkription, also von Text, der von menschlichen Transkriptoren generiert wird.
Sprachmodell	Eine automatisch generierte, maschinenlernende numerische Darstellung einer Äußerung, die verwendet wird, um eine Transkription von einer Audioeingabe abzuleiten. Sprachmodelle werden auf Sprachdaten trainiert, die verschiedene Sprachstile, Sprachen, Akzente, Dialekte und Intonationen sowie akustische Variationen enthalten, die mit verschiedenen Arten von Aufzeichnungsgeräten generiert werden. Ein Sprachmodell stellt numerisch sowohl akustische als auch sprachliche Merkmale dar, die verwendet werden, um vorherzusagen, welcher Text mit der Äußerung verknüpft werden soll.
Echtzeit-API	Eine API, die Anforderungen mit Audioeingabe akzeptiert und eine Antwort in Echtzeit mit Transkription innerhalb derselben Netzwerkverbindung zurückgibt.
Spracherkennungs-API	Eine Art von Echtzeit-API, die erkennt, welche Sprache in einer Audioeingabe gesprochen wird. Eine Sprache wird basierend auf Sprachsound in der Audioeingabe abgeleitet.
Sprachübersetzungs-API	Eine andere Art von Echtzeit-API, die Transkriptionen einer bestimmten Audioeingabe generiert, übersetzt sie dann in eine vom Benutzer angegebene Sprache. Dies ist ein kaskadierter Dienst von Sprachdiensten und Textübersetzer.
Batch-API	Ein Dienst, der verwendet wird, um Audioeingaben zu einem späteren Zeitpunkt zu transkribieren. Sie geben den Speicherort von Audiodateien und anderen Parametern an, z. B. die Sprache der Erkennung. Der Dienst lädt die Audioeingabe asynchron und transkribiert sie. Wenn die Transkription abgeschlossen ist, werden Textdateien an einen von Ihnen angegebenen Speicherort zurückgeladen.
Diarisierung (Sprechertrennung)	Diarization beantwortet die Frage, wer sprach und wann. Sie unterscheidet Lautsprecher in einer Audioeingabe basierend auf ihren Sprachmerkmalen. Sowohl Echtzeit- als auch Batch-APIs unterstützen die Diarisierung und sind in der Lage, die Stimmen von Sprechern in Monochannel-Aufzeichnungen zu unterscheiden. Die Diarisierung wird mit Spracherkennungsfunktionen kombiniert, um Transkriptionsausgaben bereitzustellen, die einen Eintrag für eine sprechende Person für jedes transkribierte Segment enthalten. Die Transkriptionsausgabe wird basierend auf der Anzahl der Lautsprecher in der Audiounterhaltung als GUEST1, GUEST2, GUEST3 usw. markiert.
Word-Fehlerrate(WER)	Die Word-Fehlerrate (WER) ist der Branchenstandard, um die Genauigkeit der Spracherkennung zu messen. WER zählt die Anzahl falscher Wörter, die während der Erkennung identifiziert werden. Dann wird durch die Gesamtanzahl der Wörter geteilt, die in der korrekten Transkription angegeben sind (häufig durch menschliche Markierungen erstellt).
Tokenfehlerrate(TER)	Die Tokenfehlerrate (TOKEN Error Rate, TER) ist ein Maß für die Richtigkeit der endgültigen Erkennung von Wörtern, Groß- und Kleinschreibung, Interpunktion usw. im Vergleich zu Token, die im richtigen Transkript bereitgestellt werden (häufig durch menschliche Bezeichnungen erstellt).
Laufzeitlatenz	Bei der Sprachausgabe für Text ist die Latenz die Zeit zwischen der Sprachaudioeingabe und der Ausgabe des Transkriptionsergebnisses.
Fehlerrate bei der Wortdiarisierung (WDER)	Die Fehlerrate bei der Wortdiarisierung (WDER) zählt die Anzahl der Fehler bei den Wörtern, die der falschen sprechenden Person zugewiesen wurden, im Vergleich zur Grundwahrheit. Eine niedrigere WDER-Rate zeigt eine bessere Qualität an.

Fähigkeiten

Systemverhalten

Nachfolgend listen wir die wichtigsten Möglichkeiten zum Aufrufen unseres Spracherkennungsdienstes auf.

Echtzeit-Spracherkennung zu Text-API

Dies ist ein gängiger API-Aufruf über das Speech SDK oder die REST-API, um eine Audioeingabe zu senden und eine Texttranskription in Echtzeit zu empfangen. Das Sprachsystem verwendet ein Sprachmodell, um zu erkennen, was in einem Eingabeaudio gesprochen wird. Während der Echtzeit-Sprachausgabe in Text nimmt das System einen Audiodatenstrom als Eingabe an und ermittelt kontinuierlich die wahrscheinlichste Abfolge von Wörtern, die die bisher beobachtete Audiowiedergabe erzeugt haben. Das Modell wird für eine große Menge an vielfältigem Audio in typischen Nutzungsszenarien und einer breiten Palette von Lautsprechern trainiert. Dieses Feature wird z. B. häufig für sprachfähige Abfragen oder Diktatvorgänge innerhalb des Diensts oder der Anwendung einer Organisation verwendet.

Batch-Transkriptions-API

Batchtranskription ist eine andere Art von API-Aufruf. Es wird in der Regel verwendet, um vorab aufgezeichnete Audioeingaben zu senden und transkribierten Text asynchron zu empfangen (d. r. zu einem späteren Zeitpunkt). Um diese API zu verwenden, können Sie Speicherorte für mehrere Audiodateien angeben. Die Sprach-zu-Text-Technologie liest die Audioeingabe aus der Datei und generiert Transkriptionstextdateien, die an den von Ihnen angegebenen Speicherort zurückgegeben werden. Dieses Feature wird verwendet, um größere Transkriptionsaufträge zu unterstützen, bei denen es nicht erforderlich ist, Endbenutzern den Transkriptionsinhalt in Echtzeit bereitzustellen. Ein Beispiel ist das Transkribieren von Anrufcenteraufzeichnungen, um Einblicke in die Leistung von Kunden und Call Center-Agenten zu erhalten.

Wenn Sie die Batch-Transkription verwenden, können Sie das Whisper-Modell anstelle des standardmäßigen Azure AI-Sprach-zu-Text-Modells nutzen. Um festzustellen, ob das Flüstermodell für Ihren Anwendungsfall geeignet ist, können Sie vergleichen, wie sich die Ausgabe zwischen diesen Modellen im Batch unterscheidet. Probieren Sie es in Speech Studio aus, und führen Sie dann tiefere Auswertungen durch, indem Sie die Testfunktionen über benutzerdefinierte Spracherkennung verwenden. Beachten Sie, dass das Whisper-Modell auch über Azure OpenAI verfügbar ist.

Sprachübersetzungs-API

Diese API konvertiert Die Audioeingabe in Text und übersetzt sie dann in eine andere Sprache. Die übersetzte Transkriptionsausgabe kann im Textformat zurückgegeben werden, oder Sie können den Text mithilfe von Text-zu-Sprache in hörbare Sprache synthetisieren lassen. Weitere Informationen finden Sie unter Was ist Azure AI Translator?

Unterfeatures und Optionen

Die oben genannten APIs können optional die folgenden Unterfeatures verwenden:

Modellanpassung: Mit Azure AI Speech können Entwickler die Sprache an Textmodelle anpassen, um die Erkennungsgenauigkeit für ein bestimmtes Szenario zu verbessern. Es gibt zwei Möglichkeiten zum Anpassen der Spracherkennung an Text:
- Zur Laufzeit bei der Verwendung der Funktion Begriffsliste
- Vorab durch die Verwendung von benutzerdefinierter Sprache (Custom Speech)
Spracherkennung: Im Gegensatz zu einem Standard-API-Aufruf, in dem eine Sprache oder ein Gebietsschema für eine Audioeingabe im Voraus angegeben werden muss, können Sie mehrere Gebietsschemas angeben und dem Dienst ermöglichen, zu erkennen, welche Sprache verwendet werden soll, um einen bestimmten Teil der Audiodaten zu erkennen.
Diarisierung: Dieses Feature ist standardmäßig deaktiviert. Wenn Sie diese Funktion aktivieren, unterscheidet der Dienst die Äußerungen verschiedener Sprecher. Der resultierende Transkriptionstext enthält eine "Sprecher"-Eigenschaft, die GAST1, GAST2, GAST3 usw. angibt, welche Person in einer Audiodatei spricht.

Anwendungsfälle

Spracherkennung in Text kann Benutzern verschiedene Möglichkeiten bieten, mit Anwendungen und Geräten zu interagieren. Anstatt Wörter auf einer Tastatur einzugeben oder ihre Hände für Touchscreeninteraktionen zu verwenden, ermöglicht die Sprach-zu-Text-Technologie benutzern das Bedienen von Anwendungen und Geräten per Sprache und diktieren.

Intelligente Assistenten: Unternehmen, die intelligente Assistenten für Geräte, Autos und Häuser entwickeln, können Spracherkennung verwenden, um Suchabfragen der natürlichen Benutzeroberfläche zu ermöglichen oder bestimmte Funktionen per Sprache auszulösen. Dies wird als _Befehls- und Kontrollsystem_ bezeichnet.
Chat-Bots: Unternehmen können Chat-Bot-Anwendungen erstellen, in denen Benutzer sprachfähige Abfragen oder Befehle für die Interaktion mit Bots verwenden können.
Spracheingabe: Apps können Benutzern die Nutzung ihrer Stimme ermöglichen, um langformatigen Text zu diktieren. Spracheingaben können verwendet werden, um Text für Nachrichten, E-Mails und Dokumente einzugeben.
Sprachbefehle: Benutzer können bestimmte Aktionen per Sprachbefehl (Befehl und Steuerung) auslösen. Zwei häufige Beispiele sind das Eingeben von Abfragetext per Spracheingabe und das Auswählen eines Menüelements per Sprachsteuerung.
Sprachübersetzung: Sie können die Sprachübersetzungsfeatures von Sprache in Texttechnologie verwenden, um mit anderen Benutzern zu kommunizieren, die unterschiedliche Sprachen sprechen. Die Sprachübersetzung ermöglicht die Sprach-zu-Sprache-Kommunikation über mehrere Sprachen hinweg. Einzelheiten finden Sie in der aktuellen Liste unterstützter Gebietsschemas unter Sprach- und Stimmunterstützung für den Speech-Dienst.
Call Center-Transkriptionen: Unternehmen zeichnen häufig Unterhaltungen mit ihren Benutzern in Szenarien wie Kundensupportanrufen auf. Audioaufzeichnungen können zur Transkription an die Batch-API gesendet werden.
Diktieren mit gemischter Sprache: Benutzer können Spracherkennung für Texttechnologie verwenden, um in mehreren Sprachen diktieren zu können. Mithilfe der Spracherkennung kann eine Diktieranwendung automatisch gesprochene Sprachen erkennen und entsprechend transkribieren, ohne dass ein Benutzer angeben muss, welche Sprache sie sprechen.
Live-Transkription von Gesprächen: Wenn sich die Sprecher alle im selben Raum befinden und eine Ein-Mikrofon-Einrichtung verwenden, soll eine Live-Transkription durchgeführt werden, die angibt, welcher Sprecher (Gast1, Gast2, Gast3 usw.) jede Aussage macht.
Unterhaltungstranskription von vorab aufgezeichneten Audiodaten: Nach der Aufzeichnung von Audio mit mehreren Lautsprechern können Sie unseren Dienst verwenden, um die Transkription zu erhalten, welche Sprecher (Gast1, Gast2, Gast3 usw.) jede Aussage vornimmt.

Überlegungen bei der Auswahl anderer Anwendungsfälle

Die Sprach-zu-Text-API bietet praktische Optionen für die Entwicklung sprachfähiger Anwendungen, aber es ist sehr wichtig, den Kontext zu berücksichtigen, in den Sie die API integrieren werden. Sie müssen sicherstellen, dass Sie alle Gesetze und Vorschriften einhalten, die für Ihre Anwendung gelten. Dazu gehört das Verständnis Ihrer Verpflichtungen im Rahmen von Datenschutz- und Kommunikationsgesetzen, einschließlich nationaler und regionaler Datenschutz-, Lauschangriffs- und Abhörgesetze, die für Ihre Gerichtsbarkeit gelten. Sammeln und verarbeiten Sie nur Audio, das im Rahmen dessen ist, was Ihre Benutzer erwarten. Dies umfasst die Sicherstellung, dass Sie alle erforderlichen und geeigneten Zustimmungen von Benutzern haben, um ihre Audiodaten zu sammeln, zu verarbeiten und zu speichern.

Viele Anwendungen sind für sprachfähige Abfragen, Befehle oder Diktieren von einem bestimmten einzelnen Benutzer konzipiert und vorgesehen. Das Mikrofon für Ihre Anwendung kann jedoch Sound oder Stimme von nicht primären Benutzern aufnehmen. Um unbeabsichtigte Erfassung der Stimmen von nicht primären Benutzern zu vermeiden, sollten Sie die folgenden Informationen berücksichtigen:

Mikrofonüberlegungen: Häufig können Sie nicht steuern, wer in der Nähe des Eingabegeräts spricht, das Audioeingaben an den Textclouddienst sendet. Sie sollten Ihre Benutzer ermutigen, zusätzliche Sorgfalt zu übernehmen, wenn sie sprachfähige Features und Anwendungen in einer öffentlichen oder offenen Umgebung verwenden, in der die Stimmen anderer Personen leicht erfasst werden können.
Verwenden Sie Spracherkennung nur in Erfahrungen und Features, die den angemessenen Erwartungen Ihrer Benutzer entsprechen: Audiodaten, in denen eine Person spricht, sind persönliche Informationen. Spracherkennungen an Text sollen nicht für verdeckte Audioüberwachungszwecke verwendet werden, in einer Weise, die gegen gesetzliche Anforderungen verstößt, oder in Anwendungen und Geräten in öffentlichen Räumen oder Orten, an denen Benutzer möglicherweise eine angemessene Erwartung an den Datenschutz haben. Verwenden Sie den Sprachdienst nur, um Audio auf die Art und Weise zu sammeln und zu verarbeiten, die in den angemessenen Erwartungen Ihrer Benutzer liegen. Dies umfasst die Sicherstellung, dass Sie alle erforderlichen und geeigneten Zustimmungen von Benutzern haben, um ihre Audiodaten zu sammeln, zu verarbeiten und zu speichern.
Azure AI Speech-Dienst und Integration des Flüstermodells: Das Flüstermodell verbessert den Azure AI Speech-Dienst mit erweiterten Features wie mehrsprachiger Erkennung und Lesbarkeit. Der Sprachdienst verbessert zudem die Performance des Flüstermodells, indem er größere Stapeltranskriptionen und die Sprecherdiarisierung ermöglicht. Ob das Standard-Spracherkennungsmodell des Sprachdienstes oder das Whisper-Modell verwendet werden soll, hängt vom jeweiligen Anwendungsfall ab. Es wird empfohlen, die Vorteile des Batch-Testens und der benutzerdefinierten Sprachfunktionen in Speech Studio zu nutzen, um beide Optionen auszuwerten, um die beste Lösung für Ihre geschäftlichen Anforderungen zu finden.
Unterhaltungstranskription für vorab aufgezeichnete Ereignisse: Das System wird besser funktionieren, wenn sich alle Lautsprecher in derselben akustischen Umgebung befinden (z. B. findet die Unterhaltung in einem Raum statt, in dem die Benutzer in ein gemeinsames Mikrofon sprechen).
Unterhaltungstranskription: Obwohl es keine Einschränkung für die Anzahl der Sprecher in der Unterhaltung gibt, ist das System besser, wenn die Anzahl der Lautsprecher unter 30 liegt.
Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie KI-Dienste und -Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind KI-Dienste oder -Lösungen nicht dafür konzipiert, auf eine Weise verwendet zu werden, die gegen geltende Vertragsbedingungen und relevante Verhaltensregeln verstößt, und sie dürfen nicht auf eine solche Weise verwendet werden.

Nicht unterstützte Verwendungen

Unterhaltungstranskription mit Sprechererkennung: Der Speech-Dienst ist nicht für die Diarisierung mit Sprechererkennung konzipiert. Er kann nicht verwendet werden, um Einzelpersonen zu identifizieren. Mit anderen Worten werden Sprecher als Gast1, Gast2, Gast3 usw. in der Transkription dargestellt. Diese werden zufällig zugewiesen und können nicht verwendet werden, um einzelne Sprecher in der Unterhaltung zu identifizieren. Für jede Unterhaltungstranskription ist die Zuweisung von "Guest1", "Guest2", "Guest3" usw. zufällig.

Um einen potenziellen Missbrauch des Sprachdiensts für Identifikationszwecke zu verhindern, sind Sie dafür verantwortlich, dass Sie den Dienst verwenden, einschließlich des Diarisierungsfeatures, nur für unterstützte Verwendungen und dass Sie über eine ordnungsgemäße Rechtsgrundlage und alle erforderlichen Zustimmungen für alle Nutzungen des Dienstes verfügen.

Einschränkungen

Die Spracherkennung erkennt, was in einer Audioeingabe gesprochen wird, und generiert dann Transkriptionsausgaben. Dies erfordert ein ordnungsgemäßes Setup für die erwarteten Sprachen, die in den Audioeingabe- und gesprochenen Stilen verwendet werden. Nicht optimale Einstellungen können zu einer geringeren Genauigkeit führen.

Technische Einschränkungen, Betriebsfaktoren und Bereiche

Sprache der Genauigkeit

Der Branchenstandard zum Messen der Spracherkennung zur Textgenauigkeit ist die Wortfehlerrate (WER). Informationen zur detaillierten WER-Berechnung finden Sie unter Testen der Genauigkeit eines benutzerdefinierten Sprachmodells.

Genauigkeit der Transkription und Systembeschränkungen

Sprache zu Text verwendet ein einheitliches Machine Learning-Modell für die Spracherkennung, um zu transkribieren, was in einer Vielzahl von Kontexten und Themendomänen gesprochen wird, einschließlich Befehls- und Steuerungs-, Diktier- und Unterhaltungen. Sie müssen nicht in Betracht ziehen, unterschiedliche Modelle für Ihre Anwendungs- oder Featureszenarien zu verwenden.

Sie müssen jedoch eine Sprache oder ein Gebietsschema für jede Audioeingabe angeben. Die Sprache oder das Gebietsschema muss mit der tatsächlichen Sprache übereinstimmen, die in der Eingabestimme gesprochen wird. Weitere Informationen finden Sie in der Liste der unterstützten Gebietsschemas.

Viele Faktoren können zu einer geringeren Genauigkeit bei der Transkription führen:

Akustische Qualität: Sprach-zu-Text-fähige Anwendungen und Geräte können eine Vielzahl von Mikrofontypen und Spezifikationen verwenden. Einheitliche Sprachmodelle wurden basierend auf verschiedenen Szenarien für Sprachaudiogeräte erstellt, z. B. Telefone, Mobiltelefone und Lautsprechergeräte. Die Sprachqualität kann jedoch dadurch beeinträchtigt werden, dass ein Benutzer in ein Mikrofon spricht, auch wenn er ein hochwertiges Mikrofon verwendet. Wenn sich beispielsweise ein Lautsprecher weit vom Mikrofon befindet, wäre die Eingabequalität zu niedrig. Ein Lautsprecher, der sich zu nah am Mikrofon befindet, kann auch zu einer Verschlechterung der Audioqualität führen. Beide Fälle können sich negativ auf die Genauigkeit von Sprache in Text auswirken.
Nicht-Sprachrauschen: Wenn ein Eingabeaudio einen bestimmten Rauschpegel enthält, ist die Genauigkeit betroffen. Rauschen können von den Audiogeräten stammen, die verwendet werden, um eine Aufzeichnung zu erstellen, oder Audioeingaben selbst können Rauschen enthalten, z. B. Hintergrund- oder Umgebungsgeräusche.
Überlappende Sprache: Möglicherweise gibt es mehrere Lautsprecher innerhalb eines Bereichs eines Audioeingabegeräts, und sie können gleichzeitig sprechen. Außerdem können andere Lautsprecher im Hintergrund sprechen, während der Hauptbenutzer spricht.
Vokabulare: Das Sprach-zu-Text-Modell wurde mit einer großen Vielfalt an Wörtern aus vielen Bereichen trainiert. Benutzer können jedoch organisationsspezifische Begriffe und Jargone sprechen, die sich nicht in einem Standardvokabular befinden. Wenn ein Wort, das in einem Modell nicht vorhanden ist, im Audio angezeigt wird, ist das Ergebnis ein Fehler bei der Transkription.
Akzente: Auch innerhalb eines Gebietsschemas, z. B. in Englisch - USA (en-US), haben viele Menschen unterschiedliche Akzente. Sehr spezifische Akzente können auch zu einem Fehler bei der Transkription führen.
Nicht übereinstimmende Gebietsschemas: Benutzer sprechen möglicherweise nicht die von Ihnen erwarteten Sprachen. Wenn Sie z. B. „Englisch – Vereinigte Staaten (en-US)“ für eine Audioeingabe angegeben haben, aber Schwedisch gesprochen wurde, wäre die Genauigkeit geringer.
Einfügefehler: Manchmal können Sprach-zu-Text-Modelle bei Rauschen oder leiser Hintergrundsprache Einfügefehler erzeugen. Dies ist begrenzt, wenn Sie den Spracherkennungsdienst verwenden, aber es ist etwas häufiger, wenn Sie das Flüstermodell verwenden, wie in der OpenAI-Modellkarte angegeben.

Aufgrund dieser akustischen und sprachlichen Variationen sollten Sie beim Entwerfen einer Anwendung eine bestimmte Ungenauigkeit im Ausgabetext erwarten.

Systemleistung

Die Systemleistung wird anhand dieser Schlüsselfaktoren gemessen (aus Sicht des Benutzers):

Word-Fehlerrate (WER)
Tokenfehlerrate (TER)
Laufzeitlatenz

Ein Modell wird nur dann als besser betrachtet, wenn es erhebliche Verbesserungen (z. B. eine Relative WER-Verbesserung von 5%) in allen Szenarien (z. B. Transkription von Unterhaltungen, Anrufcentertranskription, Diktat und Sprachassistent) zeigt, während sie mit den Zielen der Ressourcennutzung und Der Antwortlatenz in Einklang steht.

Bei der Diarisierung messen wir die Qualität mithilfe der Fehlerrate bei der Wortdiarisierung (WDER). Je niedriger die Fehlerrate bei der Wortdiarisierung, desto besser ist die Diarisierungsqualität.

Bewährte Methoden zur Verbesserung der Systemleistung

Wie zuvor beschrieben, können akustische Bedingungen wie Hintergrundgeräusche, Seitensprache, Entfernung zum Mikrofon und Sprachstile und -merkmale die Genauigkeit der erkannten Merkmale beeinträchtigen.

Berücksichtigen Sie für eine bessere Spracherkennung die folgenden Prinzipien des Anwendungs- oder Dienstentwurfs:

Entwerfen Sie UIs so, dass sie den Eingabegebietsschemas entsprechen: Falsch übereinstimmende Gebietsschemas reduzieren die Genauigkeit. Das Speech-SDK unterstützt die automatische Spracherkennung, erkennt jedoch nur eines von vier Gebietsschemas, die zur Laufzeit angegeben werden. Sie müssen weiterhin das Gebietsschema kennen, in dem Benutzende sprechen werden. Ihre Benutzeroberfläche sollte deutlich angeben, in welchen Sprachen die Benutzer über eine Dropdownliste sprechen können, in der die unterstützten Sprachen aufgelistet sind. Weitere Informationen finden Sie unter den unterstützten Gebietsschemas.
Zulassen, dass Benutzer es erneut versuchen: Fehler bei der Erkennung können aufgrund eines temporären Problems auftreten, z. B. unklare oder schnelle Sprache oder eine lange Pause. Wenn Ihre Anwendung bestimmte Transkriptionen wie vordefinierte Aktionsbefehle wie "Ja" und "Nein" erwartet und keine davon erhalten hat, sollten Benutzer es erneut versuchen können. Eine typische Methode besteht darin, Den Benutzern mitzuteilen: "Das habe ich leider nicht bekommen. Versuchen Sie es bitte erneut."
Bestätigen Sie, bevor Sie eine Aktion per Stimme ausführen: Genau wie bei tastaturbasierten, klickbasierten oder tippbasierten UIs sollten Benutzer, wenn eine Audioeingabe eine Aktion auslösen kann, die Möglichkeit erhalten, die Aktion zu bestätigen, insbesondere durch anzeigen oder wiedergeben, was erkannt oder transkribiert wurde. Ein typisches Beispiel ist das Senden einer SMS per Sprachsteuerung. Eine App wiederholt, was erkannt wurde, und fordert eine Bestätigung: "Sie haben gesagt, 'Vielen Dank'. Senden oder ändern?
Hinzufügen von benutzerdefinierten Vokabularn: Das allgemeine Spracherkennungsmodell, das von Sprache zu Text bereitgestellt wird, deckt ein breites Vokabular ab. Szenariospezifische Jargon- und benannte Entitäten (z. B. Personennamen und Produktnamen) können jedoch unterrepräsentiert sein. Welche Wörter und Ausdrücke wahrscheinlich gesprochen werden, kann je nach Szenario erheblich variieren. Wenn Sie voraussehen können, welche Wörter und Ausdrücke gesprochen werden (z. B. wenn ein Benutzer ein Element aus einer Liste auswählt), sollten Sie die Grammatik der Begriffsliste verwenden. Weitere Informationen finden Sie unter "Verbessern der Erkennungsgenauigkeit" in "Erste Schritte mit Sprache in Text".
Benutzerdefinierte Spracherkennung verwenden: Wenn die Sprach-zu-Text-Genauigkeit in Ihren Anwendungsszenarien niedrig bleibt, empfiehlt es sich, das Modell für Ihre akustischen und sprachlichen Variationen anzupassen. Sie können eigene Modelle erstellen, indem Sie sie mit Ihren eigenen Sprachaudiodaten oder Textdaten trainieren. Ausführliche Informationen finden Sie unter "Benutzerdefinierte Spracherkennung".

Auswertung der Spracherkennung

Ein Sprach-zu-Text-Modell wird durch Tests ausgewertet. Ziel von Tests ist es, zu bestätigen, dass das Modell in jedem der wichtigsten Szenarien und unter weit verbreiteten Audiobedingungen gut funktioniert und dass wir unsere Fairnessziele über demografische Faktoren hinweg erreichen.

Auswertungsmethoden

Bei der Modellauswertung werden Test-Datasets verwendet. Sowohl ein Regressionstest als auch ein Modellleistungstest werden vor jeder Modellbereitstellung ausgeführt. Die wichtigsten Metriken für Regressionstests sind WER, TER, WDER (falls die Diarisierung bei der Spracherkennung aktiviert ist) und Latenz am 90. Perzentil.

Auswertung der Ergebnisse

Wir bemühen uns, alle Modellupdates regressionsfrei zu versenden (d. a. das aktualisierte Modell sollte nur das aktuelle Produktionsmodell verbessern). Jeder Kandidat wird direkt mit dem aktuellen Produktionsmodell verglichen. Um ein Modell für die Bereitstellung in Betracht zu ziehen, müssen wir eine relative WER-Verbesserung von mindestens 5 % im Vergleich mit dem aktuellen Produktionsmodell erreichen.

Sprach-zu-Text-Modelle werden mithilfe von Sprachaudio mit Variationen trainiert und abgestimmt, darunter:

Mikrofone und Gerätespezifikationen
Sprachumgebung
Speech-Szenarien
Sprachen und Akzente der Sprecher
Alter und Geschlecht der Sprecher
Ethnischer Hintergrund von Rednern

Für die Diarisierung werden zusätzliche Datenvariationen verwendet:

Zeitdauer, die jeder Sprecher spricht
Anzahl der Lautsprecher
Emotionale Rede, die Tonhöhe und Tonlage ändert

Das daraus resultierende Spracherkennungssystem transkribiert die gesprochenen Wörter des Benutzers in Text, der dann von einem Dialogsystem mit natürlichem Sprachverständnis oder für Analysen wie Zusammenfassungen oder Stimmungsanalysen verwendet werden kann.

Überlegungen zur Fairness

Bei Microsoft bemühen wir uns, jede Person auf dem Planeten zu befähigen, mehr zu erreichen. Ein wesentlicher Bestandteil dieses Ziels ist die Schaffung von Technologien und Produkten, die fair und inklusiv sind. Fairness ist ein mehrdimensionales, soziotechnisches Thema und wirkt sich auf viele verschiedene Aspekte unserer Produktentwicklung aus. Erfahren Sie mehr über den Microsoft-Ansatz zur Fairness.

Eine Dimension, die wir berücksichtigen müssen, ist, wie gut das System für verschiedene Personengruppen funktioniert. Forschung hat gezeigt, dass ohne bewusste Anstrengungen, die auf die Verbesserung der Leistung für alle Gruppen ausgerichtet ist, häufig die Leistung eines KI-Systems je nach Gruppe variieren kann, basierend auf Faktoren wie Rasse, Ethnischer Zugehörigkeit, Region, Geschlecht und Alter.

Jede Version des Sprach-zu-Text-Modells wird getestet und anhand verschiedener Testsätze ausgewertet, um sicherzustellen, dass das Modell ohne große Lücke in jedem der Auswertungskriterien ausgeführt werden kann. Detailliertere Fairness-Ergebnisse werden in Kürze verfügbar sein.

Auswerten und Integrieren der Spracherkennung für Ihre Verwendung

Die Leistung von Sprache zu Text variiert je nach praktischen Anwendungen und Bedingungen, die Sie implementieren. Um eine optimale Leistung in Ihrem Szenario sicherzustellen, sollten Sie ihre eigenen Auswertungen der Lösungen durchführen, die Sie mithilfe von Sprache zu Text implementieren.

Ein Test-VoIP-Dataset sollte aus tatsächlichen Spracheingaben bestehen, die in Ihren Anwendungen in der Produktion gesammelt wurden. Sie sollten zufällige Beispieldaten verwenden, um echte Benutzervariationen über einen bestimmten Zeitraum widerzuspiegeln. Außerdem sollte das Test-Dataset regelmäßig aktualisiert werden, um Änderungen an den Variationen widerzuspiegeln.

Leitfaden für die Integration und verantwortungsvolle Verwendung mit der Spracherkennung

Da Microsoft daran arbeitet, Kunden verantwortungsbewusst bei der Entwicklung und Bereitstellung von Lösungen zu unterstützen, indem wir Sprache in Text umwandeln, verfolgen wir einen prinzipiengeleiteten Ansatz, um persönliche Handlungsmacht und Würde zu wahren. Dabei berücksichtigen wir die Fairness, Zuverlässigkeit und Sicherheit der KI-Systeme, Datenschutz und Sicherheit, Inklusivität, Transparenz und menschliche Rechenschaftspflicht. Diese Überlegungen spiegeln unser Engagement für die Entwicklung verantwortungsvoller KI wider.

Wenn Sie sich auf die Bereitstellung KI-basierter Produkte oder Funktionen vorbereiten, helfen Ihnen die folgenden Aktivitäten für den Erfolg:

Verstehen des Funktionsumfangs: Überprüfen Sie die Spracherkennungsfunktionen sorgfältig, um den Funktionsumfang und die Einschränkungen zu verstehen. Verstehen Sie, wie es in Ihrem jeweiligen Szenario und Kontext ausgeführt wird, indem Sie es gründlich mit realen Lebensbedingungen und Daten testen.
Respektieren Sie das Recht einer Person auf Privatsphäre: Sammeln Sie nur Daten und Informationen von Einzelpersonen zu rechtmäßigen und gerechtfertigten Zwecken. Verwenden Sie nur Daten und Informationen, die Sie für diesen Zweck verwenden dürfen.
Rechtliche Überprüfung: Erhalten Sie geeignete Rechtsberatung, um Ihre Lösung zu überprüfen, insbesondere, wenn Sie sie in sensiblen oder riskanten Anwendungen verwenden werden. Eignen Sie sich ein Verständnis der Einschränkungen an, mit denen Sie möglicherweise arbeiten müssen, und kennen Sie Ihre Verantwortung für die Behebung von Problemen, die eventuell in Zukunft auftreten. Stellen Sie keine Rechtsberatung oder Anleitung zur Verfügung.
Menschliche Beteiligung (Human-in-the-Loop): Binden Sie einen Menschen ein, und integrieren Sie menschliche Aufsicht als konsistenten zu erkundenden Musterbereich. Dies bedeutet, dass eine ständige menschliche Aufsicht über das KI-gestützte Produkt oder die Funktion gewährleistet und die Rolle des Menschen bei der Entscheidungsfindung beibehalten wird. Stellen Sie sicher, dass Sie einen menschlichen Eingriff in Echtzeit in die Lösung durchführen können, um Schaden zu vermeiden. Auf diese Weise können Sie Situationen verwalten, in denen das KI-Modell nicht wie erforderlich ausgeführt wird.
Sicherheit: Stellen Sie sicher, dass Ihre Lösung sicher ist und über ausreichende Kontrollen verfügt, um die Integrität Ihrer Inhalte beizubehalten und unbefugten Zugriff zu verhindern.
Vertrauen mit betroffenen Projektbeteiligten aufbauen: Kommunizieren Sie die erwarteten Vorteile und potenziellen Risiken für betroffene Projektbeteiligte. Helfen Sie den Menschen zu verstehen, warum die Daten erforderlich sind und inwiefern die Datenverwendung zu ihrem Vorteil ist. Beschreiben Sie die Datenverarbeitung auf verständliche Weise.
Kundenfeedbackschleife: Geben Sie einen Feedbackkanal an, über den Benutzer und Einzelpersonen Nach der Bereitstellung Probleme mit dem Dienst melden können. Ein KI-gestütztes Produkt oder Feature erfordert nach der Bereitstellung fortlaufende Überwachung und Verbesserung. Seien Sie darauf vorbereitet, jegliches Feedback und Verbesserungsvorschläge zu implementieren. Richten Sie Kanäle ein, um Fragen und Bedenken von betroffenen Beteiligten zu sammeln (Personen, die direkt oder indirekt vom System betroffen sind, einschließlich Mitarbeiter, Besucher und der allgemeinen Öffentlichkeit).
Feedback: Suchen Sie während des Entwicklungs- und Bewertungsprozesses Feedback aus einer vielfältigen Stichprobe der Community (z. B. aus historisch marginalisierten Gruppen, Menschen mit Behinderungen und Servicemitarbeitern). Siehe: Community-Jury.
Benutzerstudie: Alle Zustimmungs- oder Offenlegungsempfehlungen sollten in einer Benutzerstudie zusammengefasst werden. Bewerten Sie die Erstnutzungs- und fortlaufende Nutzungserfahrung anhand einer repräsentativen Stichprobe der Community, um zu überprüfen, ob die Entwurfsentscheidungen zu einer effektiven Offenlegung führen. Führen Sie Forschungen mit 10–20 Communitymitgliedern (betroffenen Stakeholdern) aus, um ihr Verständnis der Informationen zu bewerten und um zu ermitteln, ob ihre Erwartungen erfüllt werden.

Empfehlungen zur Gewährleistung des Datenschutzes

Ein erfolgreicher Datenschutzansatz ermöglicht Einzelpersonen informationen und bietet Kontrollen und Schutz, um ihre Privatsphäre zu erhalten.

Zustimmung zum Verarbeiten und Speichern von Audioeingaben: Achten Sie darauf, alle erforderlichen Berechtigungen von Ihren Endbenutzern zu besitzen, bevor Sie die Spracherkennung für textfähige Features in Ihren Anwendungen oder Geräten verwenden. Stellen Sie außerdem sicher, dass Sie die Erlaubnis haben, dass Microsoft diese Daten in Ihrem Auftrag als Drittanbieter-Cloud-Dienstleister verarbeitet. Beachten Sie, dass die Echtzeit-API keine der Audioeingabe- und Transkriptionsausgabedaten separat speichert. Sie können ihre Anwendung oder Ihr Gerät jedoch so entwerfen, dass Endbenutzerdaten wie Transkriptionstext beibehalten werden. Sie haben die Möglichkeit, die lokale Datenprotokollierung über das Speech SDK zu aktivieren (siehe Aktivieren der Protokollierung im Speech SDK).

Nächste Schritte

Daten, Datenschutz und Sicherheit für Sprache in Text