Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.
Was ist eine Transparenznotiz?
Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen werden, die Menschen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Die Erstellung eines Systems, das für den vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie die Technologie funktioniert, was ihre Funktionen und Einschränkungen sind und wie Sie die beste Leistung erzielen können. Microsofts Transparenzhinweise sollen Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Verhalten beeinflussen, und wie wichtig es ist, über das gesamte System nachzudenken, einschließlich der Technologie, der Menschen und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen, oder sie mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.
Microsoft Transparenzhinweise sind Teil eines umfassenderen Aufwands für Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie in den Microsoft KI-Prinzipien.
Die Grundlagen der Spracherkennung
Sprache-zu-Text, auch bekannt als automatische Spracherkennung (ASR), ist ein Feature im Azure-Sprache-Dienst unter Foundry Tools, das Teil der Foundry Tools ist. Sprache in Text konvertiert gesprochene Audiodaten in Text. Die Spracherkennung in Azure unterstützt mehr als 140 Regionaleinstellungen für die Eingabe. Eine aktuelle Liste der unterstützten Gebietsschemata finden Sie unter Sprach- und Voice-Unterstützung für den Speech-Dienst.
Schlüsselbegriffe
| Begriff | Definition |
|---|---|
| Audioeingabe | Die gestreamten Audiodaten oder Audiodateien, die als Eingabe für die Sprach-zu-Text-Funktion verwendet werden. Audioeingaben können nicht nur Stimme, sondern auch Stumm- und Nicht-Sprachgeräusche enthalten. Sprache zu Text generiert Text für die Sprachteile der Audioeingabe. |
| Äußerung | Eine Komponente der Audioeingabe, die menschliche Stimme enthält. Eine Äußerung kann aus einem einzelnen Wort oder mehreren Wörtern bestehen, z. B. einem Ausdruck. |
| Transkription | Die Textausgabe der Sprach-zu-Text-Funktion. Diese automatisch generierte Textausgabe nutzt Sprachmodelle und wird manchmal als maschinelle Transkription oder automatisierte Spracherkennung (ASR) bezeichnet. Die Transkription in diesem Kontext ist vollständig automatisiert und unterscheidet sich daher von der menschlichen Transkription, also von Text, der von menschlichen Transkriptoren generiert wird. |
| Sprachmodell | Eine automatisch generierte, maschinenlernende numerische Darstellung einer Äußerung, die verwendet wird, um eine Transkription von einer Audioeingabe abzuleiten. Sprachmodelle werden auf Sprachdaten trainiert, die verschiedene Sprachstile, Sprachen, Akzente, Dialekte und Intonationen sowie akustische Variationen enthalten, die mit verschiedenen Arten von Aufzeichnungsgeräten generiert werden. Ein Sprachmodell stellt numerisch sowohl akustische als auch sprachliche Merkmale dar, die verwendet werden, um vorherzusagen, welcher Text mit der Äußerung verknüpft werden soll. |
| Echtzeit-API | Eine API, die Anforderungen mit Audioeingabe akzeptiert und eine Antwort in Echtzeit mit Transkription innerhalb derselben Netzwerkverbindung zurückgibt. |
| Spracherkennungs-API | Eine Art von Echtzeit-API, die erkennt, welche Sprache in einer Audioeingabe gesprochen wird. Eine Sprache wird basierend auf Sprachsound in der Audioeingabe abgeleitet. |
| Sprachübersetzungs-API | Eine andere Art von Echtzeit-API, die Transkriptionen einer bestimmten Audioeingabe generiert, übersetzt sie dann in eine vom Benutzer angegebene Sprache. Dies ist ein kaskadierter Dienst von Sprachdiensten und Textübersetzer. |
| Batch-API | Ein Dienst, der verwendet wird, um Audioeingaben zu einem späteren Zeitpunkt zu transkribieren. Sie geben den Speicherort von Audiodateien und anderen Parametern an, z. B. die Sprache der Erkennung. Der Dienst lädt die Audioeingabe asynchron und transkribiert sie. Wenn die Transkription abgeschlossen ist, werden Textdateien an einen von Ihnen angegebenen Speicherort zurückgeladen. |
| Diarisierung | Diarization beantwortet die Frage, wer sprach und wann. Sie unterscheidet Lautsprecher in einer Audioeingabe basierend auf ihren Sprachmerkmalen. Sowohl Echtzeit- als auch Batch-APIs unterstützen die Diarisierung und sind in der Lage, die Stimmen von Sprechern in Monochannel-Aufzeichnungen zu unterscheiden. Die Diarisierung wird mit Sprach-zu-Text-Funktionalität kombiniert, um Transkriptionsausgaben bereitzustellen, die einen Sprechereintrag für jedes transkribierte Segment enthalten. Die Transkriptionsausgabe wird basierend auf der Anzahl der Lautsprecher in der Audiounterhaltung als GUEST1, GUEST2, GUEST3 usw. markiert. |
| Wortfehlerrate(WER) | Word Error Rate (WER) ist der Branchenstandard zum Messen der Genauigkeit der Spracherkennung. WER zählt die Anzahl falscher Wörter, die während der Erkennung identifiziert werden. Anschließend wird dieser Wert durch die Gesamtzahl der Wörter geteilt, die im korrekten Transkript enthalten sind (oft durch manuelle Kennzeichnung erstellt). |
| Tokenfehlerrate(TER) | Die Tokenfehlerrate (TOKEN Error Rate, TER) ist ein Maß für die Richtigkeit der endgültigen Erkennung von Wörtern, Groß- und Kleinschreibung, Interpunktion usw. im Vergleich zu Token, die im richtigen Transkript bereitgestellt werden (häufig durch menschliche Bezeichnungen erstellt). |
| Laufzeitlatenz | Bei der Sprachausgabe für Text ist die Latenz die Zeit zwischen der Sprachaudioeingabe und der Ausgabe des Transkriptionsergebnisses. |
| Wort-Diarisierungsfehlerrate (WDER) | Die Word Diarization Error Rate (WDER) zählt die Anzahl der Fehler bei den Wörtern, die dem falschen Sprecher zugewiesen wurden, verglichen mit dem Ground-Truth-Wert. Eine niedrigere WDER-Rate zeigt eine bessere Qualität an. |
Funktionen
Systemverhalten
Nachfolgend listen wir die wichtigsten Möglichkeiten zur Nutzung unseres Spracherkennungsdienstes auf.
Echtzeit-Spracherkennung zu Text-API
Dies ist ein gängiger API-Aufruf über das Speech SDK oder die REST-API, um eine Audioeingabe zu senden und eine Texttranskription in Echtzeit zu empfangen. Das Sprachsystem verwendet ein Sprachmodell, um zu erkennen, was in einem Eingabeaudio gesprochen wird. Während der Echtzeit-Sprachausgabe in Text nimmt das System einen Audiodatenstrom als Eingabe an und ermittelt kontinuierlich die wahrscheinlichste Abfolge von Wörtern, die die bisher beobachtete Audiowiedergabe erzeugt haben. Das Modell wird für eine große Menge an vielfältigem Audio in typischen Nutzungsszenarien und einer breiten Palette von Lautsprechern trainiert. Dieses Feature wird z. B. häufig für sprachfähige Abfragen oder Diktatvorgänge innerhalb des Diensts oder der Anwendung einer Organisation verwendet.
API für Batch-Transkription
Batchtranskription ist eine andere Art von API-Aufruf. Es wird in der Regel verwendet, um vorab aufgezeichnete Audioeingaben zu senden und transkribierten Text asynchron zu empfangen (d. r. zu einem späteren Zeitpunkt). Um diese API zu verwenden, können Sie Speicherorte für mehrere Audiodateien angeben. Die Sprach-zu-Text-Technologie liest die Audioeingabe aus der Datei und generiert Transkriptionstextdateien, die an den von Ihnen angegebenen Speicherort zurückgegeben werden. Dieses Feature wird verwendet, um größere Transkriptionsaufträge zu unterstützen, bei denen es nicht erforderlich ist, Endbenutzern den Transkriptionsinhalt in Echtzeit bereitzustellen. Ein Beispiel ist das Transkribieren von Anrufcenteraufzeichnungen, um Einblicke in die Leistung von Kunden und Call Center-Agenten zu erhalten.
Wenn Sie die Batchtranskription verwenden, können Sie das Whisper-Modell anstelle des standardmäßigen Azure Speech to Text-Modells verwenden. Um festzustellen, ob das Flüstermodell für Ihren Anwendungsfall geeignet ist, können Sie vergleichen, wie sich die Ausgabe zwischen diesen Modellen im Batch unterscheidet. Probieren Sie es in Speech Studio aus, und führen Sie dann tiefere Auswertungen durch, indem Sie die Testfunktionen über benutzerdefinierte Spracherkennung verwenden. Beachten Sie, dass das Whisper-Modell auch über Azure OpenAI verfügbar ist.
Sprachübersetzungs-API
Diese API konvertiert Die Audioeingabe in Text und übersetzt sie dann in eine andere Sprache. Die übersetzte Transkriptionsausgabe kann im Textformat zurückgegeben werden, oder Sie können den Text mithilfe der Sprachsynthese synthetisieren lassen. Weitere Informationen finden Sie unter What is Azure Translator in Foundry Tools?
Unterfeatures und Optionen
Die oben genannten APIs können optional die folgenden Unterfeatures verwenden:
-
Model customization: Azure Speech ermöglicht Entwicklern das Anpassen der Sprache an Textmodelle, um die Erkennungsgenauigkeit für ein bestimmtes Szenario zu verbessern. Es gibt zwei Möglichkeiten zum Anpassen der Spracherkennung an Text:
- Zur Laufzeit durch die Verwendung der Funktion Phrasenliste
- Vorab durch die Verwendung von benutzerdefinierter Sprache
- Spracherkennung: Im Gegensatz zu einem Standard-API-Aufruf, in dem eine Sprache oder ein Gebietsschema für eine Audioeingabe im Voraus angegeben werden muss, können Sie mehrere Gebietsschemas angeben und dem Dienst ermöglichen, zu erkennen, welche Sprache verwendet werden soll, um einen bestimmten Teil der Audiodaten zu erkennen.
- Diarisierung: Dieses Feature ist standardmäßig deaktiviert. Wenn Sie diese Funktion aktivieren, unterscheidet der Dienst die Äußerungen verschiedener Sprecher. Der resultierende Transkriptionstext enthält eine "Sprecher"-Eigenschaft, die GAST1, GAST2, GAST3 usw. angibt und kennzeichnet, welcher Sprecher in einer Audiodatei spricht.
Anwendungsfälle
Spracherkennung in Text kann Benutzern verschiedene Möglichkeiten bieten, mit Anwendungen und Geräten zu interagieren. Anstatt Wörter auf einer Tastatur einzugeben oder ihre Hände für Touchscreeninteraktionen zu verwenden, ermöglicht die Sprach-zu-Text-Technologie benutzern das Bedienen von Anwendungen und Geräten per Sprache und diktieren.
- Intelligente Assistenten: Unternehmen, die intelligente Assistenten für Geräte, Autos und Häuser entwickeln, können Spracherkennung verwenden, um Suchabfragen der natürlichen Benutzeroberfläche zu ermöglichen oder bestimmte Funktionen per Sprache auszulösen. Dies wird als _Befehl-und-_Kontrolle bezeichnet.
- Chat-Bots: Unternehmen können Chat-Bot-Anwendungen erstellen, in denen Benutzer sprachfähige Abfragen oder Befehle für die Interaktion mit Bots verwenden können.
- Spracheingabe: Apps können Benutzern die Möglichkeit geben, ihre Stimme zu verwenden, um längere Texte zu diktieren. Spracheingaben können verwendet werden, um Text für Nachrichten, E-Mails und Dokumente einzugeben.
- Sprachbefehle: Benutzer können bestimmte Aktionen per Sprachbefehl (Befehl und Steuerung) auslösen. Zwei häufige Beispiele sind das Eingeben von Abfragetext per Sprache und das Auswählen eines Menüelements per Sprache.
- Sprachübersetzung: Sie können die Sprachübersetzungsfeatures von Sprache in Texttechnologie verwenden, um mit anderen Benutzern zu kommunizieren, die unterschiedliche Sprachen sprechen. Die Sprachübersetzung ermöglicht die Sprach-zu-Sprache-Kommunikation über mehrere Sprachen hinweg. Sehen Sie sich die neueste Liste der unterstützten Sprachregionen in der Sprach- und Stimmenunterstützung für den Sprachservice an.
- Call Center-Transkriptionen: Unternehmen zeichnen häufig Unterhaltungen mit ihren Benutzern in Szenarien wie Kundensupportanrufen auf. Audioaufzeichnungen können zur Transkription an die Batch-API gesendet werden.
- Diktieren mit gemischter Sprache: Benutzer können Spracherkennung für Texttechnologie verwenden, um in mehreren Sprachen diktieren zu können. Mithilfe der Spracherkennung kann eine Diktieranwendung automatisch gesprochene Sprachen erkennen und entsprechend transkribieren, ohne dass ein Benutzer angeben muss, welche Sprache sie sprechen.
- Live-Gesprächstranskription: Wenn sich alle Sprecher im selben Raum befinden und eine Ein-Mikrofon-Einrichtung nutzen, führen Sie eine Live-Transkription durch, um festzustellen, welcher Sprecher (Gast1, Gast2, Gast3 usw.) jede Aussage macht.
- Unterhaltungstranskription von vorab aufgezeichneten Audiodaten: Nach der Aufzeichnung von Audio mit mehreren Lautsprechern können Sie unseren Dienst verwenden, um die Transkription zu erhalten, welche Sprecher (Gast1, Gast2, Gast3 usw.) jede Aussage vornimmt.
Überlegungen bei der Auswahl anderer Anwendungsfälle
Die Sprach-zu-Text-API bietet praktische Optionen für die Entwicklung sprachfähiger Anwendungen, aber es ist sehr wichtig, den Kontext zu berücksichtigen, in den Sie die API integrieren werden. Sie müssen sicherstellen, dass Sie alle Gesetze und Vorschriften einhalten, die für Ihre Anwendung gelten. Dazu gehört auch, dass Sie Ihre Verpflichtungen gemäß den Datenschutz- und Kommunikationsgesetzen kennen, einschließlich der nationalen und regionalen Datenschutz-, Abhör- und Überwachungsgesetze, die für Ihre Gerichtsbarkeit gelten. Sammeln und verarbeiten Sie nur Audiodaten, die im Rahmen der angemessenen Erwartungen Ihrer Benutzer liegen. Dies umfasst die Sicherstellung, dass Sie alle erforderlichen und geeigneten Zustimmungen von Benutzern haben, um ihre Audiodaten zu sammeln, zu verarbeiten und zu speichern.
Viele Anwendungen sind für sprachfähige Abfragen, Befehle oder Diktieren von einem bestimmten einzelnen Benutzer konzipiert und vorgesehen. Das Mikrofon für Ihre Anwendung kann jedoch Sound oder Stimme von nicht primären Benutzern aufnehmen. Um unbeabsichtigte Erfassung der Stimmen von nicht primären Benutzern zu vermeiden, sollten Sie die folgenden Informationen berücksichtigen:
- Mikrofonüberlegungen: Häufig können Sie nicht steuern, wer in der Nähe des Eingabegeräts spricht, das Audioeingaben an den Textclouddienst sendet. Sie sollten Ihre Benutzer ermutigen, zusätzliche Sorgfalt zu übernehmen, wenn sie sprachfähige Features und Anwendungen in einer öffentlichen oder offenen Umgebung verwenden, in der die Stimmen anderer Personen leicht erfasst werden können.
- Verwenden Sie Sprache-zu-Text nur in Erfahrungen und Features, die den angemessenen Erwartungen Ihrer Benutzer entsprechen. Audiodaten, bei denen eine Person spricht, sind persönliche Informationen. Spracherkennungen an Text sollen nicht für verdeckte Audioüberwachungszwecke verwendet werden, in einer Weise, die gegen gesetzliche Anforderungen verstößt, oder in Anwendungen und Geräten in öffentlichen Räumen oder Orten, an denen Benutzer möglicherweise eine angemessene Erwartung an den Datenschutz haben. Verwenden Sie den Sprachdienst nur, um Audio auf die Art und Weise zu sammeln und zu verarbeiten, die in den angemessenen Erwartungen Ihrer Benutzer liegen. Dies umfasst die Sicherstellung, dass Sie alle erforderlichen und geeigneten Zustimmungen von Benutzern haben, um ihre Audiodaten zu sammeln, zu verarbeiten und zu speichern.
- Azure Sprachdienst und Integration des Flüstermodells: Das Flüstermodell verbessert den Azure Sprachdienst mit erweiterten Features wie mehrsprachiger Erkennung und Lesbarkeit. Der Sprachdienst verbessert auch die Leistung des Flüstermodells, indem er größere Transkriptionen im Batchformat und die Sprecherdiarisierung ermöglicht. Ob das Standardsprachemodell des Sprachdienstes für Spracherkennung oder das Whisper-Modell verwendet werden soll, hängt vom jeweiligen Anwendungsfall ab. Es wird empfohlen, die Vorteile des Batch-Testens und der benutzerdefinierten Sprachfunktionen in Speech Studio zu nutzen, um beide Optionen auszuwerten, um die beste Lösung für Ihre geschäftlichen Anforderungen zu finden.
- Unterhaltungstranskription für vorab aufgezeichnete Ereignisse: Das System wird besser funktionieren, wenn sich alle Lautsprecher in derselben akustischen Umgebung befinden (z. B. findet die Unterhaltung in einem Raum statt, in dem die Benutzer in ein gemeinsames Mikrofon sprechen).
- Unterhaltungstranskription: Obwohl es keine Einschränkung für die Anzahl der Sprecher in der Unterhaltung gibt, ist das System besser, wenn die Anzahl der Lautsprecher unter 30 liegt.
- Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie Foundry Tools und Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind Foundry Tools oder Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.
Nicht unterstützte Verwendungen
- Unterhaltungstranskription mit Sprecher*innenerkennung: Der Sprachdienst ist nicht für die Diarisierung der Sprecher*innenerkennung konzipiert und kann nicht verwendet werden, um Einzelpersonen zu identifizieren. Mit anderen Worten, Sprecher werden als Gast1, Gast2, Gast3 usw. in der Transkription genannt. Diese werden zufällig zugewiesen und können nicht verwendet werden, um einzelne Sprecher in der Unterhaltung zu identifizieren. Für jede Unterhaltungstranskription ist die Zuweisung von "Guest1", "Guest2", "Guest3" usw. zufällig.
Um einen potenziellen Missbrauch des Sprachdiensts für Identifikationszwecke zu verhindern, sind Sie dafür verantwortlich, dass Sie den Dienst verwenden, einschließlich des Diarisierungsfeatures, nur für unterstützte Verwendungen und dass Sie über eine ordnungsgemäße Rechtsgrundlage und alle erforderlichen Zustimmungen für alle Nutzungen des Dienstes verfügen.
Einschränkungen
Die Spracherkennung erkennt, was in einer Audioeingabe gesprochen wird, und generiert dann Transkriptionen. Dies erfordert ein ordnungsgemäßes Setup für die erwarteten Sprachen, die in den Audioeingabe- und gesprochenen Stilen verwendet werden. Nicht optimale Einstellungen können zu einer geringeren Genauigkeit führen.
Technische Einschränkungen, Betriebliche Faktoren und Reichweiten
Sprache der Genauigkeit
Der Branchenstandard zum Messen der Spracherkennung zur Textgenauigkeit ist die Wortfehlerrate (WER). Informationen zur detaillierten WER-Berechnung finden Sie unter Testen der Genauigkeit eines benutzerdefinierten Sprachmodells.
Genauigkeit der Transkription und Systembeschränkungen
Sprache zu Text verwendet ein einheitliches Machine Learning-Modell für die Spracherkennung, um zu transkribieren, was in einer Vielzahl von Kontexten und Themendomänen gesprochen wird, einschließlich Befehls- und Steuerungs-, Diktier- und Unterhaltungen. Sie müssen nicht in Betracht ziehen, unterschiedliche Modelle für Ihre Anwendungs- oder Featureszenarien zu verwenden.
Sie müssen jedoch eine Sprache oder ein Gebietsschema für jede Audioeingabe angeben. Die Sprache oder das Gebietsschema muss mit der tatsächlichen Sprache übereinstimmen, die von einer Eingabestimme gesprochen wird. Weitere Informationen finden Sie in der Liste der unterstützten Sprachregionen.
Viele Faktoren können zu einer geringeren Genauigkeit bei der Transkription führen:
- Akustische Qualität: Spracherkennungsfähige Anwendungen und Geräte können eine Vielzahl von Mikrofontypen und Spezifikationen verwenden. Einheitliche Sprachmodelle wurden basierend auf verschiedenen Szenarien für Sprachaudiogeräte erstellt, z. B. Telefone, Mobiltelefone und Lautsprechergeräte. Die Sprachqualität kann jedoch dadurch beeinträchtigt werden, dass ein Benutzer in ein Mikrofon spricht, auch wenn er ein hochwertiges Mikrofon verwendet. Wenn sich beispielsweise ein Lautsprecher weit vom Mikrofon befindet, wäre die Eingabequalität zu niedrig. Ein Lautsprecher, der sich zu nah am Mikrofon befindet, kann auch zu einer Verschlechterung der Audioqualität führen. Beide Fälle können sich negativ auf die Genauigkeit von Sprache in Text auswirken.
- Nicht-Sprachrauschen: Wenn ein Eingabeaudio einen bestimmten Rauschpegel enthält, ist die Genauigkeit betroffen. Rauschen können von den Audiogeräten stammen, die verwendet werden, um eine Aufzeichnung zu erstellen, oder Audioeingaben selbst können Rauschen enthalten, z. B. Hintergrund- oder Umgebungsgeräusche.
- Überlappende Sprache: Möglicherweise gibt es mehrere Lautsprecher innerhalb eines Bereichs eines Audioeingabegeräts, und sie können gleichzeitig sprechen. Außerdem können andere Lautsprecher im Hintergrund sprechen, während der Hauptbenutzer spricht.
- Vokabulare: Das Sprach-zu-Text-Modell wurde auf einer Vielzahl von Wörtern in vielen Bereichen trainiert. Benutzer können jedoch organisationsspezifische Begriffe und Jargone sprechen, die sich nicht in einem Standardvokabular befinden. Wenn ein Wort, das in einem Modell nicht vorhanden ist, im Audio angezeigt wird, ist das Ergebnis ein Fehler bei der Transkription.
- Akzente: Auch innerhalb einer lokalen Sprachvariante, zum Beispiel Englisch (USA) [en-US], haben viele Menschen unterschiedliche Akzente. Sehr spezifische Akzente können auch zu einem Fehler bei der Transkription führen.
- Nicht übereinstimmende Gebietsschemas: Benutzer sprechen möglicherweise nicht die von Ihnen erwarteten Sprachen. Wenn Sie Englisch - Vereinigte Staaten (en-US) für eine Audioeingabe angegeben haben, aber ein Sprecher in Schwedisch sprach, führt dies beispielsweise zu einer geringeren Genauigkeit.
- Einfügefehler: Manchmal können Sprach-zu-Text-Modelle Einfügefehler bei Vorhandensein von Rauschen oder leiser Hintergrundsprache verursachen. Dies ist begrenzt, wenn Sie den Spracherkennungsdienst verwenden, aber es ist etwas häufiger, wenn Sie das Flüstermodell verwenden, wie in der OpenAI-Modellkarte angegeben.
Aufgrund dieser akustischen und sprachlichen Variationen sollten Sie beim Entwerfen einer Anwendung eine bestimmte Ungenauigkeit im Ausgabetext erwarten.
Systemleistung
Die Systemleistung wird anhand dieser Schlüsselfaktoren gemessen (aus Sicht des Benutzers):
- Word-Error-Rate (WER)
- Tokenfehlerrate (TER)
- Laufzeitlatenz
Ein Modell wird nur dann als besser betrachtet, wenn es erhebliche Verbesserungen (z. B. eine Relative WER-Verbesserung von 5%) in allen Szenarien (z. B. Transkription von Unterhaltungen, Anrufcentertranskription, Diktat und Sprachassistent) zeigt, während sie mit den Zielen der Ressourcennutzung und Der Antwortlatenz in Einklang steht.
Bei der Diarisierung messen wir die Qualität anhand der Wort-Diarisierungsfehlerrate (WDER). Je niedriger der WDER, desto besser ist die Diarisierungsqualität.
Bewährte Methoden zur Verbesserung der Systemleistung
Wie zuvor beschrieben, können akustische Bedingungen wie Hintergrundgeräusche, Seitensprache, Entfernung zum Mikrofon und Sprachstile und -merkmale die Genauigkeit der erkannten Merkmale beeinträchtigen.
Berücksichtigen Sie für eine bessere Spracherkennung die folgenden Prinzipien des Anwendungs- oder Dienstentwurfs:
- Entwerfen Sie UIs so, dass sie den Eingabegebietsschemas entsprechen: Falsch übereinstimmende Gebietsschemas reduzieren die Genauigkeit. Das Speech SDK unterstützt die automatische Spracherkennung, erkennt jedoch nur eine von vier Lokalisierungen, die zur Laufzeit angegeben sind. Sie müssen die Sprache oder Region kennen, in der Ihre Benutzer sprechen werden. Ihre Benutzeroberfläche sollte deutlich angeben, in welchen Sprachen die Benutzer über eine Dropdownliste sprechen können, in der die unterstützten Sprachen aufgelistet sind. Weitere Informationen finden Sie in den unterstützten Gebieten.
- Zulassen, dass Benutzer es erneut versuchen: Fehlerhafte Erkennung kann aufgrund eines temporären Problems auftreten, z. B. unklare oder schnelle Sprache oder eine längere Pause. Wenn Ihre Anwendung bestimmte Transkriptionen wie vordefinierte Aktionsbefehle wie "Ja" und "Nein" erwartet und keine davon erhalten hat, sollten Benutzer es erneut versuchen können. Eine typische Methode besteht darin, Den Benutzern mitzuteilen: "Das habe ich leider nicht bekommen. Versuchen Sie es bitte erneut."
- Bestätigen Sie, bevor Sie eine Aktion per Stimme ausführen: Genau wie bei tastaturbasierten, klickbasierten oder tippbasierten UIs sollten Benutzer, wenn eine Audioeingabe eine Aktion auslösen kann, die Möglichkeit erhalten, die Aktion zu bestätigen, insbesondere durch anzeigen oder wiedergeben, was erkannt oder transkribiert wurde. Ein typisches Beispiel ist das Senden einer SMS per Sprachsteuerung. Eine App wiederholt, was erkannt wurde, und fordert eine Bestätigung: "Sie haben gesagt, 'Vielen Dank'. Senden oder ändern?
- Hinzufügen von benutzerdefinierten Vokabularn: Das allgemeine Spracherkennungsmodell, das von Sprache zu Text bereitgestellt wird, deckt ein breites Vokabular ab. Szenariospezifische Jargon- und benannte Entitäten (z. B. Personennamen und Produktnamen) können jedoch unterrepräsentiert sein. Welche Wörter und Ausdrücke wahrscheinlich gesprochen werden, kann je nach Szenario erheblich variieren. Wenn Sie voraussehen können, welche Wörter und Ausdrücke gesprochen werden (z. B. wenn ein Benutzer ein Element aus einer Liste auswählt), sollten Sie die Grammatik der Begriffsliste verwenden. Weitere Informationen finden Sie unter "Verbessern der Erkennungsgenauigkeit" in "Erste Schritte mit Sprache in Text".
- Benutzerdefinierte Spracherkennung verwenden: Wenn die Spracherkennungsgenauigkeit in Ihren Anwendungsszenarien niedrig ist, sollten Sie erwägen, das Modell für Ihre akustischen und sprachlichen Variationen anzupassen. Sie können eigene Modelle erstellen, indem Sie sie mit Ihren eigenen Sprachaudiodaten oder Textdaten trainieren. Ausführliche Informationen finden Sie unter "Benutzerdefinierte Spracherkennung".
Auswertung der Spracherkennung
Ein Sprach-zu-Text-Modell wird durch Tests ausgewertet. Ziel von Tests ist es, zu bestätigen, dass das Modell in jedem der wichtigsten Szenarien und unter weit verbreiteten Audiobedingungen gut funktioniert und dass wir unsere Fairnessziele über demografische Faktoren hinweg erreichen.
Auswertungsmethoden
Bei der Modellauswertung werden Test-Datasets verwendet. Sowohl ein Regressionstest als auch ein Modellleistungstest werden vor jeder Modellbereitstellung ausgeführt. Die wichtigsten Metriken für Regressionstests sind WER, TER, WDER (wenn die Diarisierung bei der Spracherkennung aktiviert ist) und eine Latenz im 90. Perzentil.
Auswertungsergebnisse
Wir bemühen uns, alle Modellupdates regressionsfrei zu versenden (d. a. das aktualisierte Modell sollte nur das aktuelle Produktionsmodell verbessern). Jeder Kandidat wird direkt mit dem aktuellen Produktionsmodell verglichen. Um ein Modell für die Bereitstellung in Betracht zu ziehen, müssen wir mindestens eine 5% relative WER-Verbesserung im Vergleich zum aktuellen Produktionsmodell feststellen.
Sprach-zu-Text-Modelle werden mithilfe von Sprachaudio mit Variationen trainiert und abgestimmt, darunter:
- Mikrofone und Gerätespezifikationen
- Sprachumgebung
- Sprachszenarien
- Sprachen und Akzente von Sprechern
- Alter und Geschlecht der Sprecher
- Ethnischer Hintergrund von Rednern
Für die Diarisierung werden zusätzliche Datenvariationen verwendet:
- Zeitdauer, die jeder Sprecher spricht
- Anzahl der Lautsprecher
- Emotionale Rede, die Tonhöhe und Tonlage ändert
Das resultierende Sprache-zu-Text-System transkribiert die gesprochenen Wörter des Benutzers in Text, der dann von einem Dialogsystem mit natürlichem Sprachverständnis oder für Analysen wie Zusammenfassungen oder Stimmungsanalysen verwendet werden kann.
Überlegungen zur Fairness
Bei Microsoft bemühen wir uns, jede Person auf dem Planeten zu befähigen, mehr zu erreichen. Ein wesentlicher Bestandteil dieses Ziels ist die Schaffung von Technologien und Produkten, die fair und inklusiv sind. Fairness ist ein mehrdimensionales, soziotechnisches Thema und wirkt sich auf viele verschiedene Aspekte unserer Produktentwicklung aus. Erfahren Sie mehr über The Microsoft approach to fairness.
Eine Dimension, die wir berücksichtigen müssen, ist, wie gut das System für verschiedene Personengruppen funktioniert. Forschung hat gezeigt, dass ohne bewusste Anstrengungen, die auf die Verbesserung der Leistung für alle Gruppen ausgerichtet ist, häufig die Leistung eines KI-Systems je nach Gruppe variieren kann, basierend auf Faktoren wie Rasse, Ethnischer Zugehörigkeit, Region, Geschlecht und Alter.
Jede Version des Sprach-zu-Text-Modells wird getestet und anhand verschiedener Testsätze ausgewertet, um sicherzustellen, dass das Modell ohne große Lücke in jedem der Auswertungskriterien ausgeführt werden kann. Detailliertere Fairness-Ergebnisse werden in Kürze verfügbar sein.
Auswerten und Integrieren von Sprache in Text für Ihre Verwendung
Die Leistung der Spracherkennung hängt von den konkreten Anwendungsfällen und Bedingungen ab, unter denen Sie sie einsetzen. Um eine optimale Leistung in Ihrem Szenario sicherzustellen, sollten Sie ihre eigenen Auswertungen der Lösungen durchführen, die Sie mithilfe von Sprache zu Text implementieren.
Ein Test-VoIP-Dataset sollte aus tatsächlichen Spracheingaben bestehen, die in Ihren Anwendungen in der Produktion gesammelt wurden. Sie sollten zufällige Beispieldaten verwenden, um echte Benutzervariationen über einen bestimmten Zeitraum widerzuspiegeln. Außerdem sollte das Test-Dataset regelmäßig aktualisiert werden, um Änderungen an den Variationen widerzuspiegeln.
Empfehlungen für die Integration und verantwortungsvolle Nutzung bei der Spracherkennung
Da Microsoft daran arbeitet, Kunden dabei zu unterstützen, Lösungen verantwortungsvoll zu entwickeln und bereitzustellen, indem wir Spracherkennung verwenden, verfolgen wir einen prinzipiengeleiteten Ansatz zur Wahrung von Selbstbestimmung und Würde, indem wir die Fairness, Zuverlässigkeit und Sicherheit der KI-Systeme sowie Datenschutz und -sicherheit, Inklusivität, Transparenz und menschliche Rechenschaftspflicht berücksichtigen. Diese Überlegungen spiegeln unser Engagement für die Entwicklung verantwortungsvoller KI wider.
Wenn Sie sich auf die Bereitstellung KI-basierter Produkte oder Features vorbereiten, helfen Ihnen die folgenden Aktivitäten bei der Vorbereitung auf den Erfolg:
- Verstehen Sie, was es leisten kann: Bewerten Sie die Fähigkeiten von Sprache-zu-Text umfassend, um dessen Möglichkeiten und Einschränkungen zu verstehen. Verstehen Sie, wie es in Ihrem jeweiligen Szenario und Kontext ausgeführt wird, indem Sie es gründlich mit realen Lebensbedingungen und Daten testen.
- Respektieren Sie das Recht einer Person auf Privatsphäre: Sammeln Sie nur Daten und Informationen von Einzelpersonen zu rechtmäßigen und gerechtfertigten Zwecken. Verwenden Sie nur Daten und Informationen, für deren Nutzung Sie die Zustimmung zu diesem Zweck haben.
- Rechtliche Überprüfung: Erhalten Sie geeignete Rechtsberatung, um Ihre Lösung zu überprüfen, insbesondere, wenn Sie sie in sensiblen oder riskanten Anwendungen verwenden werden. Verstehen Sie, welche Einschränkungen Sie möglicherweise erfüllen müssen, und Ihre Verantwortung, um probleme zu lösen, die in Zukunft auftreten könnten. Stellen Sie keine Rechtsberatung oder Anleitung zur Verfügung.
- Human-in-the-loop: Behalten Sie den Menschen in der Schleife und beziehen Sie die menschliche Aufsicht als konsistent zu entdeckenden Bereich ein. Dies bedeutet, dass eine ständige menschliche Aufsicht über das KI-gestützte Produkt oder die Funktion gewährleistet und die Rolle des Menschen bei der Entscheidungsfindung beibehalten wird. Stellen Sie sicher, dass Sie einen menschlichen Eingriff in Echtzeit in die Lösung durchführen können, um Schaden zu vermeiden. Auf diese Weise können Sie Situationen verwalten, in denen das KI-Modell nicht wie erforderlich ausgeführt wird.
- Sicherheit: Stellen Sie sicher, dass Ihre Lösung sicher ist und über ausreichende Kontrollen verfügt, um die Integrität Ihrer Inhalte beizubehalten und unbefugten Zugriff zu verhindern.
- Vertrauen mit betroffenen Projektbeteiligten aufbauen: Kommunizieren Sie die erwarteten Vorteile und potenziellen Risiken für betroffene Projektbeteiligte. Helfen Sie Den Menschen zu verstehen, warum die Daten benötigt werden und wie die Verwendung der Daten zu ihrem Vorteil führen wird. Beschreiben Sie die Datenverarbeitung auf verständliche Weise.
- Kundenfeedbackschleife: Geben Sie einen Feedbackkanal an, über den Benutzer und Einzelpersonen Nach der Bereitstellung Probleme mit dem Dienst melden können. Nachdem Sie ein KI-gestütztes Produkt oder feature bereitgestellt haben, ist eine laufende Überwachung und Verbesserung erforderlich. Seien Sie bereit, Feedback und Verbesserungsvorschläge zu implementieren. Richten Sie Kanäle ein, um Fragen und Bedenken von betroffenen Beteiligten zu sammeln (Personen, die direkt oder indirekt vom System betroffen sind, einschließlich Mitarbeiter, Besucher und der allgemeinen Öffentlichkeit).
- Feedback: Suchen Sie während des Entwicklungs- und Bewertungsprozesses Feedback aus einer vielfältigen Stichprobe der Community (z. B. aus historisch marginalisierten Gruppen, Menschen mit Behinderungen und Servicemitarbeitern). Siehe: Community-Jury.
- Benutzerstudie: Alle Zustimmungs- oder Offenlegungsempfehlungen sollten in einer Benutzerstudie zusammengefasst werden. Bewerten Sie die erste und kontinuierliche Nutzungserfahrung mit einer repräsentativen Stichprobe der Community, um zu überprüfen, ob die Designentscheidungen zu einer effektiven Offenlegung führen. Führen Sie Benutzerforschungen mit 10-20 Communitymitgliedern (betroffene Stakeholder) durch, um ihr Verständnis der Informationen zu bewerten und zu bestimmen, ob ihre Erwartungen erfüllt sind.
Empfehlungen zum Schutz der Privatsphäre
Ein erfolgreicher Datenschutzansatz ermöglicht Einzelpersonen informationen und bietet Kontrollen und Schutz, um ihre Privatsphäre zu erhalten.
Zustimmung zum Verarbeiten und Speichern von Audioeingaben: Achten Sie darauf, alle erforderlichen Berechtigungen von Ihren Endbenutzern zu besitzen, bevor Sie die Spracherkennung für textfähige Features in Ihren Anwendungen oder Geräten verwenden. Stellen Sie außerdem sicher, dass Sie über die Berechtigung für Microsoft verfügen, diese Daten als Clouddienstverarbeiter von Drittanbietern zu verarbeiten. Beachten Sie, dass die Echtzeit-API keine der Audioeingabe- und Transkriptionsausgabedaten separat speichert. Sie können ihre Anwendung oder Ihr Gerät jedoch so entwerfen, dass Endbenutzerdaten wie Transkriptionstext beibehalten werden. Sie haben die Möglichkeit, die lokale Datenprotokollierung über das Speech SDK zu aktivieren (siehe Aktivieren der Protokollierung im Speech SDK).