Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.
Hinweis
Dieser Artikel wird nur zu Informationszwecken und nicht zum Zwecke der Rechtsberatung bereitgestellt. Wir empfehlen dringend, bei der Implementierung von Speech Services fachrechtliche Beratung zu suchen.
Dieser Artikel enthält einige allgemeine Details dazu, wie Sprache zu Text daten verarbeitet, die von Kunden bereitgestellt werden. Beachten Sie, dass Audiodaten von Menschen, die sprechen, und die zugehörigen Texttranskriptionen möglicherweise als personenbezogene Daten und/oder vertrauliche Daten unter verschiedenen Datenschutzbestimmungen und Gesetzen betrachtet werden können, da sie nicht nur die Stimme des Menschen enthält, sondern auch der Inhalt des Audiosignals personenbezogene Informationen enthalten kann, je nach Kontext, in dem die Audiodaten gesammelt wurden. Audiodaten und die zugehörigen Texttranskriptionen können auch nach verschiedenen Kommunikationsgesetzen oder anderen Gesetzen und Vorschriften geregelt werden. Als wichtige Erinnerung sind Sie für die Implementierung dieser Technologie verantwortlich und sind verpflichtet, alle erforderlichen Berechtigungen für die Verarbeitung der Daten sowie alle Lizenzen, Berechtigungen oder sonstigen Eigentumsrechte zu erhalten, die für den Inhalt erforderlich sind, den Sie in die Sprache für den Textdienst eingeben. Es liegt in Ihrer Verantwortung, alle anwendbaren Gesetze und Vorschriften in Ihrer Gerichtsbarkeit einzuhalten.
Welche Daten werden von Sprache zu Text verarbeitet?
Sprache für Text verarbeitet die folgenden Datentypen:
- Audioeingabe oder Sprachaudio: Alle Sprach-zu-Text-Features akzeptieren Sprachaudio als Eingabe, die über die Speech SDK/REST-API in den Dienstendpunkt gestreamt wird. Bei der Batchtranskription wird die Audioeingabe an einen vom Kunden angewiesenen Speicherort gesendet, und der Sprachdienst greift auf die Audioeingabe zu und verarbeitet die Audioeingabe für die Zwecke der Bereitstellung der angeforderten Transkriptionsdienste. Weitere Informationen zum Angeben von Speicher finden Sie unter Verwendung der Batchtranskription.
- Eingabetranskriptionstext: Bei der Aussprachebewertung wird transkribierter Text zusammen mit einem Eingabestimmenaudio als "richtiger" Text gesendet. Aussprachen werden basierend auf den Eingabetranskriptionen bewertet.
- Transkription für die Sprachübersetzung: Wenn die Funktion zur Sprachübersetzung eingesetzt wird, wird der transkribierte Text, der von der Sprach-zu-Text-Funktion generiert wurde, über den Übersetzerdienst in eine angegebene Sprache übersetzt.
Der Textübersetzungsdienst wird nur verwendet, um Text aus einer Sprache in eine andere zu konvertieren. Nach Abschluss einer Übersetzungsanforderung werden keine Eingabe-/Ausgabedaten vom Sprachdienst aufbewahrt. Weitere Informationen zum Textübersetzungsdienst finden Sie unter "Was ist der Übersetzerdienst ".
Wenn Benutzer ein transkribierter/übersetzter Text in einem Audioformat benötigen, sendet das Feature den Ausgabetext an die Text-zu-Sprache-Funktion. Auch hier werden bei der Verarbeitung von Text-zu-Sprache-Daten keine Daten dauerhaft gespeichert.
Wie verarbeitet Die Spracherkennung Textdaten?
Echtzeit-Sprache in Text
Wenn eine Clientanwendung Audioeingaben an die Sprach-zu-Text-Software sendet, verarbeitet die Spracherkennungs-Engine das Audio und konvertiert es in Text. Basierend auf ihren akustischen und sprachlichen bzw. ihrer Sprachverständnisfunktionen, wählt die Sprach-zu-Text-Technologie Kandidatenwörter und -ausdrücke aus, die möglicherweise in der Audioeingabe ausgesprochen werden. Die Transkriptionsausgabe stellt die beste Ableitung oder Vorhersage im Textformat dar, was in der Audioeingabe gesprochen wurde.
Bei der Echtzeit-Umwandlung von Sprache zu Text wird die Audioeingabe nur im Speicher von Azure-Servern verarbeitet, und es werden keine Daten im Ruhezustand gespeichert. Alle Daten während der Übertragung werden zum Schutz verschlüsselt. Weitere Informationen zum Azure- und Datenschutz finden Sie unter Trusted Cloud: Sicherheit, Datenschutz, Compliance, Resilienz und IP.
Batch-Transkription
Bei der Batchtranskription geben Kunden ihren gewählten Speicherort sowohl von Audioeingabe- als auch Ausgabetranskriptionstextdateien für den Sprachdienst an, um auf die Transkription zuzugreifen, zu verarbeiten und die Transkriptionsausgabe bereitzustellen. Der Kunde kontrolliert die Speicherung dieser Daten, einschließlich der Aufbewahrung solcher Daten. Kunden können eine Aufbewahrungszeit für generierte Transkriptionstextdateien mithilfe eines Parameters namens "timeToLive" festlegen. Weitere Details finden Sie unter Batchtranskription – Konfigurationseigenschaften .
Sehen Sie sich die Datenflüsse für jede Sprach-zu-Text-Funktion an:
Sprecherdiarisierung/Trennung
Dieses Feature ist sowohl für die Echtzeit- als auch für die Batch-API verfügbar. Wenn Kunden die Option für die Lautsprechertrennung (Diarisierung) aktivieren (standardmäßig deaktiviert), analysiert und extrahiert die Sprach-zu-Text-Engine eindeutige Stimmeigenschaftensignale aus der Audioeingabe, um die Audiosignale zwischen Sprechern zu differenzieren. Diese Sprachcharakteristik-Signale werden verwendet und vorübergehend gespeichert, um ausschließlich die Transkriptionsausgabe mit Markierungen neben dem Text für Sprecher 1 (Gast-1) oder Sprecher 2 (Gast-2) zu kommentieren. Nach Abschluss des Prozesses werden alle Signaldaten, die zum Trennen der Lautsprecher verwendet werden, verworfen. Die Lautsprechertrennungsfunktion unterstützt die Trennung von zwei oder mehr Lautsprechern in einer einzigen Audiodatei. Die Sprechertrennung unterstützt die Registrierung der Sprecheridentitätserkennung nicht oder die Möglichkeit, eindeutige Lautsprecher über mehrere Audiodateien hinweg nachzuverfolgen.
Spracherkennung
Die Spracherkennung ähnelt der Spracherkennung, mit der Ausnahme, dass das Modell die Wahrscheinlichkeit der Zuordnung zwischen Phonemen und Sprachen berechnet. Jede Sprache hat spezifische Phoneme und Phoneme-Kombinationen, die die Sprache charakterisieren. Das Spracherkennungsmodell identifiziert die Merkmale in Phonemen, um die Wahrscheinlichkeit von Sprachen zu berechnen, die in einer Eingabestimme verwendet werden.
Sprachübersetzung
Wenn die Sprachübersetzung verwendet wird, wird zunächst eine Audioeingabe verwendet, um maschinellen transkribierten Text mit Sprache zu Text zu generieren. Anschließend wird der maschinell transkribierte Text an den Textübersetzungsdienst gesendet, um den Text (in der Quellsprache) in eine andere Sprache zu konvertieren. Wenn Kunden übersetzten Text in einem Audioformat benötigen, kann dieses Feature den übersetzten Text an Text-zu-Sprache senden. Kunden haben die Möglichkeit, nur übersetzten Text oder übersetzte Sprachausgabe zu erstellen.
Sprachcontainer
Mit Sprachcontainern stellen Kunden Sprachdienste-APIs über Docker-Container in ihrer eigenen Umgebung bereit. Da alle Sprachkomponenten in der vom Kunden gesteuerten Umgebung ausgeführt werden, werden Audiodateneingaben und Transkriptionsausgaben im Container des Kunden verarbeitet und nicht an den cloudbasierten Sprachdienst gesendet. Weitere Informationen finden Sie unter Installieren und Ausführen von Docker-Containern für die Sprachdienst-APIs .
Sicherheit für Kundendaten im Sprachcontainer
Die Sicherheit von Kundendaten ist eine gemeinsame Verantwortung. Details zum Sicherheitsmodell von Azure KI-Containern, wie dem Sprachcontainer, finden Sie in Foundry Tools Containersicherheit.
Sie sind für die Sicherung und Wartung der Geräte und Infrastruktur verantwortlich, die für den Betrieb von Sprachcontainern vor Ort erforderlich sind, z. B. Ihr Edgegerät und Netzwerk.
Weitere Informationen zu den Datenschutz- und Sicherheitsverpflichtungen von Microsoft finden Sie unter the Microsoft Trust Center.
Datenspeicher und Aufbewahrung
Keine Datenspur
Wenn Sie Echtzeit-Sprach-zu-Text, schnelle Transkription, Aussprachebewertung und Sprachübersetzung durchführen, speichert Microsoft die von Kunden bereitgestellten Daten nicht. In der Batchtranskription geben Kunden ihre eigenen Speicherorte an, um die Audioeingabe zu senden. Generierter Transkriptionstext kann entweder im eigenen Speicher des Kunden oder im Microsoft Speicher gespeichert werden, wenn kein Speicher angegeben ist. Wenn Ausgabetranskriptionen in Microsoft Speicher gespeichert werden, können Kunden die Daten entweder durch Aufrufen einer Lösch-API löschen oder den TimeToLive-Parameter so festlegen, dass die Daten in einer bestimmten Zeit automatisch gelöscht werden. Weitere Informationen finden Sie unter Verwendung der Batchtranskription – Sprachdienst – Foundry Tools.
Weitere Informationen zu den Datenschutz- und Sicherheitsverpflichtungen von Microsoft finden Sie im Microsoft Trust Center.