Daten, Datenschutz und Sicherheit für Text zu Sprache

Wichtig

Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.

Dieser Artikel informiert darüber, wie die von Ihnen bereitgestellten Daten von Azure Speech in der Foundry Tools Text-zu-Sprache-Funktion verarbeitet, verwendet und gespeichert werden. Als wichtige Erinnerung sind Sie für Ihre Verwendung und die Implementierung dieser Technologie verantwortlich und sind verpflichtet, alle erforderlichen Berechtigungen zu erhalten, einschließlich ggf. von VoIP- und Avatar-Talenten (und ggf. Benutzern Ihrer persönlichen Sprachintegration(en)) für die Verarbeitung ihrer Stimme, ihres Bilds, ihrer Likeness und/oder anderer Daten, um synthetische Stimmen und/oder Avatare zu entwickeln.

Sie sind auch dafür verantwortlich, die notwendigen Lizenzen, Berechtigungen oder anderen Rechte für den Inhalt einzuholen, den Sie in den Text-zu-Sprache-Dienst eingeben, um Audio-, Bild- und/oder Videoausgaben zu erstellen. Einige Rechtsordnungen können besondere rechtliche Anforderungen für die Erhebung, Verarbeitung und Speicherung bestimmter Datenkategorien, wie biometrische Daten, und die Offenlegung synthetischer Stimmen, Bilder und/oder Videos für Benutzer festlegen. Bevor Sie Text zur Sprache verwenden, um Daten jeglicher Art zu verarbeiten und zu speichern und gegebenenfalls benutzerdefinierte Neuralstimme, persönliche Stimme oder benutzerdefinierte Avatarmodelle zu erstellen, müssen Sie sicherstellen, dass Sie alle gesetzlichen Anforderungen erfüllen, die für Sie gelten können.

Welche Daten verarbeiten Text-zu-Sprache-Dienste?

  • Texteingabe für die Sprachsynthese. Dies ist der Text, den Sie auswählen und an den Sprachdienst senden, um die Audioausgabe mithilfe einer Reihe vordefinierter neuraler Stimmen zu generieren oder einen vordefinierten Avatar zu generieren, der Audiodaten aus vordefinierten oder benutzerdefinierten neuralen Stimmen ausgibt.

Wie verarbeiten Text zu Sprachdiensten Daten?

Vorkonfigurierte neurale Stimme

Das folgende Diagramm veranschaulicht, wie Ihre Daten zur Synthese mit vordefinierter neuraler Stimme verarbeitet werden. Die Eingabe ist Text, und die Ausgabe ist Audio. Weder Eingabetext noch Ausgabeaudioinhalte werden in Microsoft Protokollen gespeichert.

Diagramm der vorgefertigten Verarbeitung von neuralen Sprachdaten.

Benutzerdefinierte neurale Stimme

Das folgende Diagramm veranschaulicht, wie Ihre Daten für benutzerdefinierte neurale Stimme verarbeitet werden. Dieses Diagramm befasst sich mit drei verschiedenen Verarbeitungstypen: wie Microsoft die aufgezeichneten Bestätigungsanweisungsdateien von Sprachtalenten vor der benutzerdefinierten Schulung des neuralen Sprachmodells überprüft, wie Microsoft ein benutzerdefiniertes neurales Sprachmodell mit Ihren Schulungsdaten erstellt und wie Text zu Sprache Ihre Texteingabe verarbeitet, um Audioinhalte zu generieren.

So verarbeitet benutzerdefinierte neurale Sprachdaten

Text-zu-Sprache-Avatar

Das folgende Diagramm veranschaulicht, wie Ihre Daten für die Synthese mit vorab entwickeltem Text-zu-Sprache-Avatar verarbeitet werden. Es gibt drei Komponenten in einem Workflow für die Avatar-Inhaltsgenerierung: Textanalyse, TTS-Audiosynthesizer und TTS-Avatar-Videosynthesizer. Zum Generieren von Avatarvideos wird text zuerst in die Textanalyse eingegeben, die die Ausgabe in Form einer Phoneme-Sequenz bereitstellt. Anschließend prognostiziert der TTS-Audiosynthesizer die akustischen Merkmale des Eingabetexts und synthetisiert die Stimme. Diese beiden Teile werden von Text-zu-Sprache-Stimmenmodellen bereitgestellt. Als Nächstes prognostiziert das Neurale Text-zu-Sprache-Avatar-Modell das Bild der Lippensynchronisierung mit den akustischen Merkmalen, sodass das synthetische Video generiert wird.

Ein Diagramm des Text-zu-Sprache-Avatar-Datenflusses.

Videoübersetzung

Das folgende Diagramm veranschaulicht, wie Ihre Daten mit Videoübersetzung verarbeitet werden. Der Kunde lädt das Video als Eingabe für die Videoübersetzung hoch, und die Audiodaten des Dialogs werden extrahiert und per Spracherkennung in Text transkribiert. Anschließend wird der Textinhalt in den Zielspracheninhalt übersetzt, und mithilfe der Sprachfunktion wird der übersetzte Audioinhalt mit dem ursprünglichen Videoinhalt als Videoausgabe zusammengeführt.

Diagramm des Videoübersetzungsdatenflusses.

Es gibt keine zusätzlichen Abschnitte für vordefinierte Stimme oder Avatar.

Datenspeicher und Aufbewahrung

Text-Eingabe für die Sprachsynthese: Microsoft behält oder speichert den Text, den Sie mit der Echtzeitsynthesetext-API bereitstellen, nicht. Skripts, die über die Long-Audio-API für Text zu Sprache oder über die Batch-avatar-API für text-zu-Sprache-Avatare bereitgestellt werden, werden in Azure Speicher gespeichert, um die Batchsyntheseanforderung zu verarbeiten. Der Eingabetext kann jederzeit über die Lösch-API gelöscht werden.

Output Audio- und Videoinhalte: Microsoft speichert audio- oder videoinhalte, die mit der Echtzeitsynthese-API generiert wurden, nicht. Wenn Sie die Videoübersetzung oder die Long-Audio-API für die Text-zu-Sprache-Avatar-Batch-API verwenden, werden die Ausgabe-Audio- oder -Videoinhalte im Azure-Speicher gespeichert. Diese Audios oder Videos können jederzeit über den Löschvorgang entfernt werden.

Verhindern von Missbrauch und schädlicher Inhaltsgenerierung (Vorschau)

Um das Risiko einer schädlichen Nutzung der Azure Text-to-Speech-Dienste zu verringern, enthält der Azure Text-to-Speech-Avatar Inhaltssicherheitsfunktionen. Die Inhaltssicherheit erfolgt synchron, wenn der Dienst Text verarbeitet, um Audio zu generieren. In den Inhaltsklassifizierermodellen werden weder Text noch generierte Ergebnisse gespeichert, und Text und Ergebnisse werden nicht verwendet, um die Klassifizierermodelle zu trainieren, neu zu trainieren oder zu verbessern. Weitere Informationen zu den Schadenkategorien von Sicherheitsfeatures für Inhalte finden Sie unter "Schadenkategorien".

Siehe auch