Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.
Dieser Artikel informiert darüber, wie die von Ihnen bereitgestellten Daten von Azure Speech in der Foundry Tools Text-zu-Sprache-Funktion verarbeitet, verwendet und gespeichert werden. Als wichtige Erinnerung sind Sie für Ihre Verwendung und die Implementierung dieser Technologie verantwortlich und sind verpflichtet, alle erforderlichen Berechtigungen zu erhalten, einschließlich ggf. von VoIP- und Avatar-Talenten (und ggf. Benutzern Ihrer persönlichen Sprachintegration(en)) für die Verarbeitung ihrer Stimme, ihres Bilds, ihrer Likeness und/oder anderer Daten, um synthetische Stimmen und/oder Avatare zu entwickeln.
Sie sind auch dafür verantwortlich, die notwendigen Lizenzen, Berechtigungen oder anderen Rechte für den Inhalt einzuholen, den Sie in den Text-zu-Sprache-Dienst eingeben, um Audio-, Bild- und/oder Videoausgaben zu erstellen. Einige Rechtsordnungen können besondere rechtliche Anforderungen für die Erhebung, Verarbeitung und Speicherung bestimmter Datenkategorien, wie biometrische Daten, und die Offenlegung synthetischer Stimmen, Bilder und/oder Videos für Benutzer festlegen. Bevor Sie Text zur Sprache verwenden, um Daten jeglicher Art zu verarbeiten und zu speichern und gegebenenfalls benutzerdefinierte Neuralstimme, persönliche Stimme oder benutzerdefinierte Avatarmodelle zu erstellen, müssen Sie sicherstellen, dass Sie alle gesetzlichen Anforderungen erfüllen, die für Sie gelten können.
Welche Daten verarbeiten Text-zu-Sprache-Dienste?
- Vorkonfigurierte Stimme / Avatar
- Benutzerdefinierte neurale Stimme
- Benutzerdefinierter Text in Sprach-Avatar
- Texteingabe für die Sprachsynthese. Dies ist der Text, den Sie auswählen und an den Sprachdienst senden, um die Audioausgabe mithilfe einer Reihe vordefinierter neuraler Stimmen zu generieren oder einen vordefinierten Avatar zu generieren, der Audiodaten aus vordefinierten oder benutzerdefinierten neuralen Stimmen ausgibt.
Wie verarbeiten Text zu Sprachdiensten Daten?
Vorkonfigurierte neurale Stimme
Das folgende Diagramm veranschaulicht, wie Ihre Daten zur Synthese mit vordefinierter neuraler Stimme verarbeitet werden. Die Eingabe ist Text, und die Ausgabe ist Audio. Weder Eingabetext noch Ausgabeaudioinhalte werden in Microsoft Protokollen gespeichert.
Benutzerdefinierte neurale Stimme
Das folgende Diagramm veranschaulicht, wie Ihre Daten für benutzerdefinierte neurale Stimme verarbeitet werden. Dieses Diagramm befasst sich mit drei verschiedenen Verarbeitungstypen: wie Microsoft die aufgezeichneten Bestätigungsanweisungsdateien von Sprachtalenten vor der benutzerdefinierten Schulung des neuralen Sprachmodells überprüft, wie Microsoft ein benutzerdefiniertes neurales Sprachmodell mit Ihren Schulungsdaten erstellt und wie Text zu Sprache Ihre Texteingabe verarbeitet, um Audioinhalte zu generieren.
Text-zu-Sprache-Avatar
Das folgende Diagramm veranschaulicht, wie Ihre Daten für die Synthese mit vorab entwickeltem Text-zu-Sprache-Avatar verarbeitet werden. Es gibt drei Komponenten in einem Workflow für die Avatar-Inhaltsgenerierung: Textanalyse, TTS-Audiosynthesizer und TTS-Avatar-Videosynthesizer. Zum Generieren von Avatarvideos wird text zuerst in die Textanalyse eingegeben, die die Ausgabe in Form einer Phoneme-Sequenz bereitstellt. Anschließend prognostiziert der TTS-Audiosynthesizer die akustischen Merkmale des Eingabetexts und synthetisiert die Stimme. Diese beiden Teile werden von Text-zu-Sprache-Stimmenmodellen bereitgestellt. Als Nächstes prognostiziert das Neurale Text-zu-Sprache-Avatar-Modell das Bild der Lippensynchronisierung mit den akustischen Merkmalen, sodass das synthetische Video generiert wird.
Videoübersetzung
Das folgende Diagramm veranschaulicht, wie Ihre Daten mit Videoübersetzung verarbeitet werden. Der Kunde lädt das Video als Eingabe für die Videoübersetzung hoch, und die Audiodaten des Dialogs werden extrahiert und per Spracherkennung in Text transkribiert. Anschließend wird der Textinhalt in den Zielspracheninhalt übersetzt, und mithilfe der Sprachfunktion wird der übersetzte Audioinhalt mit dem ursprünglichen Videoinhalt als Videoausgabe zusammengeführt.
- Vorkonfigurierte Stimme / Avatar
- Benutzerdefinierte neurale Stimme
- Benutzerdefinierter Text in Sprach-Avatar
Es gibt keine zusätzlichen Abschnitte für vordefinierte Stimme oder Avatar.
Datenspeicher und Aufbewahrung
- Vorkonfigurierte Stimme / Avatar
- Benutzerdefinierte neurale Stimme
- Benutzerdefinierter Text in Sprach-Avatar
Text-Eingabe für die Sprachsynthese: Microsoft behält oder speichert den Text, den Sie mit der Echtzeitsynthesetext-API bereitstellen, nicht. Skripts, die über die Long-Audio-API für Text zu Sprache oder über die Batch-avatar-API für text-zu-Sprache-Avatare bereitgestellt werden, werden in Azure Speicher gespeichert, um die Batchsyntheseanforderung zu verarbeiten. Der Eingabetext kann jederzeit über die Lösch-API gelöscht werden.
Output Audio- und Videoinhalte: Microsoft speichert audio- oder videoinhalte, die mit der Echtzeitsynthese-API generiert wurden, nicht. Wenn Sie die Videoübersetzung oder die Long-Audio-API für die Text-zu-Sprache-Avatar-Batch-API verwenden, werden die Ausgabe-Audio- oder -Videoinhalte im Azure-Speicher gespeichert. Diese Audios oder Videos können jederzeit über den Löschvorgang entfernt werden.
Verhindern von Missbrauch und schädlicher Inhaltsgenerierung (Vorschau)
Um das Risiko einer schädlichen Nutzung der Azure Text-to-Speech-Dienste zu verringern, enthält der Azure Text-to-Speech-Avatar Inhaltssicherheitsfunktionen. Die Inhaltssicherheit erfolgt synchron, wenn der Dienst Text verarbeitet, um Audio zu generieren. In den Inhaltsklassifizierermodellen werden weder Text noch generierte Ergebnisse gespeichert, und Text und Ergebnisse werden nicht verwendet, um die Klassifizierermodelle zu trainieren, neu zu trainieren oder zu verbessern. Weitere Informationen zu den Schadenkategorien von Sicherheitsfeatures für Inhalte finden Sie unter "Schadenkategorien".