Was ist ein benutzerdefinierter Text-zu-Sprache-Avatar?
Ein benutzerdefinierter Text-zu-Sprache-Avatar ermöglicht es Ihnen, einen benutzerdefinierten und einzigartigen synthetisch sprechenden Avatar für Ihre Anwendung zu erstellen. Mithilfe eines benutzerdefinierten Text zu Sprach-Avatars können Sie durch Bereitstellen von Videoaufzeichnungsdaten Ihrer ausgewählten Schauspieler einen einzigartigen und natürlich aussehenden Avatar für Ihr Produkt oder Ihre Marke erstellen. Wenn Sie auch eine benutzerdefinierte neuronalen Stimme für denselben Akteur erstellen und sie als Stimme des Avatars verwenden, wirkt er noch realistischer.
Wichtig
Der Zugriff auf den benutzerdefinierten Text-zu-Sprache-Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt. Fordern Sie den Zugriff über das Aufnahmeformular an.
Wie funktioniert dies?
Das Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars erfordert mindestens eine zehnminütige Videoaufzeichnung des Avatar-Darstellers als Trainingsdaten. Außerdem müssen Sie zuvor seine Einwilligung einholen.
Wichtig
Zurzeit werden die Datenverarbeitung und das Modelltraining für einen benutzerdefinierten Text-zu-Sprache-Avatar manuell durchgeführt.
Berücksichtigen Sie folgende Überlegungen, bevor Sie loslegen:
Ihr Anwendungsfall: Verwenden Sie den Avatar für Videoinhalte wie Trainingsmaterial oder Produkteinführungen, oder soll er als virtueller Verkäufer dienen, der in Echtzeit mit Ihren Kunden kommuniziert? Es gibt für die unterschiedlichen Anwendungsfälle einige Voraussetzungen bezüglich der Aufzeichnungen.
Das Aussehen des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar gleicht dem Avatar-Darsteller der Trainingsdaten. Das Anpassen des Aussehens des Avatarmodells, z. B. Kleidung, Frisuren usw. wird nicht unterstützt. Wenn Ihre Anwendung also verschiedene Erscheinungsbilder desselben Avatars erfordert, sollten Sie Trainingsdaten für jedes Erscheinungsbild vorbereiten, da sie als individuelle Avatarmodelle betrachtet werden.
Die Stimme des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar kann sowohl mit vordefinierten neuronalen Stimmen als auch mit benutzerdefinierten neuralen Stimmen arbeiten. Durch die Erstellung einer benutzerdefinierten neuronalen Stimme für den Avatar-Darsteller und ihrer Verwendung zusammen mit dem Avatar wirkt die Erfahrung erheblich natürlicher.
Hier sehen Sie eine Übersicht der Schritte zum Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars:
Video zum Erhalten einer Einwilligung: Erhalten Sie eine Videoaufzeichnung der Einwilligungserklärung. Die Einwilligungserklärung ist eine Videoaufzeichnung des Avatar-Darstellers, in der er im Rahmen einer vorgelesenen Erklärung seine Zustimmung zur Verwendung seiner Bild- und Sprachdaten erteilt, um ein benutzerdefiniertes Text-zu-Sprache-Avatarmodell zu trainieren.
Vorbereiten von Trainingsdaten: Stellen Sie sicher, dass die Videoaufzeichnung das richtige Format hat. Es ist ratsam, die Videoaufnahme in einem professionellen Studio aufzuzeichnen, um ein sauberes Hintergrundbild zu erhalten. Die Qualität des resultierenden Avatars hängt stark von dem aufgezeichneten Video ab, das für das Training verwendet wird. Faktoren wie Sprechgeschwindigkeit, Körperhaltung, Gesichtsausdruck, Gesten, konsistente Position des Akteurs und Beleuchtung sind bei der Videoaufzeichnung unerlässlich, um einen ansprechenden benutzerdefinierten ´Text-zu-Sprache-Avatar zu erstellen.
Trainieren des Avatarmodells: Wir beginnen mit dem Training des benutzerdefinierten Text-zu-Sprache-Modells, nachdem wir die Einwilligungserklärung des Avatar-Darstellers überprüft haben. Dieser Schritt wird derzeit manuell von Microsoft durchgeführt. Sie werden benachrichtigt, nachdem das Modell erfolgreich trainiert wurde.
Bereitstellen und Verwenden Ihres Avatarmodells in Ihren Anwendungen
Reihenfolge der Komponenten
Das benutzerdefinierte Text-zu-Sprache-Avatarmodell enthält drei Komponenten: die Textanalyse, den Text-zu-Sprache-Audiosynthesizer und den Videorenderer des Text-zu-Sprache-Avatars.
- Um eine Avatar-Videodatei oder -Stream mithilfe des Avatarmodells zu generieren, wird zunächst Text zuerst in die Textanalyse eingegeben. Als Ausgabe wird eine Phonemsequenz bereitgestellt.
- Der Audiosynthesizer synthetisiert die gesprochene Sprache für den Eingabetext, und diese beiden Teile werden von Text zu Sprache- oder benutzerdefinierten neuronalen Stimmmodellen bereitgestellt.
- Schließlich sagt das neuronale Text-zu-Sprache-Avatarmodell das Bild der Lippensynchronisierung mit dem Sprachaudio vorher, sodass das synthetische Video generiert wird.
Neuronale Text-zu-Sprache-Avatarmodelle werden mithilfe von Deep Neural Networks trainiert, die auf den Aufnahmebeispielen menschlicher Videos in verschiedenen Sprachen basieren. Alle Sprachen vordefinierter Stimmen sowie benutzerdefinierter neuronaler Stimmen können unterstützt werden.
Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar
Der benutzerdefinierte Text-zu-Sprache-Avatar funktioniert sowohl mit einer vordefinierten neuronalen Stimme als auch mit einer benutzerdefinierten neuronalen Stimmen als Avatarstimme. Weitere Informationen finden Sie unter Avatarstimme und -sprache.
Die benutzerdefinierte neuronale Stimme und der benutzerdefinierter Text-zu-Sprache-Avatar sind separate Features. Sie können Sie gemeinsam oder unabhängig voneinander verwenden. Wenn Sie sich dafür entscheiden, sie zusammen zu verwenden, müssen Sie die benutzerdefinierte neuronale Stimme und den benutzerdefinierten Sprachsynthese-Avatar separat beantragen, und die benutzerdefinierte neuronale Stimme und der benutzerdefinierte Sprachsynthese-Avatar werden Ihnen getrennt in Rechnung gestellt. Weitere Informationen finden Sie auf der Seite mit der Preisübersicht. Wenn Sie überdies auch eine benutzerdefinierte neuronale Stimme für einen Sprachsynthese-Avatar verwenden möchten, müssen Sie Ihr benutzerdefiniertes neurales Stimmmodell in einer der für Avatare unterstützten Regionen bereitstellen oder dorthin kopieren.