Was ist ein benutzerdefinierter Text-zu-Sprache-Avatar?

Artikel
01/16/2025

Ein benutzerdefinierter Text-zu-Sprache-Avatar ermöglicht es Ihnen, einen benutzerdefinierten und einzigartigen synthetisch sprechenden Avatar für Ihre Anwendung zu erstellen. Mithilfe eines benutzerdefinierten Text zu Sprach-Avatars können Sie durch Bereitstellen von Videoaufzeichnungsdaten Ihrer ausgewählten Schauspieler einen einzigartigen und natürlich aussehenden Avatar für Ihr Produkt oder Ihre Marke erstellen. Wenn Sie auch eine benutzerdefinierte neuronale Stimme für denselben Akteur erstellen und als Stimme des Avatars verwenden, wirkt er noch realistischer.

Wichtig

Der Zugriff auf den benutzerdefinierten Text-zu-Sprache-Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt. Fordern Sie den Zugriff über das Aufnahmeformular an.

Wie funktioniert dies?

Das Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars erfordert mindestens eine zehnminütige Videoaufzeichnung des Avatar-Darstellers als Trainingsdaten. Außerdem müssen Sie zuvor seine Einwilligung einholen.

Das benutzerdefinierte Avatarmodell kann Folgendes unterstützen:

Videogenerierung über die Batchsynthese-API
Livechat über die Streamingsynthese-API

Berücksichtigen Sie folgende Überlegungen, bevor Sie loslegen:

Ihr Anwendungsfall: Verwenden Sie den Avatar für Videoinhalte wie Trainingsmaterial oder Produkteinführungen, oder soll er als virtueller Verkäufer dienen, der in Echtzeit mit Ihren Kunden kommuniziert? Es gibt für die unterschiedlichen Anwendungsfälle einige Voraussetzungen bezüglich der Aufzeichnungen.

Das Aussehen des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar gleicht dem Avatar-Darsteller der Trainingsdaten. Das Anpassen des Aussehens des Avatarmodells, z. B. Kleidung, Frisuren usw. wird nicht unterstützt. Wenn Ihre Anwendung also verschiedene Erscheinungsbilder desselben Avatars erfordert, sollten Sie Trainingsdaten für jedes Erscheinungsbild vorbereiten, da sie als individuelle Avatarmodelle betrachtet werden.

Die Stimme des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar kann sowohl mit vordefinierten neuronalen Stimmen als auch mit benutzerdefinierten neuralen Stimmen arbeiten. Durch die Erstellung einer benutzerdefinierten neuronalen Stimme für den Avatar-Darsteller und ihrer Verwendung zusammen mit dem Avatar wirkt die Erfahrung erheblich natürlicher.

Hier sehen Sie eine Übersicht der Schritte zum Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars:

Video zum Erhalten einer Einwilligung. Erhalten Sie eine Videoaufzeichnung der Einwilligungserklärung. Die Einwilligungserklärung ist eine Videoaufzeichnung des Avatar-Darstellers, in der er im Rahmen einer vorgelesenen Erklärung seine Zustimmung zur Verwendung seiner Bild- und Sprachdaten erteilt, um ein benutzerdefiniertes Text-zu-Sprache-Avatarmodell zu trainieren.
Vorbereiten von Trainingsdaten. Stellen Sie sicher, dass die Videoaufzeichnung das richtige Format hat. Es ist ratsam, die Videoaufnahme in einem professionellen Studio aufzuzeichnen, um ein sauberes Hintergrundbild zu erhalten. Die Qualität des resultierenden Avatars hängt stark von dem aufgezeichneten Video ab, das für das Training verwendet wird. Faktoren wie Sprechgeschwindigkeit, Körperhaltung, Gesichtsausdruck, Gesten, konsistente Position des Akteurs und Beleuchtung sind bei der Videoaufzeichnung unerlässlich, um einen ansprechenden benutzerdefinierten ´Text-zu-Sprache-Avatar zu erstellen. Ausführlichere Informationen finden Sie unter Vorbereiten von Trainingsdaten.
Trainieren des Avatarmodells. Wenn die Daten vorbereitet wurden, laden Sie Ihre Daten in das benutzerdefinierte Avatar-Portal hoch, und beginnen Sie mit dem Training Ihres Modells. Die Einwilligungsüberprüfung erfolgt während des Trainings. Stellen Sie sicher, dass Sie Zugriff auf das Feature für den benutzerdefinierten Sprachsynthese-Avatar haben, bevor Sie ein Projekt erstellen.
Bereitstellen und Verwenden Ihres Avatarmodells in Ihren Anwendungen

Reihenfolge der Komponenten

Das benutzerdefinierte Text-zu-Sprache-Avatarmodell enthält drei Komponenten: die Textanalyse, den Text-zu-Sprache-Audiosynthesizer und den Videorenderer des Text-zu-Sprache-Avatars.

Um eine Avatar-Videodatei oder -Stream mithilfe des Avatarmodells zu generieren, wird zunächst Text zuerst in die Textanalyse eingegeben. Als Ausgabe wird eine Phonemsequenz bereitgestellt.
Der Audiosynthesizer synthetisiert die gesprochene Sprache für den Eingabetext, und diese beiden Teile werden von Text zu Sprache- oder benutzerdefinierten neuronalen Stimmmodellen bereitgestellt.
Schließlich sagt das neuronale Text-zu-Sprache-Avatarmodell das Bild der Lippensynchronisierung mit dem Sprachaudio vorher, sodass das synthetische Video generiert wird.

Neuronale Text-zu-Sprache-Avatarmodelle werden mithilfe von Deep Neural Networks trainiert, die auf den Aufnahmebeispielen menschlicher Videos in verschiedenen Sprachen basieren. Alle Sprachen vordefinierter Stimmen sowie benutzerdefinierter neuronaler Stimmen können unterstützt werden.

Verfügbar Speicherorte

Das Training für benutzerdefinierte Avatare ist nur in den folgenden Dienstregionen verfügbar: „Asien, Südosten“, „Europa, Westen“ und „USA, Westen 2“. Sie können ein benutzerdefiniertes Avatarmodell in den folgenden Dienstregionen verwenden: „Asien, Südosten“, „Europa, Norden“, „Europa, Westen“, „Schweden, Mitte“, „USA, Süden-Mitte“, „USA, Osten 2“ und „USA, Westen 2“.

Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar

Der benutzerdefinierte Text-zu-Sprache-Avatar funktioniert sowohl mit einer vordefinierten neuronalen Stimme als auch mit einer benutzerdefinierten neuronalen Stimmen als Avatarstimme. Weitere Informationen finden Sie unter Avatarstimme und -sprache.

Die benutzerdefinierte neuronale Stimme und der benutzerdefinierter Text-zu-Sprache-Avatar sind separate Features. Sie können Sie gemeinsam oder unabhängig voneinander verwenden. Wenn Sie sich dafür entscheiden, sie zusammen zu verwenden, müssen Sie die benutzerdefinierte neuronale Stimme und den benutzerdefinierten Sprachsynthese-Avatar separat beantragen, und die benutzerdefinierte neuronale Stimme und der benutzerdefinierte Sprachsynthese-Avatar werden Ihnen getrennt in Rechnung gestellt. Weitere Informationen hierzu finden Sie in der Preisübersicht. Wenn Sie überdies auch eine benutzerdefinierte neuronale Stimme für einen Sprachsynthese-Avatar verwenden möchten, müssen Sie Ihr benutzerdefiniertes neurales Stimmmodell in einer der für Avatare unterstützten Regionen bereitstellen oder dorthin kopieren.

Teilen über

Was ist ein benutzerdefinierter Text-zu-Sprache-Avatar?

Wie funktioniert dies?

Reihenfolge der Komponenten

Verfügbar Speicherorte

Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar

Feedback

Zusätzliche Ressourcen

Teilen über

Was ist ein benutzerdefinierter Text-zu-Sprache-Avatar?

Wie funktioniert dies?

Reihenfolge der Komponenten

Verfügbar Speicherorte

Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen