Freigeben über


Was ist ein benutzerdefinierter Sprachsynthese-Avatar?

Ein benutzerdefinierter Text-zu-Sprache-Avatar ermöglicht es Ihnen, einen benutzerdefinierten und einzigartigen synthetisch sprechenden Avatar für Ihre Anwendung zu erstellen. Mithilfe eines benutzerdefinierten Text zu Sprach-Avatars können Sie durch Bereitstellen von Videoaufzeichnungsdaten Ihrer ausgewählten Schauspieler einen einzigartigen und natürlich aussehenden Avatar für Ihr Produkt oder Ihre Marke erstellen. Der Avatar ist noch realistischer, wenn Sie auch eine professionelle Stimme oder Sprachsynchronisierung für avatar für denselben Akteur verwenden.

Wichtig

Der Zugriff auf den benutzerdefinierten Text-zu-Sprache-Avatar ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt. Fordern Sie den Zugriff über das Aufnahmeformular an.

Wie funktioniert es?

Das Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars erfordert mindestens eine zehnminütige Videoaufzeichnung des Avatar-Darstellers als Trainingsdaten. Außerdem müssen Sie zuvor seine Einwilligung einholen.

Das benutzerdefinierte Avatarmodell kann Folgendes unterstützen:

Berücksichtigen Sie folgende Überlegungen, bevor Sie loslegen:

Ihr Anwendungsfall: Verwenden Sie den Avatar für Videoinhalte wie Trainingsmaterial oder Produkteinführungen, oder soll er als virtueller Verkäufer dienen, der in Echtzeit mit Ihren Kunden kommuniziert? Es gibt für die unterschiedlichen Anwendungsfälle einige Voraussetzungen bezüglich der Aufzeichnungen.

Das Aussehen des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar gleicht dem Avatar-Darsteller der Trainingsdaten. Das Anpassen des Aussehens des Avatarmodells, z. B. Kleidung, Frisuren usw. wird nicht unterstützt. Wenn Ihre Anwendung also verschiedene Erscheinungsbilder desselben Avatars erfordert, sollten Sie Trainingsdaten für jedes Erscheinungsbild vorbereiten, da sie als individuelle Avatarmodelle betrachtet werden.

Die Stimme des Avatars: Der benutzerdefinierte Text-zu-Sprache-Avatar kann mit Standardstimme, professioneller Stimme und Sprachsynchronisation funktionieren.

  • Sprachsynchronisierung für Avatar: Eine synthetische Stimme, die der Stimme des Avatar-Talents ähnelt, wird zusammen mit dem benutzerdefinierten Avatar mit Audio aus dem Schulungsvideo trainiert.
  • Professionelle Stimme: Optimieren Sie eine professionelle Stimme mit mehr Schulungsdaten und bieten Sie eine Premium-Spracherfahrung für Ihren Avatar, einschließlich natürlicher Unterhaltungen, vielseitiger und mehrsprachiger Unterstützung.

Hier sehen Sie eine Übersicht der Schritte zum Erstellen eines benutzerdefinierten Text-zu-Sprache-Avatars:

  1. Video zum Erhalten einer Einwilligung. Erhalten Sie eine Videoaufzeichnung des Talents, das eine Einwilligungserklärung liest. Sie müssen der Verwendung ihrer Bild- und Sprachdaten zustimmen, um ein benutzerdefiniertes Text-zu-Sprache-Avatar-Modell und eine synthetische Version ihrer Stimme zu trainieren.

  2. Vorbereiten von Trainingsdaten. Stellen Sie sicher, dass die Videoaufzeichnung das richtige Format hat. Es ist ratsam, die Videoaufnahme in einem professionellen Studio aufzuzeichnen, um ein sauberes Hintergrundbild zu erhalten. Die Qualität des resultierenden Avatars hängt stark von dem aufgezeichneten Video ab, das für das Training verwendet wird. Faktoren wie Sprechgeschwindigkeit, Körperhaltung, Gesichtsausdruck, Gesten, konsistente Position des Akteurs und Beleuchtung sind bei der Videoaufzeichnung unerlässlich, um einen ansprechenden benutzerdefinierten Text-zu-Sprache-Avatar zu erstellen. Ausführlichere Informationen finden Sie unter Vorbereiten von Trainingsdaten.

  3. Trainieren des Avatarmodells. Wenn die Daten vorbereitet wurden, laden Sie Ihre Daten in das benutzerdefinierte Avatar-Portal hoch, und beginnen Sie mit dem Training Ihres Modells. Die Einwilligungsüberprüfung erfolgt während des Trainings. Stellen Sie sicher, dass Sie Zugriff auf das Feature für den benutzerdefinierten Sprachsynthese-Avatar haben, bevor Sie ein Projekt erstellen.

  4. Bereitstellen und Verwenden Ihres Avatarmodells in Ihren Anwendungen

Komponentensequenz

Das benutzerdefinierte Text-zu-Sprache-Avatarmodell enthält drei Komponenten: die Textanalyse, den Text-zu-Sprache-Audiosynthesizer und den Videorenderer des Text-zu-Sprache-Avatars.

  • Um eine Avatar-Videodatei oder -Stream mithilfe des Avatarmodells zu generieren, wird zunächst Text zuerst in die Textanalyse eingegeben. Als Ausgabe wird eine Phonemsequenz bereitgestellt.
  • Der Audiosynthesizer synthetisiert die gesprochene Sprache für den Eingabetext, und diese beiden Teile werden von Standard oder benutzerdefinierten neuronalen Stimmmodellen bereitgestellt.
  • Schließlich prognostiziert das Text-zu-Sprache-Avatarmodell das Bild der Lippensynchronisierung mit dem Sprachaudio, sodass das synthetische Video generiert wird.

Screenshot: Anzeige einer Übersicht über den benutzerdefinierten Workflow des Text-zu-Sprache-Avatars

Die Text-zu-Sprache-Avatarmodelle werden mithilfe tiefer neuronaler Netzwerke basierend auf den Aufzeichnungsbeispielen von Videos mit Menschen in verschiedenen Sprachen trainiert. Alle Sprachen mit Standardstimmungen und benutzerdefinierten Stimmen können unterstützt werden.

Verfügbar Speicherorte

Das Training für benutzerdefinierte Avatare ist nur in den folgenden Dienstregionen verfügbar: Südostasien, Westeuropa und West US 2. Sie können ein benutzerdefiniertes Avatar-Modell in den folgenden Dienstregionen verwenden: Südostasien, Nordeuropa, Westeuropa, Zentralschweden, Süd-Zentral US, Ost-US 2 und West-US 2.

Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar

Benutzerdefinierte Stimme und benutzerdefinierter Text-zu-Sprache-Avatar sind separate Funktionen. Sie können diese unabhängig oder gemeinsam verwenden. Wenn Sie auch eine professionelle Stimme für den Schauspieler schaffen, kann der Avatar sehr realistisch sein.

Der benutzerdefinierte Text-zu-Sprache-Avatar kann mit einer Standardstimme oder einer benutzerdefinierten Stimme als Stimme des Avatars genutzt werden. Weitere Informationen finden Sie unter Avatarstimme und -sprache.

Es gibt zwei Arten von benutzerdefinierter Stimme für einen benutzerdefinierten Avatar:

  • Sprachsynchronisierung für Avatar: Wenn Sie die VoIP-Synchronisierung für Avatar-Option während der benutzerdefinierten Avatarschulung aktivieren, wird gleichzeitig ein synthetisches Sprachmodell mit dem Avatar trainiert. Diese Stimme ist ausschließlich dem benutzerdefinierten Avatar zugeordnet und kann nicht unabhängig verwendet werden. Die Sprachsynchronisierung für Avatare wird derzeit in den Regionen Südostasien, Westeuropa und Usa 2 unterstützt.
  • Professionelle Stimme: Sie können eine professionelle Stimme optimieren. Professionelle Sprachoptimierung und benutzerdefinierter Text zu Sprach-Avatar sind separate Features. Sie können diese unabhängig oder gemeinsam verwenden. Wenn Sie sich dafür entscheiden, sie zusammen zu verwenden, müssen Sie sich separat für professionelle Sprachoptimierung und benutzerdefinierte Text-zu-Sprache-Avatare bewerben, und Sie werden separat für die professionelle Sprachoptimierung und benutzerdefinierte Text-zu-Sprache-Avatare berechnet. Weitere Informationen hierzu finden Sie in der Preisübersicht. Wenn Sie außerdem beabsichtigen, professionelle Sprach-Feinabstimmung mit einem Text-zu-Sprache-Avatar zu verwenden, müssen Sie Ihr benutzerdefiniertes Sprachmodell in eine der unterstützten Regionen für Avatare bereitstellen oder kopieren.

Wenn Sie eine professionelle Stimme optimieren und sie zusammen mit dem benutzerdefinierten Avatar verwenden möchten, achten Sie auf die folgenden Punkte:

  • Stellen Sie sicher, dass der benutzerdefinierte VoIP-Endpunkt in derselben Azure AI Foundry-Ressource wie der benutzerdefinierte Avatarendpunkt erstellt wird. Wie erforderlich verweisen Sie auf Trainieren Sie Ihr professionelles Sprachmodell, um das benutzerdefinierte Sprachmodell in dieselbe Azure AI Foundry-Ressource wie den benutzerdefinierten Avatarendpunkt zu kopieren.
  • Die Option für benutzerdefinierte Stimmen finden Sie in der Stimmenliste auf der Seite zur Erstellung von Avatar-Inhalten und in den Live-Chat-Spracheinstellungen.
  • Wenn Sie die Batchsynthese für die Avatar-API verwenden, fügen Sie die Eigenschaft "customVoices" hinzu, um die Bereitstellungs-ID des Custom Voice-Modells dem Sprachnamen in der Anforderung zuzuordnen. Weitere Informationen finden Sie unter Sprachsyntheseeigenschaften.
  • Wenn Sie die Echtzeitsynthese für die Avatar-API verwenden, lesen Sie unseren Beispielcode auf GitHub, um die benutzerdefinierte Stimme festzulegen.