Was ist text to speech avatar?

Text-zu-Sprache-Avatar wandelt Text in ein digitales Video eines fotorealistischen Menschen um, entweder als Standard-Avatar oder als benutzerdefinierter Text-zu-Sprache-Avatar, der mit einer natürlich klingenden Stimme spricht. Sie können aus dem Text asynchron oder in Echtzeit ein Sprachavatarvideo synthetisieren. Entwickler können Anwendungen erstellen, die über eine API mit einem Text-to-Speech-Avatar integriert sind, oder den Text-to-Speech-Avatar in Foundry verwenden, um Videoinhalte ohne Programmierkenntnisse zu erstellen.

Durch die Verwendung der fortschrittlichen Modelle des Text-zu-Sprache-Avatars können Sie für verschiedene Anwendungen lebensechte und hochwertige synthetische Sprechavatar-Videos bereitstellen und dabei verantwortungsvolle KI-Praktiken einhalten.

Tipp

Um text to speech mit einem codefreien Ansatz zu konvertieren, probieren Sie den Microsoft Foundry Sprachsynthese Avatar aus.

Avatarfunktionen

Zu den Funktionen von Text-zu-Sprache-Avataren gehören:

  • Wandelt Text in ein digitales Video eines fotorealistischen Menschen um, der mit natürlich klingenden Stimmen, unterstützt durch Azure Text-to-Speech KI, spricht.
  • Stellt eine Sammlung von Standard-Avataren bereit. Eine vollständige Liste der unterstützten Standard-Avatare finden Sie unter "Standard avatars ".
  • Azure AI Text-zu-Sprache generiert die Stimme des Avatars. Weitere Informationen finden Sie unter Avatarstimme und -sprache.
  • Synthetisiert Text-in-Sprache-Avatar-Video asynchron mit der Batchsynthese-API oder in Echtzeit.
  • Verwenden Sie das Tool "Text to Speech Avatar" in Microsoft Foundry zum Erstellen von Videoinhalten ohne Codierung.
  • Ermöglicht Echtzeit-Avatarunterhaltungen über die Voice Live in Foundry.
  • Erstellen Sie VoIP-Agent mit Avatar in Voice Live.

Durch die Nutzung der fortschrittlichen neuronalen Netzwerkmodelle des Text-zu-Sprache-Avatars und der VASA-1-Modelle des Foto-Avatars können Sie lebensechte und hochwertige synthetische Videos sprechender Avatare für verschiedene Anwendungen erstellen und dabei die Grundsätze für verantwortungsvolle KI einhalten.

Avatarstimme und -sprache

Sie können aus einer Reihe von Standardstimmen für den Avatar auswählen. Die Sprachunterstützung für text-zu-Sprache-Avatar ist identisch mit der Sprachunterstützung für Text zu Sprache. Ausführliche Informationen finden Sie unter Sprachen- und Sprachunterstützung für den Sprachservice. Sie können über den Microsoft Foundry Sprachsynthese avatar oder per API auf Standard-Text-zu-Sprache-Avatare zugreifen.

Die Stimme im synthetischen Video kann eine Azure Speech-Standardstimme in Foundry Tools oder die benutzerdefinierte Stimme eines von Ihnen ausgewählten Sprechtalents sein.

Avatartyp

  • Video Avatar: Der Avatar wird mithilfe eines fein abgestimmten Modells mit einer Videoaufzeichnung zur Feinabstimmung generiert. Es unterstützt Halbkörper- und Vollkörperdarstellungen.
  • Foto-Avatar: Der Avatar wird aus einem einzelnen Eingabebild erstellt, das als Prompt bereitgestellt wird, und ist auf eine Darstellung des Kopfes beschränkt.

Avatar-Videoausgabe

Bei Video-Avataren oder Avataren mit Körper werden die Batchsynthese und die Auflösung der Echtzeitsynthese standardmäßig auf 1920 x 1080 festgelegt. Sie können benutzerdefinierte Avatare in 4K-Auflösung trainieren, und die Bildrate beträgt 25 FPS. Bei der Batchsynthese kann der Codec H264, HEVC oder AV1 sein, wenn das Format lautet mp4. Es kann VP9 oder AV1 sein, wenn das Format ist webm. Nur vp9 kann ein Alphakanal enthalten. Für die Echtzeitsynthese ist der Codec H264. Sie können die Videobitrate in der Anforderung für Batchsynthese und Echtzeitsynthese konfigurieren. Der Standardwert ist 2.000.000. Ausführlichere Konfigurationen finden Sie im Beispielcode. Die Auflösung des Foto-Avatars beträgt 512 x 512 sowohl für die Batch-Synthese als auch für die Echtzeitsynthese.

Video-Avatar

Batchsynthese Echtzeitsynthese
Auflösung 1920 x 1080/3840 x 2160 1920 x 1080/3840 x 2160
FPS 25 25
Codec H264/HEVC/VP9/AV1 H264

Foto-Avatar

Batchsynthese Echtzeitsynthese
Auflösung 512 x 512 512 x 512
FPS 25 25
Codec H264/HEVC/VP9 H264

Benutzerdefinierter Text-zu-Sprache-Avatar

Sie können benutzerdefinierte Text-zu-Sprache-Avatare erstellen, die einzigartig für Ihr Produkt oder Ihre Marke sind. Für einen individuellen Video-Avatar braucht man zum Einstieg nur 10 Minuten Videoaufnahmen. Für einen benutzerdefinierten Foto-Avatar benötigen Sie nur ein Foto. Wenn Sie eine professionelle Stimme für den Schauspieler optimieren, kann der Avatar sehr realistisch sein.

Für den Sprachteil eines benutzerdefinierten Avatars stehen mehrere Optionen zur Verfügung:

1. Sprachsynchronisierung für Avatar

Die Sprachsynchronisierung für Avatare ist die effizienteste benutzerdefinierte Sprachoption für einen benutzerdefinierten Video-Avatar. Es trainiert zusammen mit dem benutzerdefinierten Avatar mithilfe von Audio aus dem Schulungsvideo. Die Stimme ist ausschließlich mit dem benutzerdefinierten Avatar verknüpft und kann nicht unabhängig verwendet werden. Die Sprachsynchronisierung für Avatare ist nur für den benutzerdefinierten Video-Avatar verfügbar. Weitere Informationen finden Sie unter "VoIP-Synchronisierung für Avatare".

2. Professionelle Stimme

Professional Voice ist eine Art von benutzerdefinierter Stimme, die eine höhere Sprachqualität bietet. Feinabstimmung professioneller Stimmen und benutzerdefinierter Text-zu-Sprache-Avatar haben getrennte Verfahren für den Erhalt eines eingeschränkten Zugriffs und das Trainieren von Modellen. Sie können sie unabhängig oder gemeinsam verwenden. Wenn Sie auch die professionelle Sprachoptimierung mit einem Text-zu-Sprache-Avatar verwenden möchten, müssen Sie Ihr fein abgestimmtes professionelles Sprachmodell in einen der unterstützten Bereiche des Avatars bereitstellen oder kopieren.

3. Persönliche Stimme

Persönliche Stimme bietet audioqualität vergleichbar mit der Sprachsynchronisierung für Avatare und kann entweder mit Avataren oder unabhängig verwendet werden.

Weitere Informationen finden Sie unter Was ist ein benutzerdefiniertes Text-zu-Sprache-Avatar.

Beispielcode

Beispielcode für Text-zu-Sprache-Avatar ist auf GitHub verfügbar. In diesen Beispielen werden die am häufigsten verwendeten Szenarien behandelt:

Preise

  • Sowohl bei einer Echtzeit-Avatar-Sitzung als auch bei der Erstellung von Inhalten im Batch-Verfahren zahlen Sie separat für die Sprachsynthese-Funktion.
  • Die Sprachsynchronisierung für einen Avatar (durch benutzerdefiniertes Avatar-Training) kostet genauso viel wie eine personalisierte Stimme für die Spracherstellung und -synthese. Der Speicher der Stimme ist kostenlos.
  • Informationen zur Funktionsweise der Abrechnung für das Avatarfeature "Text-zu-Sprache" finden Sie unter "Text zu Avatar"-Preishinweisen für Sprach-Avatare.
  • Detaillierte Preise finden Sie unter Sprachdienstpreise. Avatarpreise sind nur für Dienstregionen sichtbar, in denen das Feature verfügbar ist. Die aktuelle Liste der unterstützten Regionen finden Sie in der Tabelle "Spracherkennungsdienstbereiche".

Verfügbare Speicherorte

Die aktuelle Liste der Regionen, die Text zu Sprach avatar unterstützen, finden Sie in der Tabelle "Sprachdienstbereiche".

Verantwortungsvolle KI

Microsoft sind die Menschen, die KI nutzen, und die Menschen, die von ihr betroffen sind, genauso wichtig wie die Technologie. Weitere Informationen finden Sie in den Transparenzhinweisen zur verantwortungsvollen KI und der Offenlegung für Sprach- und Avatar-Talente.

Nächste Schritte