Q: Gibt es eine Zuordnung zwischen Viseme IDs und Mundform?

Ja. Siehe Abrufen der Gesichtsposition mit Mundbild .

Question 1

Wie funktioniert die Abrechnung von Text-zu-Sprache?

Accepted Answer

Die Nutzung von Sprachsynthese wird pro Zeichen abgerechnet. Überprüfen Sie die Definition der abrechenbaren Zeichen in der Preisnotiz.

Question 2

Wie hoch ist die Rate für die Text-zu-Sprache-Synthese-Anfragen?

Accepted Answer

Die Geschwindigkeit der Text-zu-Sprache-Synthese skaliert automatisch, wenn mehr Anfragen eingehen. Für jede Sprachressource wird ein Standardratenlimit festgelegt. Die Rate ist mit geschäftlichen Begründungen anpassbar, und es entstehen keine zusätzlichen Gebühren für die Erhöhung der Ratenbegrenzung. Weitere Einzelheiten finden Sie unter Speech-Dienst – Kontingente und Limits.

Question 3

Wie würden wir dem Endbenutzer mitteilen, dass die Stimme eine synthetische Stimme ist?

Accepted Answer

Wir empfehlen, dass jeder Benutzer bei der Nutzung der Text-to-Speech-Funktionalität unseren Verhaltenskodex befolgt. Es gibt mehrere Möglichkeiten, die synthetische Natur der Stimme offenzulegen, einschließlich impliziter und expliziter Andeutungen. Siehe Entwurfsrichtlinien für die Offenlegung.

Question 4

Wie kann ich die Latenz für meine Sprach-App verringern?

Accepted Answer

Wir bieten Ihnen einige Tipps, wie Sie die Latenz verringern und Ihren Benutzern die beste Leistung bieten können. Siehe Geringere Wartezeit bei der Sprachsynthese mit dem Speech SDK.

Question 5

Welche Ausgabeaudioformate unterstützt Text-to-Speech?

Accepted Answer

Azure KI Text-to-Speech unterstützt verschiedene Streaming- und Nicht-Streaming-Audioformate mit den häufig verwendeten Samplingraten. Alle TTS-Standardstimmchen werden erstellt, um High-Fidelity-Audioausgaben mit 48 kHz und 24 kHz zu unterstützen. Das Audiomaterial kann bei Bedarf auf andere Raten umgetastet werden. Siehe Audioausgaben.

Question 6

Kann die Stimme angepasst werden, um bestimmte Wörter zu betonen?

Accepted Answer

Die Anpassung der Betonung wird für einige Stimmen je nach Gebietsschema unterstützt. Weitere Informationen finden Sie unter dem Betonungstag.

Question 7

Können wir für jedes Gefühl mehrere Abstufungen haben, wie traurig, leicht traurig und so weiter?

Accepted Answer

Die Anpassung des Stilgrades wird für einige Stimmen je nach Gebietsschema unterstützt. Siehe denTag mstts:express-as.

Question 8

Gibt es eine Zuordnung zwischen Viseme IDs und Mundform?

Accepted Answer

Ja. Siehe Abrufen der Gesichtsposition mit Mundbild.

Question 9

Wie kann ich auf eine Lexikondatei verweisen, die ich auf der Plattform für die Audioinhaltserstellung in meinem Code erstellt habe?

Accepted Answer

Zuerst können Sie die Lexikondatei in der Audioinhaltserstellung öffnen und die Lexikondatei-ID abrufen, die sich vor „?fileKind=CustomLexiconFile“ im Dateipfad befindet. Wenn der Dateipfad beispielsweise https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile ist, lautet die Lexikondatei-ID 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Ändern Sie dann in der Audioinhaltserstellung eine Datei, die auf dieses Lexikon verweist, in das SSML-Format. Suchen Sie in der SSML-Datei den XML-Knoten

Question 10

Wie viele Daten sind für professionelle Sprachoptimierung erforderlich?

Accepted Answer

Sie benötigen Schulungsdaten von mindestens 300 Zeilen Aufzeichnungen (oder ca. 30 Minuten Spracherkennung) für professionelle Sprachoptimierung. Wir raten zu 2.000 Zeilen Aufzeichnungen (oder etwa 2-3 Stunden Sprache), um eine Stimme für die Produktion zu erstellen. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Question 11

Können doppelte Textsätze in den gleichen Satz von Trainingsdaten eingeschlossen werden?

Accepted Answer

Nein. Der Dienst kennzeichnet die doppelten Sätze und behält nur den ersten importierten Satz bei. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Question 12

Können wir mehrere Stile in denselben Satz von Trainingsdaten einschließen?

Accepted Answer

Es wird empfohlen, den Stil in einem Satz von Trainingsdaten konsistent zu halten. Wenn die Stile unterschiedlich sind, fügen Sie sie in verschiedene Trainingssätze ein. Berücksichtigen Sie in diesem Fall die Verwendung der mehrstufigen Trainingsmethode professioneller VoIP-Feinabstimmungen. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Question 13

Funktioniert das Wechseln von Formatvorlagen über SSML für benutzerdefinierte Stimmen?

Accepted Answer

Das Wechseln von Formatvorlagen über SSML funktioniert sowohl für mehrformatige Standardstimden als auch für benutzerdefinierte Stimmen mit mehreren Stilen. Mit dem Mehrstiltraining können Sie eine Stimme erstellen, die in verschiedenen Stilen spricht, und Sie können diese Stile auch über SSML anpassen.

Question 14

Wie funktioniert die sprachübergreifende Sprachausgabe mit Sprachen, die eine andere Aussprachestruktur und einen anderen Aufbau haben?

Accepted Answer

Satzstruktur und Aussprache unterscheiden sich natürlich zwischen Sprachen wie Englisch und Japanisch. Jede neuronale Stimme wird mit Audiodaten trainiert, die von muttersprachlichen Sprechern aufgenommen wurden. Bei der sprachenübergreifenden Stimme übertragen wir die wichtigsten Merkmale wie das Timbre, um wie der ursprüngliche Sprecher zu klingen und die richtige Aussprache zu bewahren. Eine sprachübergreifende Stimme wird zum Beispiel die muttersprachliche Art und Weise verwenden, Japanisch zu sprechen und trotzdem ähnlich (aber nicht genau) wie der englische Originalsprecher klingen.

Question 15

Kann ich professionelle Sprachoptimierung verwenden, um die Aussprache für meine Domäne anzupassen?

Accepted Answer

Professionelle Sprachoptimierung ermöglicht Es Ihnen, eine Markenstimme für Ihr Unternehmen zu schaffen. Sie können es auch für Ihre Domain optimieren. Wir empfehlen Ihnen, domänenspezifische Beispiele in Ihre Trainingsdaten aufzunehmen, um die Natürlichkeit zu erhöhen. Die Aussprache wird jedoch standardmäßig vom Sprachdienst definiert. Wir unterstützen keine Ausspracheanpassung mit professioneller Sprachoptimierung. Wenn Sie die Aussprache für Ihre Stimme anpassen möchten, verwenden Sie SSML. Siehe Aussprache mit der Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML)

Question 16

Kann ich nach einem Training meine Stimme wieder trainieren?

Accepted Answer

Sie können erneut trainieren. Jedes Training erstellt ein neues Stimmmodell. Für jedes Training wird eine Gebühr erhoben.

Question 17

Ist die Modellversion die gleiche wie die Motorversion?

Accepted Answer

Nein. Die Modellversion unterscheidet sich von der Engineversion. Die Modellversion ist die Version des Trainingsrezepts für Ihr Modell und variiert je nach den unterstützten Funktionen und der Trainingszeit des Modells. Sie Sprachsynthese-Engines von Azure KI Services werden regelmäßig aktualisiert, um das neueste Sprachmodell zu erfassen, das die Aussprache der Sprache definiert. Nachdem Sie Ihre Stimme trainiert haben, können Sie sie auf das neue Sprachmodell anwenden, indem Sie auf die neueste Modulversion aktualisieren. Wenn ein neues Modul verfügbar ist, werden Sie aufgefordert, Ihr neuronales Stimmmodell zu aktualisieren. Siehe Aktualisieren der Modulversion für Ihr Stimmmodell.

Question 18

Können wir die Anzahl der Schulungen mithilfe von Azure Policy oder anderen Funktionen begrenzen? Oder gibt es eine Möglichkeit, falsches Training zu vermeiden?

Accepted Answer

Wenn Sie die Berechtigung zum Training einschränken wollen, können Sie die Benutzerrollen und den Zugriff einschränken. Siehe Rollenbasierte Zugriffssteuerung für Speech-Ressourcen.

Question 19

Kann Microsoft bei der Erstellung unserer Stimme einen Mechanismus hinzufügen, der die unbefugte Nutzung oder den Missbrauch verhindert?

Accepted Answer

Das Sprachmodell kann nur von Ihnen selbst mit Ihrem eigenen Token verwendet werden. Auch Microsoft verwendet Ihre Daten nicht. Siehe Daten, Datenschutz und Sicherheit. Sie können auch beantragen, dass Ihre Stimme mit Wasserzeichen versehen wird, um Ihr Modell zu schützen. Siehe Microsoft Azure Neural TTS führt den Wasserzeichen-Algorithmus für die Identifizierung synthetischer Stimmen ein.

Question 20

Haben Sie irgendwelche Tipps zu Verträgen oder Verhandlungen mit Sprechern?

Accepted Answer

Wir geben keine Empfehlungen zu Verträgen ab. Es ist Sache des Kunden und des Sprechers, die Bedingungen auszuhandeln. Allerdings sollten Sie sicherstellen, dass der Sprecher die Funktionalitäten von Text-to-Speech, einschließlich der Möglichkeiten und potenziellen Risiken, versteht und sowohl im Vertrag als auch in einer mündlichen Erklärung seine ausdrückliche Zustimmung zur Erstellung einer synthetischen Version seiner Stimme gibt. Siehe Offenlegung für Sprecher.

Question 21

Müssen wir die schriftliche Genehmigung des Sprechers an Microsoft zurückgeben?

Accepted Answer

Microsoft braucht keine schriftliche Genehmigung, doch Sie müssen die Zustimmung Ihrer Sprecher einholen. Der Sprecher muss außerdem die Einverständniserklärung aufnehmen und in Speech Studio hochladen, bevor das Training beginnen kann. Siehe Einrichten von VoIP-Talenten für professionelle VoIP-Feinabstimmungen.

Freigeben über

Allgemein

Wie funktioniert die Abrechnung von Text-zu-Sprache?

Wie hoch ist die Rate für die Text-zu-Sprache-Synthese-Anfragen?

Wie würden wir dem Endbenutzer mitteilen, dass die Stimme eine synthetische Stimme ist?

Wie kann ich die Latenz für meine Sprach-App verringern?

Welche Ausgabeaudioformate unterstützt Text-to-Speech?

Kann die Stimme angepasst werden, um bestimmte Wörter zu betonen?

Können wir für jedes Gefühl mehrere Abstufungen haben, wie traurig, leicht traurig und so weiter?

Gibt es eine Zuordnung zwischen Viseme IDs und Mundform?

Erstellung von Audioinhalten

Wie kann ich auf eine Lexikondatei verweisen, die ich auf der Plattform für die Audioinhaltserstellung in meinem Code erstellt habe?

Professionelle Sprachoptimierung

Wie viele Daten sind für professionelle Sprachoptimierung erforderlich?

Können doppelte Textsätze in den gleichen Satz von Trainingsdaten eingeschlossen werden?

Können wir mehrere Stile in denselben Satz von Trainingsdaten einschließen?

Funktioniert das Wechseln von Formatvorlagen über SSML für benutzerdefinierte Stimmen?

Wie funktioniert die sprachübergreifende Sprachausgabe mit Sprachen, die eine andere Aussprachestruktur und einen anderen Aufbau haben?

Kann ich professionelle Sprachoptimierung verwenden, um die Aussprache für meine Domäne anzupassen?

Kann ich nach einem Training meine Stimme wieder trainieren?

Ist die Modellversion die gleiche wie die Motorversion?

Können wir die Anzahl der Schulungen mithilfe von Azure Policy oder anderen Funktionen begrenzen? Oder gibt es eine Möglichkeit, falsches Training zu vermeiden?

Kann Microsoft bei der Erstellung unserer Stimme einen Mechanismus hinzufügen, der die unbefugte Nutzung oder den Missbrauch verhindert?

Haben Sie irgendwelche Tipps zu Verträgen oder Verhandlungen mit Sprechern?

Müssen wir die schriftliche Genehmigung des Sprechers an Microsoft zurückgeben?

Nächste Schritte

Freigeben über

Häufig gestellte Fragen zur Sprachsynthese

Allgemein

Wie funktioniert die Abrechnung von Text-zu-Sprache?

Wie hoch ist die Rate für die Text-zu-Sprache-Synthese-Anfragen?

Wie würden wir dem Endbenutzer mitteilen, dass die Stimme eine synthetische Stimme ist?

Wie kann ich die Latenz für meine Sprach-App verringern?

Welche Ausgabeaudioformate unterstützt Text-to-Speech?

Kann die Stimme angepasst werden, um bestimmte Wörter zu betonen?

Können wir für jedes Gefühl mehrere Abstufungen haben, wie traurig, leicht traurig und so weiter?

Gibt es eine Zuordnung zwischen Viseme IDs und Mundform?

Erstellung von Audioinhalten

Wie kann ich auf eine Lexikondatei verweisen, die ich auf der Plattform für die Audioinhaltserstellung in meinem Code erstellt habe?

Professionelle Sprachoptimierung

Wie viele Daten sind für professionelle Sprachoptimierung erforderlich?

Können doppelte Textsätze in den gleichen Satz von Trainingsdaten eingeschlossen werden?

Können wir mehrere Stile in denselben Satz von Trainingsdaten einschließen?

Funktioniert das Wechseln von Formatvorlagen über SSML für benutzerdefinierte Stimmen?

Wie funktioniert die sprachübergreifende Sprachausgabe mit Sprachen, die eine andere Aussprachestruktur und einen anderen Aufbau haben?

Kann ich professionelle Sprachoptimierung verwenden, um die Aussprache für meine Domäne anzupassen?

Kann ich nach einem Training meine Stimme wieder trainieren?

Ist die Modellversion die gleiche wie die Motorversion?

Können wir die Anzahl der Schulungen mithilfe von Azure Policy oder anderen Funktionen begrenzen? Oder gibt es eine Möglichkeit, falsches Training zu vermeiden?

Kann Microsoft bei der Erstellung unserer Stimme einen Mechanismus hinzufügen, der die unbefugte Nutzung oder den Missbrauch verhindert?

Haben Sie irgendwelche Tipps zu Verträgen oder Verhandlungen mit Sprechern?

Müssen wir die schriftliche Genehmigung des Sprechers an Microsoft zurückgeben?

Nächste Schritte

Feedback

Zusätzliche Ressourcen