Freigeben über


Häufig gestellte Fragen zur Sprachsynthese

Dieser Artikel beantwortet häufig gestellte Fragen zur Text-to-Speech-Funktionalität (TTS). Wenn Sie hier keine Antworten auf Ihre Fragen finden, sehen Sie sich weitere Supportoptionen an.

Allgemein

Wie funktioniert die Abrechnung von Text-zu-Sprache?

Die Nutzung von Sprachsynthese wird pro Zeichen abgerechnet. Überprüfen Sie die Definition der abrechenbaren Zeichen in der Preisnotiz.

Wie hoch ist die Rate für die Text-zu-Sprache-Synthese-Anfragen?

Die Geschwindigkeit der Text-zu-Sprache-Synthese skaliert automatisch, wenn mehr Anfragen eingehen. Für jede Sprachressource wird ein Standardratenlimit festgelegt. Die Rate ist mit geschäftlichen Begründungen anpassbar, und es entstehen keine zusätzlichen Gebühren für die Erhöhung der Ratenbegrenzung. Weitere Einzelheiten finden Sie unter Speech-Dienst – Kontingente und Limits.

Wie würden wir dem Endbenutzer mitteilen, dass die Stimme eine synthetische Stimme ist?

Wir empfehlen, dass jeder Benutzer bei der Nutzung der Text-to-Speech-Funktionalität unseren Verhaltenskodex befolgt. Es gibt mehrere Möglichkeiten, die synthetische Natur der Stimme offenzulegen, einschließlich impliziter und expliziter Andeutungen. Siehe Entwurfsrichtlinien für die Offenlegung.

Wie kann ich die Latenz für meine Sprach-App verringern?

Wir bieten Ihnen einige Tipps, wie Sie die Latenz verringern und Ihren Benutzern die beste Leistung bieten können. Siehe Geringere Wartezeit bei der Sprachsynthese mit dem Speech SDK.

Welche Ausgabeaudioformate unterstützt Text-to-Speech?

Azure KI Text-to-Speech unterstützt verschiedene Streaming- und Nicht-Streaming-Audioformate mit den häufig verwendeten Samplingraten. Alle TTS-Standardstimmchen werden erstellt, um High-Fidelity-Audioausgaben mit 48 kHz und 24 kHz zu unterstützen. Das Audiomaterial kann bei Bedarf auf andere Raten umgetastet werden. Siehe Audioausgaben.

Kann die Stimme angepasst werden, um bestimmte Wörter zu betonen?

Die Anpassung der Betonung wird für einige Stimmen je nach Gebietsschema unterstützt. Weitere Informationen finden Sie unter dem Betonungstag.

Können wir für jedes Gefühl mehrere Abstufungen haben, wie traurig, leicht traurig und so weiter?

Die Anpassung des Stilgrades wird für einige Stimmen je nach Gebietsschema unterstützt. Siehe denTag mstts:express-as.

Gibt es eine Zuordnung zwischen Viseme IDs und Mundform?

Erstellung von Audioinhalten

Wie kann ich auf eine Lexikondatei verweisen, die ich auf der Plattform für die Audioinhaltserstellung in meinem Code erstellt habe?

Zuerst können Sie die Lexikondatei in der Audioinhaltserstellung öffnen und die Lexikondatei-ID abrufen, die sich vor „?fileKind=CustomLexiconFile“ im Dateipfad befindet. Wenn der Dateipfad beispielsweise https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile ist, lautet die Lexikondatei-ID 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Ändern Sie dann in der Audioinhaltserstellung eine Datei, die auf dieses Lexikon verweist, in das SSML-Format. Suchen Sie in der SSML-Datei den XML-Knoten <!--ID=FCB. Dort können Sie den URI der Lexikondatei anhand der erwähnten Datei-ID suchen. Verweisen Sie schließlich auf den URI-Link für die Lexikondatei, indem Sie das SSML-Lexikonelement in Ihrem Code verwenden. Wenn Sie beispielsweise den XML-Knoten <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}} ermitteln, können Sie den Lexikondatei-URI https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml abrufen.

Professionelle Sprachoptimierung

Wie viele Daten sind für professionelle Sprachoptimierung erforderlich?

Sie benötigen Schulungsdaten von mindestens 300 Zeilen Aufzeichnungen (oder ca. 30 Minuten Spracherkennung) für professionelle Sprachoptimierung. Wir raten zu 2.000 Zeilen Aufzeichnungen (oder etwa 2-3 Stunden Sprache), um eine Stimme für die Produktion zu erstellen. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Können doppelte Textsätze in den gleichen Satz von Trainingsdaten eingeschlossen werden?

Nein. Der Dienst kennzeichnet die doppelten Sätze und behält nur den ersten importierten Satz bei. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Können wir mehrere Stile in denselben Satz von Trainingsdaten einschließen?

Es wird empfohlen, den Stil in einem Satz von Trainingsdaten konsistent zu halten. Wenn die Stile unterschiedlich sind, fügen Sie sie in verschiedene Trainingssätze ein. Berücksichtigen Sie in diesem Fall die Verwendung der mehrstufigen Trainingsmethode professioneller VoIP-Feinabstimmungen. Die Kriterien für die Skriptauswahl finden Sie unter Aufnehmen von Sprachproben.

Funktioniert das Wechseln von Formatvorlagen über SSML für benutzerdefinierte Stimmen?

Das Wechseln von Formatvorlagen über SSML funktioniert sowohl für mehrformatige Standardstimden als auch für benutzerdefinierte Stimmen mit mehreren Stilen. Mit dem Mehrstiltraining können Sie eine Stimme erstellen, die in verschiedenen Stilen spricht, und Sie können diese Stile auch über SSML anpassen.

Wie funktioniert die sprachübergreifende Sprachausgabe mit Sprachen, die eine andere Aussprachestruktur und einen anderen Aufbau haben?

Satzstruktur und Aussprache unterscheiden sich natürlich zwischen Sprachen wie Englisch und Japanisch. Jede neuronale Stimme wird mit Audiodaten trainiert, die von muttersprachlichen Sprechern aufgenommen wurden. Bei der sprachenübergreifenden Stimme übertragen wir die wichtigsten Merkmale wie das Timbre, um wie der ursprüngliche Sprecher zu klingen und die richtige Aussprache zu bewahren. Eine sprachübergreifende Stimme wird zum Beispiel die muttersprachliche Art und Weise verwenden, Japanisch zu sprechen und trotzdem ähnlich (aber nicht genau) wie der englische Originalsprecher klingen.

Kann ich professionelle Sprachoptimierung verwenden, um die Aussprache für meine Domäne anzupassen?

Professionelle Sprachoptimierung ermöglicht Es Ihnen, eine Markenstimme für Ihr Unternehmen zu schaffen. Sie können es auch für Ihre Domain optimieren. Wir empfehlen Ihnen, domänenspezifische Beispiele in Ihre Trainingsdaten aufzunehmen, um die Natürlichkeit zu erhöhen. Die Aussprache wird jedoch standardmäßig vom Sprachdienst definiert. Wir unterstützen keine Ausspracheanpassung mit professioneller Sprachoptimierung. Wenn Sie die Aussprache für Ihre Stimme anpassen möchten, verwenden Sie SSML. Siehe Aussprache mit der Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML)

Kann ich nach einem Training meine Stimme wieder trainieren?

Sie können erneut trainieren. Jedes Training erstellt ein neues Stimmmodell. Für jedes Training wird eine Gebühr erhoben.

Ist die Modellversion die gleiche wie die Motorversion?

Nein. Die Modellversion unterscheidet sich von der Engineversion. Die Modellversion ist die Version des Trainingsrezepts für Ihr Modell und variiert je nach den unterstützten Funktionen und der Trainingszeit des Modells. Sie Sprachsynthese-Engines von Azure KI Services werden regelmäßig aktualisiert, um das neueste Sprachmodell zu erfassen, das die Aussprache der Sprache definiert. Nachdem Sie Ihre Stimme trainiert haben, können Sie sie auf das neue Sprachmodell anwenden, indem Sie auf die neueste Modulversion aktualisieren. Wenn ein neues Modul verfügbar ist, werden Sie aufgefordert, Ihr neuronales Stimmmodell zu aktualisieren. Siehe Aktualisieren der Modulversion für Ihr Stimmmodell.

Können wir die Anzahl der Schulungen mithilfe von Azure Policy oder anderen Funktionen begrenzen? Oder gibt es eine Möglichkeit, falsches Training zu vermeiden?

Wenn Sie die Berechtigung zum Training einschränken wollen, können Sie die Benutzerrollen und den Zugriff einschränken. Siehe Rollenbasierte Zugriffssteuerung für Speech-Ressourcen.

Kann Microsoft bei der Erstellung unserer Stimme einen Mechanismus hinzufügen, der die unbefugte Nutzung oder den Missbrauch verhindert?

Das Sprachmodell kann nur von Ihnen selbst mit Ihrem eigenen Token verwendet werden. Auch Microsoft verwendet Ihre Daten nicht. Siehe Daten, Datenschutz und Sicherheit. Sie können auch beantragen, dass Ihre Stimme mit Wasserzeichen versehen wird, um Ihr Modell zu schützen. Siehe Microsoft Azure Neural TTS führt den Wasserzeichen-Algorithmus für die Identifizierung synthetischer Stimmen ein.

Haben Sie irgendwelche Tipps zu Verträgen oder Verhandlungen mit Sprechern?

Wir geben keine Empfehlungen zu Verträgen ab. Es ist Sache des Kunden und des Sprechers, die Bedingungen auszuhandeln. Allerdings sollten Sie sicherstellen, dass der Sprecher die Funktionalitäten von Text-to-Speech, einschließlich der Möglichkeiten und potenziellen Risiken, versteht und sowohl im Vertrag als auch in einer mündlichen Erklärung seine ausdrückliche Zustimmung zur Erstellung einer synthetischen Version seiner Stimme gibt. Siehe Offenlegung für Sprecher.

Müssen wir die schriftliche Genehmigung des Sprechers an Microsoft zurückgeben?

Microsoft braucht keine schriftliche Genehmigung, doch Sie müssen die Zustimmung Ihrer Sprecher einholen. Der Sprecher muss außerdem die Einverständniserklärung aufnehmen und in Speech Studio hochladen, bevor das Training beginnen kann. Siehe Einrichten von VoIP-Talenten für professionelle VoIP-Feinabstimmungen.