Was ist benutzerdefinierte Stimme?

2025-06-08

Individuelle Sprache ist eine Text-zu-Sprache-Funktion, mit der Sie eine einzigartige, angepasste, synthetische Stimme für Ihre Anwendungen erstellen können. Mit benutzerdefinierter Stimme können Sie eine sehr natürlich klingende Stimme für Ihre Marke oder Ihre Charaktere erstellen, indem Sie menschliche Sprachbeispiele als Feinabstimmungsdaten bereitstellen.

Wichtig

Der benutzerdefinierte Sprachzugriff ist auf der Grundlage von Berechtigungs- und Nutzungskriterien eingeschränkt . Fordern Sie den Zugriff über das Aufnahmeformular an.

Von Haus aus kann Text-to-Speech mit Standardstimmen für jede unterstützte Sprache verwendet werden. Die Standardstimmen funktionieren in den meisten Text-zu-Sprache-Szenarien gut, wenn keine besondere Stimme erforderlich ist.

Benutzerdefinierte Stimme basiert auf der neuralen Text-zu-Sprache-Technologie und dem mehrsprachigen, multilautsprecherischen, universellen Modell. Sie können synthetische Stimmen erstellen, die reich an Sprechstilen oder über Sprachgrenzen hinweg anpassbar sind. Die realistische und natürliche klangliche Stimme der benutzerdefinierten Stimme kann Marken darstellen, Maschinen personifizieren und Benutzern die Interaktion mit Anwendungen ermöglichen. Hier finden Sie Informationen zu den unterstützten Sprachen für die benutzerdefinierte Stimme.

Wie funktioniert es?

Um eine benutzerdefinierte Stimme zu erstellen, verwenden Sie Speech Studio , um die aufgezeichneten Audiodaten und die entsprechenden Skripts hochzuladen, das Modell zu trainieren und die Stimme auf einem benutzerdefinierten Endpunkt bereitzustellen.

Das Erstellen einer großartigen benutzerdefinierten Stimme erfordert eine sorgfältige Qualitätskontrolle in jedem Schritt, von der Sprachentwurfs- und Datenvorbereitung bis zur Bereitstellung des VoIP-Modells für Ihr System.

Berücksichtigen Sie bei Ihrem Einstieg in Speech Studio diese Überlegungen:

Entwerfen Sie eine Persona der Stimme, die Ihre Marke repräsentiert, mithilfe eines kurzen Persona-Dokuments. In diesem Dokument werden Elemente wie die Merkmale der Stimme und der Charakter hinter der Stimme definiert. Dies hilft, den Prozess der Erstellung eines benutzerdefinierten Sprachmodells zu führen, einschließlich der Definition der Skripts, der Auswahl Ihres Sprachtalents, der Schulung und der Sprachoptimierung.
Wählen Sie das Aufzeichnungsskript aus, das die Benutzerszenarien für Ihre Stimme darstellt. Sie können z. B. die Ausdrücke aus Botkonversationen als Aufzeichnungsskript verwenden, wenn Sie einen Kundendienstbot erstellen. Fügen Sie verschiedene Satztypen in Ihre Skripts ein, einschließlich Aussagen, Fragen und Ausrufen.

Hier ist eine Übersicht über die Schritte zum Erstellen einer benutzerdefinierten Stimme in Speech Studio:

Erstellen Sie ein Projekt, das Ihre Daten, Sprachmodelle, Tests und Endpunkte enthält. Jedes Projekt ist für ein Land/eine Region und eine Sprache spezifisch. Wenn Sie mehrere Stimmen erstellen möchten, empfiehlt es sich, für jede Stimme ein Projekt zu erstellen.
Richten Sie einen Sprecher ein. Bevor Sie eine professionelle Stimme optimieren können, müssen Sie eine Aufzeichnung der Einwilligungserklärung des Stimmtalents einreichen. Die Voice Talent Statement ist eine Aufzeichnung des Sprachtalents, das eine Aussage liest, dass sie der Nutzung ihrer Sprachdaten für professionelle Sprachoptimierung zustimmen.
Bereiten Sie Optimierungsdaten im richtigen Format vor. Es wird empfohlen, die Audioaufzeichnungen in einem professionellen Aufnahmestudio mit entsprechender Qualität zu erfassen, um einen hohen Signal-Rausch-Abstand zu erzielen. Die Qualität des Sprachmodells hängt stark von Ihren Optimierungsdaten ab. Konsistente Lautstärke, Sprechgeschwindigkeit, Tonhöhe und Konsistenz in den ausdrucksvollen Eigenheiten der Sprache sind erforderlich.
Trainieren Sie Ihr Stimmmodell. Wählen Sie mindestens 300 Äußerungen aus, um eine benutzerdefinierte Stimme zu erstellen. Eine Reihe von Datenqualitätsprüfungen werden automatisch ausgeführt, wenn Sie sie hochladen. Um qualitativ hochwertige Stimmmodelle zu erstellen, sollten Sie alle Fehler beheben und die Übermittlung erneut durchführen.
Testen Sie Ihre Stimme. Bereiten Sie Testskripts für Ihr Sprachmodell vor, die die verschiedenen Anwendungsfälle für Ihre Apps abdecken. Es wird empfohlen, Skripts innerhalb und außerhalb des Trainingsdatasets zu verwenden, damit Sie die Qualität für verschiedene Inhalte umfassender testen können.
Stellen Sie Ihr Stimmmodell bereit, und verwenden Sie es in Ihren Apps.

Sie können Ihre benutzerdefinierte Stimme entsprechend der Verwendung einer Standardstimme optimieren, anpassen und verwenden. Konvertieren Sie Text in Echtzeit in Sprache oder generieren Sie offline Audioinhalte mit Texteingabe. Sie verwenden die REST-API, das Speech SDK oder Speech Studio.

Tipp

Schauen Sie sich die Codebeispiele im Speech SDK-Repository auf GitHub an, um zu erfahren, wie Sie benutzerdefinierte VoIP in Ihrer Anwendung verwenden.

Der Stil und die Merkmale des trainierten Stimmmodells hängen vom Stil und der Qualität der Aufzeichnungen des Sprechers ab, der für das Training verwendet wird. Sie können jedoch mehrere Anpassungen mithilfe von SSML (Speech Synthesis Markup Language) vornehmen, wenn Sie die API-Aufrufe für Ihr Sprachmodell vornehmen, um synthetische Sprache zu generieren. SSML ist die Markupsprache, die für die Kommunikation mit dem Sprachsynthese-Dienst verwendet wird, um Text in Audio zu konvertieren. Die Anpassungen, die Sie vornehmen können, umfassen die Änderung von Tonhöhe, Geschwindigkeit, Intonation und Aussprachekorrektur. Wenn das Stimmmodell mit mehreren Stilen erstellt wird, können Sie auch SSML verwenden, um die Stile zu wechseln.

Komponentensequenz

Benutzerdefinierte Stimme besteht aus drei Hauptkomponenten: dem Textanalysator, dem neuralen akustischen Modell und dem neuralen Vocoder. Zum Erzeugen einer natürlichen synthetischen Stimme aus Text wird der Text zunächst in die Textanalyse eingegeben, die eine Ausgabe in Form einer Phonemfolge liefert. Ein Phonem ist eine grundlegende Lauteinheit, die ein Wort in einer bestimmten Sprache von einem anderen unterscheidet. Eine Folge von Phonemen definiert die Aussprache der im Text vorgesehenen Wörter.

Als Nächstes geht die Phonemsequenz in das neuronale Akustikmodell ein, um Akustikfeatures vorherzusagen, die Sprachsignale definieren. Zu den Akustikfeatures gehören das Timbre, der Sprechstil, die Geschwindigkeit, Intonationen und Betonungsmuster. Schließlich wandelt der neuronale Vocoder die akustischen Features in hörbare Wellen um, sodass synthetische Sprache erzeugt wird.

Flussdiagramm, das die Komponenten der benutzerdefinierten Stimme zeigt.

Neuronale Modelle zur Sprachsynthese werden mithilfe von Deep Neural Networks trainiert, die auf Aufnahmestichproben menschlicher Stimmen basieren. Weitere Informationen finden Sie in diesem Microsoft-Blogbeitrag. Weitere Informationen zum Trainieren eines neuronalen Vocoders finden Sie in diesem Microsoft-Blogbeitrag.

Verantwortungsvolle KI

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Freigeben über

Was ist benutzerdefinierte Stimme?

Wie funktioniert es?

Komponentensequenz

Verantwortungsvolle KI

Nächste Schritte

Feedback

Zusätzliche Ressourcen