Migrieren von einer benutzerdefinierten Stimme zu einer benutzerdefinierten neuronalen Stimme

Artikel
03/11/2024

Wichtig

Die standardmäßige nicht-neuronale Trainingsebene von benutzerdefinierten Stimmen wird ab dem 29. Februar 2024 eingestellt. Sie haben vor dem 29. Februar 2024 möglicherweise eine nicht neuronale benutzerdefinierte Stimme mit Ihrer Sprachressource verwendet. Jetzt können Sie mit Ihren Sprachressourcen nur noch benutzerdefinierte neuronale Stimmen verwenden. Wenn Sie eine nicht neuronale benutzerdefinierte Stimme verwenden, müssen Sie zu einer benutzerdefinierten neuronalen Stimme migrieren.

Mit der benutzerdefinierten neuronalen Stimme können Sie Stimmmodelle mit höherer Qualität erstellen und gleichzeitig den Datenbedarf verringern. Sie können realistischere und natürlichere Stimmen entwickeln, die sich besser für Unterhaltungen eignen. Ihre Kunden und Endbenutzer*innen profitieren auf verantwortungsvolle Weise von der neuesten Sprachsynthesetechnologie.

Benutzerdefinierte Stimme	Benutzerdefinierte neuronale Stimme
Die standardmäßige oder herkömmliche Methode für benutzerdefinierte Stimmen, bei der gesprochene Sprache in phonetische Codeausschnitte unterteilt wird, die mithilfe klassischer Programmierung oder statistischer Methoden neu gemischt und angepasst werden können.	Bei benutzerdefinierten neuronalen Stimmen wird Sprache mithilfe von Deep Neural Networks synthetisiert, die „gelernt“ haben, wie die Phonetik in der natürlichen menschlichen Sprache kombiniert wird, anstatt klassische Programmierung oder statistische Methoden zu verwenden.
Bei benutzerdefinierten Stimmen ¹ wird eine große Menge von Sprachdaten benötigt, um ein menschenähnlicheres Stimmmodell zu generieren. Mit weniger aufgezeichneten Textzeilen wird ein benutzerdefiniertes Standardstimmenmodell tendenziell eher als roboterhaft wahrgenommen.	Mit einer benutzerdefinierten neuronalen Stimme können Sie eine einzigartige Markenstimme in mehreren Sprachen und Stilen unter Verwendung einiger weniger Aufzeichnungen erstellen.

¹ Bei der Erstellung eines benutzerdefinierten Sprachmodells können pro Abonnement maximal 10 .zip-Dateien für Benutzer eines kostenlosen Abonnements (F0) und 500 für Benutzer eines Standardabonnements (S0) importiert werden.

Erforderliche Aktion

Um zu einer benutzerdefinierten neuronalen Stimme migrieren zu können, muss Ihre Anwendung akzeptiert werden. Der Zugriff auf den Dienst für benutzerdefinierte neuronale Stimmen wird nach alleinigem Ermessen von Microsoft auf der Grundlage unserer Qualifizierungskriterien gewährt. Sie müssen sich dazu verpflichten, benutzerdefinierte neuronale Stimmen im Einklang mit unseren Prinzipien für verantwortungsbewusste KI und den Verhaltensregeln zu verwenden.

Tipp

In Speech Studio können Sie sich auch ohne Azure-Konto Stimmbeispiele anhören und die für Ihre Geschäftsanforderungen geeignete Stimme auswählen.

Weitere Informationen zu unserer Zugriffsbeschränkungsrichtlinie finden Sie hier. Zugriff können Sie hier anfordern.
Sobald Ihre Anwendung genehmigt ist, erhalten Sie Zugriff auf das neuronale Trainingsfeature. Achten Sie darauf, sich mit demselben Azure-Abonnements bei Speech Studio anzumelden, das Sie in Ihrer Anwendung bereitstellen.
Bevor Sie ein benutzerdefiniertes Sprachmodell trainieren und bereitstellen können, müssen Sie ein Sprecherprofil erstellen. Für das Profil ist eine Audiodatei erforderlich, die vom Sprecher aufgezeichnet wurde, in der er der Verwendung seiner Sprachdaten zum Trainieren eines benutzerdefinierten Stimmmodells zustimmt.
Aktualisieren Sie den Code in Ihren Apps, wenn Sie einen neuen Endpunkt mit einem neuen Modell erstellt haben.

Benutzerdefinierte Sprachdetails (veraltet)

Die folgenden Abschnitte enthalten ausführliche Informationen zu benutzerdefinierten Stimmen:

Sprachunterstützung

Von benutzerdefinierten Stimmen werden folgende Sprachen (Gebietsschemas) unterstützt:

Sprache	Gebietsschema
Chinesisch (Mandarin, vereinfacht)	`zh-CN`
Chinesisch (Mandarin, vereinfacht), zweisprachig mit Englisch	`zh-CN` (zweisprachig)
Englisch (Indien)	`en-IN`
Walisisch (Großbritannien)	`en-GB`
Englisch (USA)	`en-US`
Französisch (Frankreich)	`fr-FR`
Deutsch (Deutschland)	`de-DE`
Italienisch (Italien)	`it-IT`
Portugiesisch (Brasilien)	`pt-BR`
Spanisch (Mexiko)	`es-MX`

Regionsunterstützung

Wenn Sie einen benutzerdefinierten Voicefont erstellt haben, verwenden Sie den von Ihnen erstellten Endpunkt. Sie können auch die unten aufgeführten Endpunkte verwenden und {deploymentId} durch die Bereitstellungs-ID für Ihr Stimmmodell ersetzen.

Region	Endpunkt
Australien (Osten)	`https://australiaeast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Brasilien Süd	`https://brazilsouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Kanada, Mitte	`https://canadacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA, Mitte	`https://centralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Asien, Osten	`https://eastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
East US	`https://eastus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA (Ost) 2	`https://eastus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Frankreich, Mitte	`https://francecentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Indien, Mitte	`https://centralindia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Japan, Osten	`https://japaneast.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Japan, Westen	`https://japanwest.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Korea, Mitte	`https://koreacentral.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA Nord Mitte	`https://northcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Nordeuropa	`https://northeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA Süd Mitte	`https://southcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Asien, Südosten	`https://southeastasia.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
UK, Süden	`https://uksouth.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
Europa, Westen	`https://westeurope.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA, Westen Mitte	`https://westcentralus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA (Westen)	`https://westus.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`
USA, Westen 2	`https://westus2.voice.speech.microsoft.com/cognitiveservices/v1?deploymentId={deploymentId}`

Nächste Schritte

Testen von „Benutzerdefinierte neuronale Stimme“