Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel erfahren Sie, wie Sie eine professionelle Stimme über das Microsoft Foundry-Portal optimieren.
Wichtig
Professionelle Sprachoptimierung ist derzeit nur in einigen Regionen verfügbar. Nachdem Ihr Sprachmodell in einer unterstützten Region trainiert wurde, können Sie das professionelle Sprachmodell kopieren und bei Bedarf in eine Microsoft Foundry-Ressource in einer anderen Region übertragen. Weitere Informationen finden Sie in der Tabelle "Sprachdienst" in den Fußnoten.
Die Schulungsdauer hängt davon ab, wie viele Daten Sie verwenden. Es dauert etwa 10 Rechenstunden im Durchschnitt, um eine professionelle Stimme zu optimieren. Mit einer Microsoft Findry-Standardressource (S0) können Sie vier Stimmen gleichzeitig trainieren. Wenn Sie das Limit erreichen, warten Sie, bis mindestens eine Ihrer Sprachmodelle die Schulung abgeschlossen hat, und versuchen Sie es dann erneut.
Hinweis
Obwohl die Gesamtanzahl der pro Trainingsmethode erforderlichen Stunden variiert, gilt der gleiche Einzelpreis für jeden. Weitere Informationen finden Sie in den Details zu den Preisen für benutzerdefinierte neuronale Trainings.
Auswählen einer Schulungsmethode
Nachdem Sie Ihre Datendateien überprüft haben, verwenden Sie sie, um Ihr benutzerdefiniertes VoIP-Modell zu erstellen. Wenn Sie eine benutzerdefinierte Stimme erstellen, können Sie diese mit einer der folgenden Methoden trainieren:
Neural: Erstellen Sie eine Stimme in derselben Sprache wie Ihre Schulungsdaten.
Neural - HD Voice: Erstellen Sie eine HD-Stimme in derselben Sprache Ihrer Schulungsdaten. Azure neurale HD-Stimmen basieren auf LLM und sind für dynamische Gespräche optimiert. Erfahren Sie hier mehr über neurale HD-Stimmen.
Neural - mehrsprachig: Erstellen Sie eine Stimme, die mehrere Sprachen spricht, indem Sie die Einzelsprachschulungsdaten verwenden. Beispielsweise können Sie mit den primären Trainingsdaten
en-USeine Stimme erstellen, dieen-US,de-DE,zh-CNusw. als sekundäre Sprachen spricht.Die primäre Sprache der Schulungsdaten und der sekundären Sprachen muss sich in den Sprachen befinden, die für mehrsprachige Sprachschulungen unterstützt werden . Sie müssen keine Schulungsdaten in den sekundären Sprachen vorbereiten.
Neural - Multistil: Erstellen Sie eine benutzerdefinierte Stimme, die in mehreren Stilen und Emotionen spricht, ohne neue Schulungsdaten hinzuzufügen. Mehrere Stimmstile sind nützlich für Videospielfiguren, Chatbots, Hörbücher, Inhaltsleser und vieles mehr.
Um eine mehrstilige Stimme zu erstellen, müssen Sie allgemeine Trainingsdaten vorbereiten, und zwar mindestens 300 Äußerungen. Wählen Sie einen oder mehrere der vordefinierten Zielsprechstile aus. Sie können auch mehrere benutzerdefinierte Formatvorlagen erstellen, indem Sie Stilbeispiele mit mindestens 100 Äußerungen pro Formatvorlage als zusätzliche Schulungsdaten für dieselbe Stimme bereitstellen. Die unterstützten voreingestellten Formatvorlagen variieren je nach sprachen. Sehen Sie sich die verfügbaren voreingestellten Formatvorlagen in verschiedenen Sprachen an.
Neural - cross lingual: Erstellen Sie eine Stimme, die eine andere Sprache als Ihre Schulungsdaten spricht. Beispielsweise können Sie mit den
zh-CNSchulungsdaten eine Stimme erstellen, die sprichten-US.Die Sprache der Schulungsdaten und der Zielsprache müssen beide eine der Sprachen sein, die für sprachübergreifendes Stimmtraining unterstützt werden. Sie müssen keine Schulungsdaten in der Zielsprache vorbereiten, ihr Testskript muss sich jedoch in der Zielsprache befinden.
Die Sprache der Trainingsdaten muss zu den unterstützten Sprachen für das benutzerdefinierte Sprach-, sprachübergreifende oder mehrere Stile umfassende Training zählen.
Schulen Sie Ihr benutzerdefiniertes Sprachmodell
Führen Sie die folgenden Schritte aus, um eine benutzerdefinierte Stimme im Microsoft Foundry-Portal zu erstellen:
Im neuen Microsoft Foundry-Portal verwendet der Assistent Ein Modell optimieren eine einzige Dropdownliste Trainingsmethode, die alle Varianten abdeckt. Diese Schritte fahren mit dem Assistenten fort, den Sie in "Professionelle Sprache erstellen" geöffnet haben, nachdem Sie Schulungsdaten im Schulungsdatenbereich hochgeladen haben.
- Wählen Sie im Bereich "Schulungsdaten " die Schulungsmethode aus, die Ihrem Szenario entspricht. Zu den Optionen gehören Neural - Standard, Neural - HD, Neural - mehrsprachig, Neural - mehrere Stile und Neural - sprachübergreifend. Ausführliche Informationen zu den einzelnen Methoden finden Sie unter "Auswählen einer Schulungsmethode".
- Wählen Sie die Trainingsrezept-Version aus. Die neueste Version ist standardmäßig ausgewählt. Die unterstützten Features und Schulungszeiten können je nach Version variieren. In einigen Fällen können Sie eine frühere Version auswählen, um die Schulungszeit zu reduzieren.
- Bestätigen Sie die Modellsprache.
- Wählen Sie im Dropdownmenü Dataset auswählen das Dataset aus, das Sie hochgeladen haben.
- Wählen Sie "Weiter" aus.
- Überprüfen Sie im Bereich "Überprüfen " die Einstellungen, und akzeptieren Sie die Nutzungsbedingungen.
- Wählen Sie "Trainieren" aus, um mit dem Training des Modells zu beginnen.
Überwachen des Schulungsvorgangs
In der Tabelle "Train-Modell " wird ein neuer Eintrag angezeigt, der diesem neu erstellten Modell entspricht. Der Status spiegelt den Prozess der Konvertierung Ihrer Daten in ein VoIP-Modell wider, wie in dieser Tabelle beschrieben:
| Staat | Bedeutung |
|---|---|
| Verarbeitung | Ihr Sprachmodell wird erstellt. |
| Erfolgreich | Ihr Sprachmodell wurde erstellt und kann bereitgestellt werden. |
| Fehlgeschlagen | Ihr Sprachmodell ist beim Training fehlgeschlagen. Die Ursache des Fehlers kann z. B. nicht angezeigte Datenprobleme oder Netzwerkprobleme sein. |
| Abgebrochen | Die Schulung für Ihr VoIP-Modell wurde abgebrochen. |
Während der Modellstatus "Verarbeiten" lautet, können Sie das Modell auswählen und dann " Schulung abbrechen" auswählen, um die Schulung abzubrechen. Für diese abgebrochene Schulung werden Ihnen keine Kosten berechnet.
Nachdem Sie die Schulung des Modells erfolgreich abgeschlossen haben, können Sie die Modelldetails überprüfen und Ihr VoIP-Modell testen.
Umbenennen des Modells
Sie müssen Ihr Modell klonen, um es umzubenennen. Sie können das Modell nicht direkt umbenennen.
- Wählen Sie das Modell aus.
- Wählen Sie das Klonmodell aus, um einen Klon des Modells mit einem neuen Namen im aktuellen Projekt zu erstellen.
- Geben Sie den neuen Namen im Fenster " Clone Voice model " ein.
- Wählen Sie "Absenden" aus. Der Text Neural wird automatisch als Suffix zum neuen Modellnamen hinzugefügt.
Testen Sie Ihr Sprachmodell
Nachdem Ihr Sprachmodell erfolgreich erstellt wurde, können Sie die generierten Beispiel-Audiodateien verwenden, um es zu testen, bevor Sie es bereitstellen.
Hinweis
Neural - multilingual und Neural - HD Voice unterstützen diese Art von Tests nicht.
Die Qualität der Stimme hängt von vielen Faktoren ab, z. B.:
- Die Größe der Schulungsdaten.
- Die Qualität der Aufzeichnung.
- Die Genauigkeit der Transkriptdatei.
- Wie gut die aufgezeichnete Stimme in den Schulungsdaten mit der Persönlichkeit der entworfenen Stimme für Ihren vorgesehenen Anwendungsfall übereinstimmt.
Wählen Sie DefaultTests unter Testen aus, um sich die Beispielaudiodateien anzuhören. Die Standardtestbeispiele umfassen 100 Beispielaudiodateien, die während der Schulung automatisch generiert werden, um Das Modell zu testen. Zusätzlich zu diesen 100 Audiodateien, die standardmäßig bereitgestellt werden, werden Ihre eigenen Testskript-Äußerungen auch dem DefaultTests-Satz hinzugefügt. Diese Ergänzung beträgt höchstens 100 Äußerungen. Sie werden für die Tests mit DefaultTests nicht in Rechnung gestellt.
Wenn Sie Ihre eigenen Testskripts hochladen möchten, um Ihr Modell weiter zu testen, wählen Sie "Testskripts hinzufügen " aus, um Ihr eigenes Testskript hochzuladen.
Überprüfen Sie vor dem Hochladen des Testskripts die Testskriptanforderungen. Für die zusätzlichen Tests bei der Batchsynthese werden Ihnen Kosten basierend auf der Anzahl der berechneten Zeichen in Rechnung gestellt. Weitere Informationen finden Sie unter Preise für Azure Speech in Foundry Tools.
Wählen Sie unter " Testskripts hinzufügen" die Option " Nach einer Datei suchen " aus, um Ihr eigenes Skript auszuwählen, und wählen Sie dann "Hinzufügen" aus, um sie hochzuladen.
Testen von Skriptanforderungen
Das Testskript muss eine.txtDatei sein , die kleiner als 1 MB ist. Unterstützte Codierungsformate sind ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE oder UTF-16-BE.
Im Gegensatz zu den Schulungstranskriptdateien sollte das Testskript die Äußerungs-ID ausschließen, bei der es sich um den Dateinamen der einzelnen Äußerungen handelt. Andernfalls werden die IDs ausgesprochen.
Hier sehen Sie einen Beispielsatz von Äußerungen in einer .txt Datei:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
Jeder Absatz der Äußerung führt zu einem separaten Audio. Wenn Sie alle Sätze in einem Audio kombinieren möchten, machen Sie sie zu einem einzelnen Absatz.
Hinweis
Die generierten Audiodateien sind eine Kombination aus den automatischen Testskripts und benutzerdefinierten Testskripts.
Aktualisieren Sie die Engine-Version für Ihr Sprachmodell
Azure Text-zu-Sprache-Engines werden regelmäßig aktualisiert, um das neueste Sprachmodell zu erfassen, das die Aussprache der Sprache definiert. Nachdem Sie Ihre Stimme trainiert haben, können Sie Ihre Stimme auf das neue Sprachmodell anwenden, indem Sie auf die neueste Modulversion aktualisieren.
- Wenn ein neuer Engine verfügbar ist, werden Sie aufgefordert, Ihr neuronales Sprachmodell zu aktualisieren.
- Wechseln Sie zur Modelldetailseite, und folgen Sie den Anweisungen auf dem Bildschirm, um das neueste Modul zu installieren.
- Alternativ können Sie die neueste Engine später installieren, um Ihr Modell auf die neueste Engine-Version zu aktualisieren. Für das Update der Engine werden keine Kosten berechnet. Die vorherigen Versionen bleiben erhalten.
- Sie können alle Motorversionen für das Modell aus der Motorversionsliste überprüfen oder entfernen, wenn Sie sie nicht mehr benötigen.
Die aktualisierte Version wird automatisch als Standard festgelegt. Sie können die Standardversion jedoch ändern, indem Sie eine Version aus der Dropdownliste auswählen und "Als Standard festlegen" auswählen.
Wenn Sie jede Engine-Version Ihres Stimmmodells testen möchten, können Sie eine Version in der Liste und dann DefaultTests unter Testen auswählen, um sich die Beispielaudiodateien anzuhören. Wenn Sie Ihre eigenen Testskripts hochladen möchten, um Ihre aktuelle Modulversion weiter zu testen, stellen Sie zuerst sicher, dass die Version als Standard festgelegt ist, und führen Sie dann die Schritte unter Testen Des VoIP-Modells aus.
Durch das Aktualisieren der Engine wird eine neue Version des Modells ohne zusätzliche Kosten erstellt. Nachdem Sie die Modulversion für Ihr VoIP-Modell aktualisiert haben, müssen Sie die neue Version bereitstellen, um einen neuen Endpunkt zu erstellen. Sie können nur die Standardversion bereitstellen.
Nachdem Sie einen neuen Endpunkt erstellt haben, müssen Sie den Datenverkehr an den neuen Endpunkt in Ihrem Produkt übertragen.
Weitere Informationen zu den Funktionen und Grenzwerten dieses Features sowie zu den bewährten Methoden zur Verbesserung der Modellqualität finden Sie unter "Merkmale und Einschränkungen für die Verwendung von benutzerdefinierter Sprache".
Kopieren Sie Ihr Sprachmodell in ein anderes Projekt
Hinweis
In diesem Zusammenhang bezieht sich "Projekt" auf einen Feinabstimmungsvorgang und nicht auf ein Microsoft Foundry-Projekt.
Nach dem Training können Sie Ihr VoIP-Modell in ein anderes Projekt für dieselbe Region oder eine andere Region kopieren.
Sie können beispielsweise ein professionelles Sprachmodell kopieren, das in einer Region trainiert wurde, in ein Projekt für eine andere Region. Professionelle Sprachoptimierung ist derzeit nur in einigen Regionen verfügbar.
So kopieren Sie Ihr benutzerdefiniertes VoIP-Modell in ein anderes Projekt:
- Wählen Sie auf der Registerkarte " Modell trainieren " ein Sprachmodell aus, das Sie kopieren möchten, und wählen Sie dann "In Projekt kopieren" aus.
- Wählen Sie die Ressource Abonnement, Zielregion, Connected KI Service (Foundry-Ressource) und Ziel-Feinabstimmungsvorgang aus, in den Sie das Modell kopieren möchten.
- Wählen Sie "Kopieren" aus, um das Modell zu kopieren.
- Wählen Sie unter der Benachrichtigungsmeldung für das erfolgreiche Kopieren das Ansichtsmodell aus.
Navigieren Sie zu dem Projekt, in das Sie das Modell kopiert haben, um die Modellkopie bereitzustellen.
Nächste Schritte
In diesem Artikel erfahren Sie, wie Sie eine professionelle Stimme über das Speech Studio-Portal optimieren.
Wichtig
Professionelle Sprachoptimierung ist derzeit nur in einigen Regionen verfügbar. Nachdem Ihr Sprachmodell in einer unterstützten Region trainiert wurde, können Sie es bei Bedarf in eine Foundry-Ressource für Sprachverarbeitung in einer anderen Region kopieren. Weitere Informationen finden Sie in der Tabelle "Sprachdienst" in den Fußnoten.
Die Schulungsdauer hängt davon ab, wie viele Daten Sie verwenden. Es dauert etwa 10 Rechenstunden im Durchschnitt, um eine professionelle Stimme zu optimieren. Standardabonnementbenutzer (S0) können vier Stimmen gleichzeitig trainieren. Wenn Sie das Limit erreichen, warten Sie, bis mindestens eine Ihrer Sprachmodelle die Schulung abgeschlossen hat, und versuchen Sie es dann erneut.
Hinweis
Obwohl die Gesamtanzahl der pro Trainingsmethode erforderlichen Stunden variiert, gilt der gleiche Einzelpreis für jeden. Weitere Informationen finden Sie in den Details zu den Preisen für benutzerdefinierte neuronale Trainings.
Auswählen einer Schulungsmethode
Nachdem Sie Ihre Datendateien überprüft haben, verwenden Sie sie, um Ihr benutzerdefiniertes VoIP-Modell zu erstellen. Wenn Sie eine benutzerdefinierte Stimme erstellen, können Sie diese mit einer der folgenden Methoden trainieren:
Neuronal: Erstellen Sie eine Stimme in der Sprache Ihrer Trainingsdaten.
Neural - HD Voice: Erstellen Sie eine HD-Stimme in derselben Sprache Ihrer Schulungsdaten. Azure neurale HD-Stimmen basieren auf LLM und sind für dynamische Gespräche optimiert. Erfahren Sie hier mehr über neurale HD-Stimmen.
Neural - mehrsprachig: Erstellen Sie eine Stimme, die mehrere Sprachen spricht, indem Sie die Einzelsprachschulungsdaten verwenden. Beispielsweise können Sie mit den primären Trainingsdaten
en-USeine Stimme erstellen, dieen-US,de-DE,zh-CNusw. als sekundäre Sprachen spricht.Die primäre Sprache der Schulungsdaten und der sekundären Sprachen muss sich in den Sprachen befinden, die für mehrsprachige Sprachschulungen unterstützt werden . Sie müssen keine Schulungsdaten in den sekundären Sprachen vorbereiten.
Neural - Multistil: Erstellen Sie eine benutzerdefinierte Stimme, die in mehreren Stilen und Emotionen spricht, ohne neue Schulungsdaten hinzuzufügen. Mehrere Stimmstile sind nützlich für Videospielfiguren, Chatbots, Hörbücher, Inhaltsleser und vieles mehr.
Um eine mehrstilige Stimme zu erstellen, müssen Sie allgemeine Trainingsdaten vorbereiten, und zwar mindestens 300 Äußerungen. Wählen Sie einen oder mehrere der vordefinierten Zielsprechstile aus. Sie können auch mehrere benutzerdefinierte Formatvorlagen erstellen, indem Sie Stilbeispiele mit mindestens 100 Äußerungen pro Formatvorlage als zusätzliche Schulungsdaten für dieselbe Stimme bereitstellen. Die unterstützten voreingestellten Formatvorlagen variieren je nach sprachen. Sehen Sie sich die verfügbaren voreingestellten Formatvorlagen in verschiedenen Sprachen an.
Neural - cross lingual: Erstellen Sie eine Stimme, die eine andere Sprache als Ihre Schulungsdaten spricht. Beispielsweise können Sie mit den
zh-CNSchulungsdaten eine Stimme erstellen, die sprichten-US.Die Sprache der Schulungsdaten und der Zielsprache müssen beide eine der Sprachen sein, die für sprachübergreifendes Stimmtraining unterstützt werden. Sie müssen keine Schulungsdaten in der Zielsprache vorbereiten, ihr Testskript muss sich jedoch in der Zielsprache befinden.
Die Sprache der Trainingsdaten muss zu den unterstützten Sprachen für das benutzerdefinierte Sprach-, sprachübergreifende oder mehrere Stile umfassende Training zählen.
Schulen Sie Ihr benutzerdefiniertes Sprachmodell
Führen Sie zum Erstellen einer benutzerdefinierten Stimme in Speech Studio die folgenden Schritte für eine der folgenden Methoden aus:
- Neuronal
- Neural - HD-Stimme
- Neural - mehrsprachig
- Neuronal – mehrformatig
- Neural - sprachübergreifend
Melden Sie sich beim Speech Studio an.
Wählen Sie Benutzerdefinierte Stimme><Ihr Projektname>>Modell trainieren>Neues Modell trainieren.
Wählen Sie Neural als Trainingsmethode für Ihr Modell und dann "Weiter" aus. Wenn Sie eine andere Trainingsmethode verwenden möchten, lesen Sie Neural - sprachübergreifend oder Neural - multistil oder Neural - mehrsprachig oder Neural - HD Voice.
Wählen Sie eine Version des Schulungsrezepts für Ihr Modell aus. Die neueste Version ist standardmäßig ausgewählt. Die unterstützten Features und Schulungszeiten können je nach Version variieren. Normalerweise empfehlen wir die neueste Version. In einigen Fällen können Sie eine frühere Version auswählen, um die Schulungszeit zu reduzieren. Weitere Informationen zu zweisprachigem Training und zu Unterschieden zwischen Gebietsschemas finden Sie unter Zweisprachiges Training.
Hinweis
Modellversionen
V3.0V7.0undV8.0wurden am 25. Juli 2025 eingestellt. Die Sprachmodelle, die bereits in diesen eingestellten Versionen erstellt wurden, sind nicht betroffen.Wählen Sie die Daten aus, die Sie für schulungen verwenden möchten. Doppelte Audionamen werden aus der Schulung entfernt. Stellen Sie sicher, dass die ausgewählten Daten nicht dieselben Audionamen für mehrere .zip Dateien enthalten.
Sie können nur erfolgreich verarbeitete Datasets für Schulungen auswählen. Wenn Ihr Schulungssatz in der Liste nicht angezeigt wird, überprüfen Sie Ihren Datenverarbeitungsstatus.
Wählen Sie eine Sprecherdatei mit der Voice Talent Statement aus, die dem Sprecher in Ihren Schulungsdaten entspricht.
Wählen Sie "Weiter" aus.
Jede Schulung generiert automatisch 100 Beispielaudiodateien, damit Sie das Modell mit einem Standardskript testen können.
Optional können Sie auch "Eigenes Testskript hinzufügen " auswählen und Ihr eigenes Testskript mit bis zu 100 Äußerungen bereitstellen, um das Modell ohne zusätzliche Kosten zu testen. Die generierten Audiodateien sind eine Kombination aus den automatischen Testskripts und benutzerdefinierten Testskripts. Weitere Informationen finden Sie unter Testskriptanforderungen.
Geben Sie einen Namen ein, um das Modell zu identifizieren. Wählen Sie einen Namen sorgfältig aus. Der Modellname wird als Name der Stimme für Ihre Sprachsyntheseanforderung in der SDK- und SSML-Eingabe verwendet. Es sind nur Buchstaben, Zahlen und ein paar Satzzeichen zulässig. Verwenden Sie unterschiedliche Namen für verschiedene neurale Sprachmodelle.
Geben Sie optional die Beschreibung ein, um das Modell zu identifizieren. Eine häufige Verwendung der Beschreibung besteht darin, die Namen der Daten aufzuzeichnen, die Sie zum Erstellen des Modells verwendet haben.
Wählen Sie "Weiter" aus.
Überprüfen Sie die Einstellungen, und wählen Sie das Feld aus, um die Nutzungsbedingungen zu akzeptieren.
Wählen Sie "Absenden" aus, um die Schulung des Modells zu starten.
Zweisprachige Ausbildung
Wenn Sie den Neural-Trainingstyp auswählen, können Sie eine Stimme trainieren, um in mehreren Sprachen zu sprechen. Die Gebietsschemas zh-CN, zh-HK und zh-TW unterstützen ein zweisprachiges Training, bei dem die Stimme sowohl Chinesisch als auch Englisch sprechen kann. Je nach Schulungsdaten kann die synthetisierte Stimme englisch mit einem englischen nativen Akzent oder Englisch mit demselben Akzent wie die Schulungsdaten sprechen.
Hinweis
Damit eine Stimme im zh-CN Gebietsschema Englisch mit demselben Akzent wie die Beispieldaten spricht, sollten Sie englische Daten in einen Kontext-Trainingssatz hochladen oder wählen Chinese (Mandarin, Simplified), English bilingual, wenn Sie ein Projekt erstellen oder das Gebietsschema zh-CN (English bilingual) für die Trainingssatzdaten mithilfe der REST-API angeben.
Schließen Sie in Ihrem Kontextschulungssatz mindestens 100 Sätze oder 10 Minuten englischer Inhalte ein, und überschreiten Sie nicht die Menge der chinesischen Inhalte.
Die folgende Tabelle zeigt die Unterschiede zwischen den Locales:
| Speech Studio-Gebietsschema | REST-API-Gebietsschema | Zweisprachige Unterstützung |
|---|---|---|
Chinese (Mandarin, Simplified) |
zh-CN |
Wenn Ihre Beispieldaten Englisch enthalten, spricht die synthetisierte Stimme Englisch mit einem englischen nativen Akzent anstelle desselben Akzents wie die Beispieldaten, unabhängig von der Menge der englischen Daten. |
Chinese (Mandarin, Simplified), English bilingual |
zh-CN (English bilingual) |
Wenn Sie möchten, dass die synthetisierte Stimme Englisch mit demselben Akzent wie die Beispieldaten spricht, empfehlen wir, mehr als 10% englischen Daten in Ihren Schulungssatz einzuschl. Andernfalls ist der englisch sprechende Akzent möglicherweise nicht ideal. |
Chinese (Cantonese, Simplified) |
zh-HK |
Wenn Sie eine synthetisierte Stimme trainieren möchten, die Englisch mit demselben Akzent wie Ihre Beispieldaten spricht, stellen Sie sicher, dass Sie mehr als 10% englischen Daten in Ihrem Schulungssatz bereitstellen. Andernfalls wird standardmäßig ein englischer nativer Akzent verwendet. Der Schwellenwert für 10% wird basierend auf den daten berechnet, die nach dem erfolgreichen Hochladen akzeptiert wurden, nicht auf die Daten vor dem Hochladen. Wenn einige hochgeladene englische Daten aufgrund von Fehlern abgelehnt werden und den Schwellenwert von 10% nicht erfüllen, wird die synthetisierte Stimme standardmäßig auf einen englischen nativen Akzent festgelegt. |
Chinese (Taiwanese Mandarin, Traditional) |
zh-TW |
Wenn Sie eine synthetisierte Stimme trainieren möchten, die Englisch mit demselben Akzent wie Ihre Beispieldaten spricht, stellen Sie sicher, dass Sie mehr als 10% englischen Daten in Ihrem Schulungssatz bereitstellen. Andernfalls wird standardmäßig ein englischer nativer Akzent verwendet. Der Schwellenwert für 10% wird basierend auf den daten berechnet, die nach dem erfolgreichen Hochladen akzeptiert wurden, nicht auf die Daten vor dem Hochladen. Wenn einige hochgeladene englische Daten aufgrund von Fehlern abgelehnt werden und den Schwellenwert von 10% nicht erfüllen, wird die synthetisierte Stimme standardmäßig auf einen englischen nativen Akzent festgelegt. |
Überwachen des Schulungsvorgangs
In der Tabelle "Train-Modell " wird ein neuer Eintrag angezeigt, der diesem neu erstellten Modell entspricht. Der Status spiegelt den Prozess der Konvertierung Ihrer Daten in ein VoIP-Modell wider, wie in dieser Tabelle beschrieben:
| Staat | Bedeutung |
|---|---|
| Verarbeitung | Ihr Sprachmodell wird erstellt. |
| Erfolgreich | Ihr Sprachmodell wurde erstellt und kann bereitgestellt werden. |
| Fehlgeschlagen | Ihr Sprachmodell ist beim Training fehlgeschlagen. Die Ursache des Fehlers kann z. B. nicht angezeigte Datenprobleme oder Netzwerkprobleme sein. |
| Abgebrochen | Die Schulung für Ihr VoIP-Modell wurde abgebrochen. |
Während der Modellstatus Verarbeitung ist, können Sie Schulung abbrechen auswählen, um Ihr Sprachmodell abzubrechen. Für diese abgebrochene Schulung werden Ihnen keine Kosten berechnet.
Nachdem Sie die Schulung des Modells erfolgreich abgeschlossen haben, können Sie die Modelldetails überprüfen und Ihr VoIP-Modell testen.
Sie können das Tool zum Erstellen von Audioinhalten in Speech Studio verwenden, um Audio zu erstellen und Ihre bereitgestellte Stimme zu optimieren. Falls für Ihre Stimme zutreffend, können Sie eine von mehreren Stilen auswählen.
Umbenennen des Modells
Wenn Sie das erstellte Modell umbenennen möchten, wählen Sie das Klonmodell aus, um einen Klon des Modells mit einem neuen Namen im aktuellen Projekt zu erstellen.
Geben Sie den neuen Namen im Fenster Sprachmodell klonen ein, wählen Sie Absenden aus. Der Text Neural wird automatisch als Suffix zum neuen Modellnamen hinzugefügt.
Testen Sie Ihr Sprachmodell
Nachdem Ihr Sprachmodell erfolgreich erstellt wurde, können Sie die generierten Beispiel-Audiodateien verwenden, um es zu testen, bevor Sie es bereitstellen.
Hinweis
Neural - multilingual und Neural - HD Voice unterstützen diese Art von Tests nicht.
Die Qualität der Stimme hängt von vielen Faktoren ab, z. B.:
- Die Größe der Schulungsdaten.
- Die Qualität der Aufzeichnung.
- Die Genauigkeit der Transkriptdatei.
- Wie gut die aufgezeichnete Stimme in den Schulungsdaten mit der Persönlichkeit der entworfenen Stimme für Ihren vorgesehenen Anwendungsfall übereinstimmt.
Wählen Sie DefaultTests unter Testen aus, um sich die Beispielaudiodateien anzuhören. Die Standardtestbeispiele umfassen 100 Beispielaudiodateien, die während der Schulung automatisch generiert werden, um Das Modell zu testen. Zusätzlich zu diesen 100 Audiodateien, die standardmäßig bereitgestellt werden, werden Ihre eigenen Testskript-Äußerungen auch dem DefaultTests-Satz hinzugefügt. Diese Ergänzung beträgt höchstens 100 Äußerungen. Sie werden für die Tests mit DefaultTests nicht in Rechnung gestellt.
Wenn Sie Ihre eigenen Testskripts hochladen möchten, um Ihr Modell weiter zu testen, wählen Sie "Testskripts hinzufügen " aus, um Ihr eigenes Testskript hochzuladen.
Überprüfen Sie vor dem Hochladen des Testskripts die Testskriptanforderungen. Für die zusätzlichen Tests bei der Batchsynthese werden Ihnen Kosten basierend auf der Anzahl der berechneten Zeichen in Rechnung gestellt. Weitere Informationen finden Sie unter Preise für Azure Speech in Foundry Tools.
Wählen Sie unter " Testskripts hinzufügen" die Option " Nach einer Datei suchen " aus, um Ihr eigenes Skript auszuwählen, und wählen Sie dann "Hinzufügen" aus, um sie hochzuladen.
Testen von Skriptanforderungen
Das Testskript muss eine.txtDatei sein , die kleiner als 1 MB ist. Unterstützte Codierungsformate sind ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE oder UTF-16-BE.
Im Gegensatz zu den Schulungstranskriptdateien sollte das Testskript die Äußerungs-ID ausschließen, bei der es sich um den Dateinamen der einzelnen Äußerungen handelt. Andernfalls werden die IDs ausgesprochen.
Hier sehen Sie einen Beispielsatz von Äußerungen in einer .txt Datei:
This is the waistline, and it's falling.
We have trouble scoring.
It was Janet Maslin.
Jeder Absatz der Äußerung führt zu einem separaten Audio. Wenn Sie alle Sätze in einem Audio kombinieren möchten, machen Sie sie zu einem einzelnen Absatz.
Hinweis
Die generierten Audiodateien sind eine Kombination aus den automatischen Testskripts und benutzerdefinierten Testskripts.
Aktualisieren Sie die Engine-Version für Ihr Sprachmodell
Azure Text-zu-Sprache-Engines werden regelmäßig aktualisiert, um das neueste Sprachmodell zu erfassen, das die Aussprache der Sprache definiert. Nachdem Sie Ihre Stimme trainiert haben, können Sie Ihre Stimme auf das neue Sprachmodell anwenden, indem Sie auf die neueste Modulversion aktualisieren.
Wenn ein neuer Engine verfügbar ist, werden Sie aufgefordert, Ihr neuronales Sprachmodell zu aktualisieren.
Wechseln Sie zur Modelldetailseite, und folgen Sie den Anweisungen auf dem Bildschirm, um das neueste Modul zu installieren.
Alternativ können Sie die neueste Engine später installieren, um Ihr Modell auf die neueste Engine-Version zu aktualisieren.
Screenshot der Auswahl der Schaltfläche "Neueste Engine installieren" zur Aktualisierung der Engine.
Für das Update der Engine werden keine Kosten berechnet. Die vorherigen Versionen bleiben erhalten.
Sie können alle Motorversionen für das Modell aus der Motorversionsliste überprüfen oder entfernen, wenn Sie sie nicht mehr benötigen.
Die aktualisierte Version wird automatisch als Standard festgelegt. Sie können die Standardversion jedoch ändern, indem Sie eine Version aus der Dropdownliste auswählen und "Als Standard festlegen" auswählen.
Wenn Sie jede Engine-Version Ihres Stimmmodells testen möchten, können Sie eine Version in der Liste und dann DefaultTests unter Testen auswählen, um sich die Beispielaudiodateien anzuhören. Wenn Sie Ihre eigenen Testskripts hochladen möchten, um Ihre aktuelle Modulversion weiter zu testen, stellen Sie zuerst sicher, dass die Version als Standard festgelegt ist, und führen Sie dann die Schritte unter Testen Des VoIP-Modells aus.
Durch das Aktualisieren der Engine wird eine neue Version des Modells ohne zusätzliche Kosten erstellt. Nachdem Sie die Modulversion für Ihr VoIP-Modell aktualisiert haben, müssen Sie die neue Version bereitstellen, um einen neuen Endpunkt zu erstellen. Sie können nur die Standardversion bereitstellen.
Nachdem Sie einen neuen Endpunkt erstellt haben, müssen Sie den Datenverkehr an den neuen Endpunkt in Ihrem Produkt übertragen.
Weitere Informationen zu den Funktionen und Grenzwerten dieses Features sowie zu den bewährten Methoden zur Verbesserung der Modellqualität finden Sie unter "Merkmale und Einschränkungen für die Verwendung von benutzerdefinierter Sprache".
Kopieren Sie Ihr Sprachmodell in ein anderes Projekt
Sie können Ihr VoIP-Modell in ein anderes Projekt für dieselbe Region oder eine andere Region kopieren. Sie können beispielsweise ein neurales Sprachmodell kopieren, das in einer Region trainiert wurde, in ein Projekt für eine andere Region.
Hinweis
Professionelle Sprachoptimierung ist derzeit nur in einigen Regionen verfügbar. Sie können ein neurales Sprachmodell aus diesen Regionen in andere Regionen kopieren. Weitere Informationen finden Sie in den Regionen für benutzerdefinierte Spracherkennung.
So kopieren Sie Ihr benutzerdefiniertes VoIP-Modell in ein anderes Projekt:
Wählen Sie auf der Registerkarte " Modell trainieren " ein Sprachmodell aus, das Sie kopieren möchten, und wählen Sie dann "In Projekt kopieren" aus.
Wählen Sie die Subscription, Region, Speech-Ressource und Project aus, wo Sie das Modell kopieren möchten. Sie müssen über eine Sprachressource und ein Projekt in der Zielregion verfügen, andernfalls müssen Sie sie zuerst erstellen.
Wählen Sie "Absenden" aus, um das Modell zu kopieren.
Wählen Sie unter der Benachrichtigungsmeldung für das erfolgreiche Kopieren das Ansichtsmodell aus.
Navigieren Sie zu dem Projekt, in das Sie das Modell kopiert haben, um die Modellkopie bereitzustellen.
Nächste Schritte
In diesem Artikel erfahren Sie, wie Sie eine professionelle Stimme über die benutzerdefinierte VoIP-API optimieren.
Wichtig
Professionelle Sprachoptimierung ist derzeit nur in einigen Regionen verfügbar. Nachdem Ihr VoIP-Modell in einer unterstützten Region trainiert wurde, können Sie es nach Bedarf in eine Foundry-Ressource in einer anderen Region kopieren. Weitere Informationen finden Sie in der Tabelle "Sprachdienst" in den Fußnoten.
Die Schulungsdauer hängt davon ab, wie viele Daten Sie verwenden. Es dauert etwa 10 Rechenstunden im Durchschnitt, um eine professionelle Stimme zu optimieren. Standardabonnementbenutzer (S0) können vier Stimmen gleichzeitig trainieren. Wenn Sie das Limit erreichen, warten Sie, bis mindestens eine Ihrer Sprachmodelle die Schulung abgeschlossen hat, und versuchen Sie es dann erneut.
Hinweis
Obwohl die Gesamtanzahl der pro Trainingsmethode erforderlichen Stunden variiert, gilt der gleiche Einzelpreis für jeden. Weitere Informationen finden Sie in den Details zu den Preisen für benutzerdefinierte neuronale Trainings.
Auswählen einer Schulungsmethode
Nachdem Sie Ihre Datendateien überprüft haben, verwenden Sie sie, um Ihr benutzerdefiniertes VoIP-Modell zu erstellen. Wenn Sie eine benutzerdefinierte Stimme erstellen, können Sie diese mit einer der folgenden Methoden trainieren:
Neuronal: Erstellen Sie eine Stimme in der Sprache Ihrer Trainingsdaten.
Neural - HD Voice: Erstellen Sie eine HD-Stimme in derselben Sprache Ihrer Schulungsdaten. Azure neurale HD-Stimmen basieren auf LLM und sind für dynamische Gespräche optimiert. Erfahren Sie hier mehr über neurale HD-Stimmen.
Neural - Multistil: Erstellen Sie eine benutzerdefinierte Stimme, die in mehreren Stilen und Emotionen spricht, ohne neue Schulungsdaten hinzuzufügen. Mehrere Stimmstile sind nützlich für Videospielfiguren, Chatbots, Hörbücher, Inhaltsleser und vieles mehr.
Um eine mehrstilige Stimme zu erstellen, müssen Sie allgemeine Trainingsdaten vorbereiten, und zwar mindestens 300 Äußerungen. Wählen Sie einen oder mehrere der vordefinierten Zielsprechstile aus. Sie können auch mehrere benutzerdefinierte Formatvorlagen erstellen, indem Sie Stilbeispiele mit mindestens 100 Äußerungen pro Formatvorlage als zusätzliche Schulungsdaten für dieselbe Stimme bereitstellen. Die unterstützten voreingestellten Formatvorlagen variieren je nach sprachen. Sehen Sie sich die verfügbaren voreingestellten Formatvorlagen in verschiedenen Sprachen an.
Neural - cross lingual: Erstellen Sie eine Stimme, die eine andere Sprache als Ihre Schulungsdaten spricht. Beispielsweise können Sie mit den
fr-FRSchulungsdaten eine Stimme erstellen, die sprichten-US.Die Sprache der Schulungsdaten und der Zielsprache müssen beide eine der Sprachen sein, die für sprachübergreifendes Stimmtraining unterstützt werden. Sie müssen keine Schulungsdaten in der Zielsprache vorbereiten, ihr Testskript muss sich jedoch in der Zielsprache befinden.
Die Sprache der Schulungsdaten muss eine der Sprachen sein, die für benutzerdefinierte Sprach-, sprachübergreifende, Mehrstil- oder HD-Sprachschulungen unterstützt werden.
Erstellen eines Sprachmodells
- Neuronal
- Neural - HD-Stimme
- Neuronal – mehrformatig
- Neural - sprachübergreifend
- Neural - mehrsprachig
Verwenden Sie zum Erstellen einer neuralen Stimme den Models_Create Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:
- Legen Sie die erforderliche
projectIdEigenschaft fest. Siehe Erstellen eines Projekts. - Legen Sie die erforderliche
consentIdEigenschaft fest. Siehe Sprachtalentzustimmung hinzufügen. - Legen Sie die erforderliche
trainingSetIdEigenschaft fest. Weitere Informationen finden Sie unter Erstellen eines Schulungssatzes. - Legen Sie die erforderliche Konfigurationseigenschaft
kindaufDefaultfür neuralen Stimmtraining fest. Die Rezeptart gibt die Trainingsmethode an und kann später nicht geändert werden. Informationen zur Verwendung einer anderen Trainingsmethode finden Sie unter Neuronal – sprachübergreifend oder Neuronal – mehrformatig oder Neuronal – HD-Stimme. Weitere Informationen zu zweisprachigem Training und zu Unterschieden zwischen Gebietsschemas finden Sie unter Zweisprachiges Training. - Legen Sie die erforderliche
voiceNameEigenschaft fest. Wählen Sie einen Namen sorgfältig aus. Der Sprachename wird als Name der Stimme für Ihre Sprachsyntheseanforderung in der SDK- und SSML-Eingabe verwendet. Es sind nur Buchstaben, Zahlen und ein paar Satzzeichen zulässig. Verwenden Sie unterschiedliche Namen für verschiedene neurale Sprachmodelle. - Legen Sie optional die
descriptionEigenschaft für die Sprachbeschreibung fest. Die Sprachbeschreibung kann später geändert werden.
Erstellen Sie eine HTTP PUT-Anforderung mithilfe des URI, wie im folgenden Models_Create Beispiel gezeigt.
- Ersetzen Sie
YourResourceKeydurch den Sprachressourcenschlüssel. - Ersetzen Sie
YourResourceNamedurch den Namen Ihrer Speech-Ressource. - Ersetzen Sie
JessicaModelIddurch eine Modell-ID Ihrer Wahl. Die ID für Groß-/Kleinschreibung wird im URI des Modells verwendet und kann später nicht geändert werden.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId"
} ' "https://YourResourceName.cognitiveservices.azure.com/customvoice/models/JessicaModelId?api-version=2026-01-01"
Sie sollten einen Antworttext im folgenden Format erhalten:
{
"id": "JessicaModelId",
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default",
"version": "V10.0"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId",
"locale": "en-US",
"engineVersion": "2023.07.04.0",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Zweisprachige Ausbildung
Wenn Sie den Neural-Trainingstyp auswählen, können Sie eine Stimme trainieren, um in mehreren Sprachen zu sprechen. Die Gebietsschemas zh-CN, zh-HK und zh-TW unterstützen ein zweisprachiges Training, bei dem die Stimme sowohl Chinesisch als auch Englisch sprechen kann. Je nach Schulungsdaten kann die synthetisierte Stimme englisch mit einem englischen nativen Akzent oder Englisch mit demselben Akzent wie die Schulungsdaten sprechen.
Hinweis
Damit eine Stimme im zh-CN Gebietsschema Englisch mit demselben Akzent wie die Beispieldaten spricht, sollten Sie englische Daten in einen Kontext-Trainingssatz hochladen oder wählen Chinese (Mandarin, Simplified), English bilingual, wenn Sie ein Projekt erstellen oder das Gebietsschema zh-CN (English bilingual) für die Trainingssatzdaten mithilfe der REST-API angeben.
Schließen Sie in Ihrem Kontextschulungssatz mindestens 100 Sätze oder 10 Minuten englischer Inhalte ein, und überschreiten Sie nicht die Menge der chinesischen Inhalte.
Die folgende Tabelle zeigt die Unterschiede zwischen den Locales:
| Speech Studio-Gebietsschema | REST-API-Gebietsschema | Zweisprachige Unterstützung |
|---|---|---|
Chinese (Mandarin, Simplified) |
zh-CN |
Wenn Ihre Beispieldaten Englisch enthalten, spricht die synthetisierte Stimme Englisch mit einem englischen nativen Akzent anstelle desselben Akzents wie die Beispieldaten, unabhängig von der Menge der englischen Daten. |
Chinese (Mandarin, Simplified), English bilingual |
zh-CN (English bilingual) |
Wenn Sie möchten, dass die synthetisierte Stimme Englisch mit demselben Akzent wie die Beispieldaten spricht, empfehlen wir, mehr als 10% englischen Daten in Ihren Schulungssatz einzuschl. Andernfalls ist der englisch sprechende Akzent möglicherweise nicht ideal. |
Chinese (Cantonese, Simplified) |
zh-HK |
Wenn Sie eine synthetisierte Stimme trainieren möchten, die Englisch mit demselben Akzent wie Ihre Beispieldaten spricht, stellen Sie sicher, dass Sie mehr als 10% englischen Daten in Ihrem Schulungssatz bereitstellen. Andernfalls wird standardmäßig ein englischer nativer Akzent verwendet. Der Schwellenwert für 10% wird basierend auf den daten berechnet, die nach dem erfolgreichen Hochladen akzeptiert wurden, nicht auf die Daten vor dem Hochladen. Wenn einige hochgeladene englische Daten aufgrund von Fehlern abgelehnt werden und den Schwellenwert von 10% nicht erfüllen, wird die synthetisierte Stimme standardmäßig auf einen englischen nativen Akzent festgelegt. |
Chinese (Taiwanese Mandarin, Traditional) |
zh-TW |
Wenn Sie eine synthetisierte Stimme trainieren möchten, die Englisch mit demselben Akzent wie Ihre Beispieldaten spricht, stellen Sie sicher, dass Sie mehr als 10% englischen Daten in Ihrem Schulungssatz bereitstellen. Andernfalls wird standardmäßig ein englischer nativer Akzent verwendet. Der Schwellenwert für 10% wird basierend auf den daten berechnet, die nach dem erfolgreichen Hochladen akzeptiert wurden, nicht auf die Daten vor dem Hochladen. Wenn einige hochgeladene englische Daten aufgrund von Fehlern abgelehnt werden und den Schwellenwert von 10% nicht erfüllen, wird die synthetisierte Stimme standardmäßig auf einen englischen nativen Akzent festgelegt. |
Verfügbare voreingestellte Formatvorlagen in verschiedenen Sprachen
In der folgenden Tabelle sind die verschiedenen voreingestellten Formatvorlagen nach verschiedenen Sprachen zusammengefasst.
| Sprechender Stil | Sprache (Locale) |
|---|---|
| Wütend | Englisch (Vereinigte Staaten) (en-US)Japanisch (Japan) ( ja-JP) 1Chinesisch (Mandarin, vereinfacht) ( zh-CN) 1 |
| Ruhig | Chinesisch (Mandarin, vereinfacht) (zh-CN) 1 |
| Chat | Chinesisch (Mandarin, vereinfacht) (zh-CN) 1 |
| Fröhlich | Englisch (Vereinigte Staaten) (en-US)Japanisch (Japan) ( ja-JP) 1Chinesisch (Mandarin, vereinfacht) ( zh-CN) 1 |
| verärgert | Chinesisch (Mandarin, vereinfacht) (zh-CN) 1 |
| Begeistert | Englisch (Vereinigte Staaten) (en-US) |
| Ängstlich | Chinesisch (Mandarin, vereinfacht) (zh-CN) 1 |
| Freundlich | Englisch (Vereinigte Staaten) (en-US) |
| Hoffnungsvoll | Englisch (Vereinigte Staaten) (en-US) |
| Traurig | Englisch (Vereinigte Staaten) (en-US)Japanisch (Japan) ( ja-JP) 1Chinesisch (Mandarin, vereinfacht) ( zh-CN) 1 |
| Schreien | Englisch (Vereinigte Staaten) (en-US) |
| Ernst | Chinesisch (Mandarin, vereinfacht) (zh-CN) 1 |
| Erschrocken | Englisch (Vereinigte Staaten) (en-US) |
| Unfreundlich | Englisch (Vereinigte Staaten) (en-US) |
| Flüstern | Englisch (Vereinigte Staaten) (en-US) |
1 Der neurale Sprachstil ist in der öffentlichen Vorschau verfügbar. Die aktuelle Liste der Regionen, die Stile in der öffentlichen Vorschau unterstützen, finden Sie in der Tabelle "Sprachdienstregionen".
Schulungsstatus abrufen
Verwenden Sie zum Abrufen des Schulungsstatus eines VoIP-Modells den Models_Get Vorgang der benutzerdefinierten VoIP-API. Erstellen Sie den Anforderungs-URI gemäß den folgenden Anweisungen:
Erstellen Sie eine HTTP GET-Anforderung mithilfe des URI, wie im folgenden Models_Get Beispiel gezeigt.
- Ersetzen Sie
YourResourceKeydurch den Sprachressourcenschlüssel. - Ersetzen Sie
YourResourceNamedurch den Namen Ihrer Speech-Ressource. - Ersetzen Sie
JessicaModelId, wenn Sie im vorherigen Schritt eine andere Modell-ID angegeben haben.
curl -v -X GET "https://YourResourceName.cognitiveservices.azure.com/customvoice/models/JessicaModelId?api-version=2026-01-01" -H "Ocp-Apim-Subscription-Key: YourResourceKey"
Sie sollten einen Antworttext im folgenden Format erhalten.
Hinweis
Das Rezept kind und andere Eigenschaften hängen davon ab, wie Sie die Stimme trainiert haben. In diesem Beispiel ist Default die Rezeptart für neuronales Sprachtraining.
{
"id": "JessicaModelId",
"voiceName": "JessicaNeural",
"description": "Jessica voice",
"recipe": {
"kind": "Default",
"version": "V7.2023.03"
},
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"trainingSetId": "JessicaTrainingSetId",
"locale": "en-US",
"engineVersion": "2023.07.04.0",
"status": "Succeeded",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Möglicherweise müssen Sie mehrere Minuten warten, bevor die Schulung abgeschlossen ist. Schließlich ändert sich der Status in entweder Succeeded oder Failed.