Benutzerdefinierte neuronale Stimme Lite (Vorschau)

Artikel
10/16/2024

Azure KI Speech bietet zwei Projekttypen für Benutzerdefinierte neuronale Stimme (CNV): CNV Lite und CNV Professional.

Mit CNV Professional können Sie Ihre in professionellen Aufnahmestudios gesammelten Trainingsdaten hochladen und eine qualitativ hochwertigere Stimme erstellen, die von ihren menschlichen Beispielen kaum zu unterscheiden ist. Der Zugriff auf CNV Professional ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Fordern Sie den Zugriff über das Aufnahmeformular an.
CNV Lite ist ein Projekttyp in der öffentlichen Vorschauversion. Sie können Benutzerdefinierte neuronale Stimme in einer Demoversion testen, bevor Sie in professionelle Aufzeichnungen investieren, um eine hochwertigere Stimme zu erstellen. Für Demo- und Evaluierungszwecke ist keine Anwendung erforderlich. Die Aufzeichnungs- und Testbeispiele für die Verwendung mit CNV Lite sind seitens Microsoft jedoch eingeschränkt und ausgewählt. Sie müssen den vollständigen Zugriff auf CNV Professional beantragen, um das CNV Lite-Modell für geschäftliche Zwecke bereitstellen und verwenden zu können. Fordern Sie in diesem Fall den Zugriff über das Aufnahmeformular an.

Bei einem CNV Lite-Projekt nehmen Sie Ihre Stimme online auf, indem Sie 20 bis 50 vordefinierte, von Microsoft bereitgestellte Skripts lesen. Nachdem Sie mindestens 20 Stichproben aufgezeichnet haben, können Sie mit dem Trainieren eines Modells beginnen. Nachdem das Modell erfolgreich trainiert wurde, können Sie das Modell überprüfen und sich 20 Ausgabebeispiele anhören, die mit einem anderen Satz vordefinierter Skripts erstellt wurden.

Hier finden Sie Informationen zu den unterstützten Sprachen für die benutzerdefinierte neuronale Stimme.

Vergleich von Projekttypen

Die folgende Tabelle fasst die wichtigsten Unterschiede zwischen den Projekttypen CNV Lite und CNV Professional zusammen.

Elemente	Lite (Vorschau)	Pro
Zielszenarien	Demonstration oder Auswertung	Professionelle Szenarien wie Marken- und Charakterstimmen für Chatbots oder das Lesen von Audioinhalten.
Trainingsdaten	Onlineaufzeichnung mit Speech Studio	Verwenden eigener Daten Die Aufzeichnung in einem professionellen Studio wird empfohlen.
Skripts für die Aufzeichnung	Bereitgestellt in Speech Studio	Verwenden Sie eigene Skripts, die dem Anwendungsfallszenario entsprechen. Microsoft stellt Beispielskripts als Referenz bereit.
Erforderliche Datengröße	20-50 Äußerungen	300-2000 Äußerungen
Trainingsdauer	Weniger als eine Computestunde	Ungefähr 20 bis 40 Computestunden
Stimmqualität	Mittlere Qualität	Hohe Qualität
Verfügbarkeit	Jeder kann Beispiele online aufzeichnen und ein Modell zu Demonstrations- und Auswertungszwecken trainieren. Der Vollzugriff auf Benutzerdefinierte neuronale Stimme ist erforderlich, wenn Sie das CNV Lite-Modell für die geschäftliche Nutzung bereitstellen möchten.	Das Hochladen von Daten ist nicht eingeschränkt, jedoch können Sie ein CNV Professional-Modell erst nach der Genehmigung des Zugriffs trainieren und bereitstellen. Der Zugriff auf CNV Professional ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Fordern Sie den Zugriff über das Aufnahmeformular an.
Preise	Die Preise pro Einheit gelten gleichermaßen für die CNV Lite- und CNV Professional-Projekte. Sehen Sie sich hier die Preisdetails an.	Die Preise pro Einheit gelten gleichermaßen für die CNV Lite- und CNV Professional-Projekte. Sehen Sie sich hier die Preisdetails an.

Erstellen eines Benutzerdefinierte neuronale Stimme Lite-Projekts

Führen Sie die folgenden Schritte aus, um ein Benutzerdefinierte neuronale Stimme Lite-Projekt zu erstellen:

Melden Sie sich in Speech Studio an.
Wählen Sie das Abonnement und die Speech-Ressource aus, mit denen Sie arbeiten möchten.
Wählen Sie Benutzerdefinierte Stimme>Projekt erstellen aus.
Wählen Sie Benutzerdefinierte neuronale Stimme Lite>Weiter aus. Informationen zum Erstellen eines professionellen Benutzerdefinierte neuronale Stimme-Projekts finden Sie unter Erstellen eines Projekts für Benutzerdefinierte neuronale Stimme.
Folgen Sie den Anweisungen des Assistenten, um Ihr Projekt zu erstellen.

Wichtig

Das CNV Lite-Projekt läuft nach 90 Tagen ab, es sei denn, die aufgezeichnete mündliche Erklärung der Sprecher*innen wird eingereicht.
Wählen Sie das neue Projekt nach Name aus, oder klicken Sie auf Zum Projekt wechseln. Im linken Bereich werden die folgenden Menüelemente angezeigt: Aufzeichnen und Erstellen, Modell überprüfen und Modell bereitstellen.

Aufzeichnen und Erstellen eines CNV Lite-Modells

Zeichnen Sie online mindestens 20 Sprachbeispiele (bis zu 50) mit bereitgestellten Skripts auf. Die hier aufgezeichneten Sprachbeispiele werden verwendet, um eine synthetische Version Ihrer Stimme zu erstellen.

Hinweis

Das benutzerdefinierte neuronale Stimmtraining ist aktuell nur in einigen Regionen verfügbar. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen.

Diese Tipps sollen Ihnen beim Aufzeichnen Ihrer Sprachbeispiele helfen:

Verwenden Sie ein gutes Mikrofon. Steigern Sie die Deutlichkeit Ihrer Stichproben, indem Sie ein Mikrofon hoher Qualität verwenden. Sprechen Sie etwa 20 cm vom Mikrofon entfernt, um Mundgeräusche zu vermeiden.
Vermeiden Sie Hintergrundgeräusche. Zeichnen Sie in einem stillen Raum ohne Hintergrundgeräusche oder Echo auf.
Entspannen Sie sich, und sprechen Sie natürlich. Erlauben Sie sich, beim Lesen der Sätze Emotionen auszudrücken.
Erstellen Sie die Aufzeichnung in einem Durchlauf. Damit ein gleichmäßiges Spannungsniveau gewährleistet ist, sollten Sie alle Sätze in einer Sitzung aufzeichnen.
Sprechen Sie jedes Wort richtig aus, und sprechen Sie deutlich.

Führen Sie die folgenden Schritte aus, um ein CNV Lite-Modell aufzuzeichnen und zu erstellen:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Aufzeichnen und Erstellen aus.
Wählen Sie Erste Schritte aus.
Lesen Sie die Nutzungsbedingungen für Sprecher sorgfältig durch. Aktivieren Sie das Kontrollkästchen, um die Nutzungsbedingungen zu akzeptieren.
Wählen Sie Accept (Akzeptieren) aus.
Drücken Sie das Mikrofonsymbol, um die Rauschprüfung zu starten. Diese Rauschprüfung dauert nur wenige Sekunden, und Sie brauchen während dieser Zeit nicht zu sprechen.
Wenn Rauschen erkannt wurde, können Sie Erneut überprüfen auswählen, um die Rauschprüfung zu wiederholen. Wenn kein Rauschen festgestellt wurde, können Sie Fertig auswählen, um mit dem nächsten Schritt fortzufahren.
Lesen Sie die Aufzeichnungstipps durch, und wählen Sie Got it (Verstanden) aus. Für die besten Ergebnisse sollten Sie sich vor der Aufzeichnung Ihrer Sprachbeispiele in einen ruhigeren Bereich ohne Hintergrundgeräusche begeben.
Drücken Sie das Mikrofonsymbol, um die Aufnahme zu starten.
Drücken Sie das Stoppsymbol, um die Aufzeichnung zu beenden.
Überprüfen Sie die Qualitätsmetriken. Überprüfen Sie nach der Aufzeichnung jedes Beispiels die Qualitätsmetrik, bevor Sie mit dem nächsten fortfahren.
Zeichnen Sie weitere Beispiele auf. Zwar können Sie ein Modell mit nur 20 Beispielen erstellen, es empfiehlt sich aber, bis zu 50 aufzunehmen, um eine bessere Qualität zu erzielen.
Wählen Sie Modell trainieren aus, um den Trainingsprozess zu starten.

Der Trainingsprozess nimmt ungefähr eine Computestunde in Anspruch. Sie können den Fortschritt des Trainingsprozesses auf der Seite Modell überprüfen überprüfen.

Überprüfen des Modells

Führen Sie die folgenden Schritte aus, um das CNV Lite-Modell zu überprüfen und Ihre eigene synthetische Stimme zu hören:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell überprüfen aus. Hier können Sie den Namen des Sprachmodells, die Modellsprache, die Größe der Beispieldaten und den Trainingsfortschritt überprüfen. Der Name der Stimme besteht aus dem Wort „Neural“, das an Ihren Projektnamen angefügt wird.
Wählen Sie den Namen des Sprachmodells aus, um die Modelldetails zu überprüfen und die Beispielergebnisse der Sprachsynthese anzuhören.
Wählen Sie das Wiedergabesymbol aus, um Ihre Stimme jedes Skript sprechen zu hören.

Einreichen der mündlichen Erklärung

Bevor Sie für Ihre geschäftliche Nutzung das Modell bereitstellen können, ist eine vom Sprecher aufgezeichnete Erklärung erforderlich.

Führen Sie die folgenden Schritte aus, um die mündliche Erklärung des Sprechers einzureichen:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell bereitstellen>Verwalten Ihrer Sprecher*innen aus.
Wählen Sie das Modell aus.
Geben Sie den Namen des Sprechers und den Firmennamen ein.
Lesen Sie die Erklärung, und erstellen Sie eine Aufzeichnung davon. Wählen Sie das Mikrofonsymbol aus, um die Aufnahme zu starten. Wählen Sie das Stoppsymbol aus, um die Aufzeichnung zu beenden.
Wählen Sie Übermitteln aus, um die Erklärung einzureichen.
Überprüfen Sie den Verarbeitungsstatus in der Skripttabelle am unteren Rand des Dashboards. Sobald der Status Erfolgreich ist, können Sie das Modell bereitstellen.

Bereitstellen des Modells

Wenn Sie Ihr Sprachmodell bereitstellen und in Ihren Anwendungen verwenden möchten, müssen Sie den vollständigen Zugriff auf Benutzerdefinierte neuronale Stimme erwerben. Fordern Sie den Zugriff über das Aufnahmeformular an. Sie erhalten innerhalb von ungefähr zehn Geschäftstagen eine E-Mail mit dem Genehmigungsstatus. Eine mündliche Erklärung, die vom Sprecher aufgezeichnet wurde, ist ebenfalls erforderlich, damit Sie das Modell für Ihre geschäftlichen Zwecke bereitstellen können.

Führen Sie zum Bereitstellen eines CNV Lite-Modells die folgenden Schritte aus:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell bereitstellen>Modell bereitstellen aus.
Wählen Sie einen Namen für das Stimmmodell und dann Weiter aus.
Geben Sie einen Namen und eine Beschreibung für Ihren Endpunkt ein, und wählen Sie dann Weiter aus.
Aktivieren Sie das Kontrollkästchen, um den Nutzungsbedingungen zuzustimmen, und wählen Sie dann Weiter aus.
Klicken Sie auf Bereitstellen, um das Modell bereitzustellen.

Ab diesem Punkt können Sie das CNV Lite-Stimmmodell ähnlich wie ein CNV Professional-Stimmmodell verwenden. Beispielsweise können Sie einen Endpunkt anhalten oder fortsetzen, um die Kosten zu begrenzen und nicht genutzte Ressourcen freizugeben. Außerdem können Sie im Tool zum Erstellen von Audioinhalten in Speech Studio auf die Stimme zugreifen.

Freigeben über