Benutzerdefinierte Stimme Lite

2025-06-06

Custom Voice Lite ist ein Projekttyp, bei dem eine benutzerdefinierte Stimme präsentiert und bewertet werden kann, bevor in professionelle Aufnahmen investiert wird, um eine qualitativ hochwertigere Stimme zu erstellen. Für Demo- und Evaluierungszwecke ist keine Anwendung erforderlich. Microsoft schränkt jedoch die Aufzeichnungs- und Testbeispiele ein und wählt sie für die Verwendung mit benutzerdefinierter Sprachversion Lite aus. Sie müssen Vollzugriff auf Feinabstimmungen für professionelle Stimmen beantragen, um das Modell „Benutzerdefinierte Stimme Lite” für geschäftliche Zwecke bereitzustellen und zu verwenden. Fordern Sie in diesem Fall den Zugriff über das Aufnahmeformular an.

Hinweis

Benutzerdefinierte Stimme Lite ist nur in Speech Studio verfügbar. Sie ist nicht über das Azure AI Foundry-Portal, die REST-API oder SDKs verfügbar.

Mit einem benutzerdefinierten Voice Lite-Projekt zeichnen Sie Ihre Stimme online auf, indem Sie 20-50 vordefinierte Skripts lesen, die von Microsoft bereitgestellt werden. Nachdem Sie mindestens 20 Stichproben aufgezeichnet haben, können Sie mit dem Trainieren eines Modells beginnen. Nachdem das Modell erfolgreich trainiert wurde, können Sie das Modell überprüfen und sich 20 Ausgabebeispiele anhören, die mit einem anderen Satz vordefinierter Skripts erstellt wurden.

Hier finden Sie Informationen zu den unterstützten Sprachen für die benutzerdefinierte Stimme.

Vergleich von Projekttypen

In der folgenden Tabelle sind die wichtigsten Unterschiede zwischen Benutzerdefinierte Stimme Lite und Feinabstimmung für professionelle Stimmen zusammengefasst.

Elemente	Leicht	Professionell
Zielszenarien	Demonstration oder Auswertung	Professionelle Szenarien wie Marken- und Charakterstimmen für Chatbots oder das Lesen von Audioinhalten.
Trainingsdaten	Onlineaufzeichnung mit Speech Studio	Verwenden eigener Daten Die Aufzeichnung in einem professionellen Studio wird empfohlen.
Skripts für die Aufzeichnung	Bereitgestellt in Speech Studio	Verwenden Sie eigene Skripts, die dem Anwendungsfallszenario entsprechen. Microsoft stellt Beispielskripts als Referenz bereit.
Erforderliche Datengröße	20-50 Äußerungen	300-2000 Äußerungen
Trainingsdauer	Weniger als eine Computestunde	Ungefähr 20 bis 40 Computestunden
Stimmqualität	Mittlere Qualität	Hohe Qualität
Verfügbarkeit	Jeder kann Beispiele online aufzeichnen und ein Modell zu Demonstrations- und Auswertungszwecken trainieren. Der vollständige Zugriff auf benutzerdefinierte Stimme ist erforderlich, wenn Sie das benutzerdefinierte Voice Lite-Modell für die geschäftliche Nutzung bereitstellen möchten.	Der Datenupload ist nicht eingeschränkt, Sie können jedoch nur eine professionelle Stimme optimieren, nachdem der Zugriff genehmigt wurde. Die Feinabstimmung für professionelle Stimmen ist auf der Grundlage von Berechtigung und Nutzungskriterien begrenzt. Fordern Sie den Zugriff über das Aufnahmeformular an.
Preise	Die Preise pro Einheit gelten gleichermaßen sowohl für Custom Voice Lite als auch für professionelle Sprachverfeinerung. Sehen Sie sich hier die Preisdetails an.	Die Einzelpreise gelten gleichermaßen sowohl für Benutzerdefinierte Stimme Lite als auch für die Feinabstimmung für professionelle Stimmen. Sehen Sie sich hier die Preisdetails an.

Erstellen eines benutzerdefinierten Voice Lite-Projekts

Führen Sie die folgenden Schritte aus, um ein benutzerdefiniertes Voice Lite-Projekt zu erstellen:

Melden Sie sich in Speech Studio an.
Wählen Sie das Abonnement und die Speech-Ressource aus, mit denen Sie arbeiten möchten.
Wählen Sie Benutzerdefinierte Stimme>Projekt erstellen aus.
Wählen Sie Benutzerdefinierte neuronale Stimme Lite>Weiter aus. Wenn Sie stattdessen ein benutzerdefiniertes VoIP-Professionelles Projekt erstellen möchten, lesen Sie die Dokumentation zur professionellen Sprachoptimierung.
Folgen Sie den Anweisungen des Assistenten, um Ihr Projekt zu erstellen.

Wichtig

Das Projekt „Benutzerdefinierte Stimme Lite” läuft nach 90 Tagen ab, es sei denn, die aufgezeichnete mündliche Erklärung der Sprecher*innen wird eingereicht.
Wählen Sie das neue Projekt nach Name aus, oder klicken Sie auf Zum Projekt wechseln. Im linken Bereich werden die folgenden Menüelemente angezeigt: Aufzeichnen und Erstellen, Modell überprüfen und Modell bereitstellen.

Aufzeichnen und Erstellen eines benutzerdefinierten Voice Lite-Modells

Zeichnen Sie online mindestens 20 Sprachbeispiele (bis zu 50) mit bereitgestellten Skripts auf. Die hier aufgezeichneten Sprachbeispiele werden verwendet, um eine synthetische Version Ihrer Stimme zu erstellen.

Hinweis

Benutzerdefinierte Sprachschulungen sind derzeit nur in einigen Regionen verfügbar. Weitere Informationen finden Sie in den Fußnoten der Tabelle Regionen.

Diese Tipps sollen Ihnen beim Aufzeichnen Ihrer Sprachbeispiele helfen:

Verwenden Sie ein gutes Mikrofon. Steigern Sie die Deutlichkeit Ihrer Stichproben, indem Sie ein Mikrofon hoher Qualität verwenden. Sprechen Sie etwa 20 cm vom Mikrofon entfernt, um Mundgeräusche zu vermeiden.
Vermeiden Sie Hintergrundgeräusche. Zeichnen Sie in einem stillen Raum ohne Hintergrundgeräusche oder Echo auf.
Entspannen Sie sich, und sprechen Sie natürlich. Erlauben Sie sich, beim Lesen der Sätze Emotionen auszudrücken.
Erstellen Sie die Aufzeichnung in einem Durchlauf. Damit ein gleichmäßiges Spannungsniveau gewährleistet ist, sollten Sie alle Sätze in einer Sitzung aufzeichnen.
Sprechen Sie jedes Wort richtig aus, und sprechen Sie deutlich.

Führen Sie die folgenden Schritte in Speech Studio aus, um ein benutzerdefiniertes Voice Lite-Modell aufzuzeichnen und zu erstellen:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Aufzeichnen und Erstellen aus.
Wählen Sie Erste Schritte aus.
Lesen Sie die Nutzungsbedingungen für Sprecher sorgfältig durch. Aktivieren Sie das Kontrollkästchen, um die Nutzungsbedingungen zu akzeptieren.
Wählen Sie Accept (Akzeptieren) aus.
Drücken Sie das Mikrofonsymbol, um die Rauschprüfung zu starten. Diese Rauschprüfung dauert nur wenige Sekunden, und Sie brauchen während dieser Zeit nicht zu sprechen.
Wenn Rauschen erkannt wurde, können Sie Erneut überprüfen auswählen, um die Rauschprüfung zu wiederholen. Wenn kein Rauschen festgestellt wurde, können Sie Fertig auswählen, um mit dem nächsten Schritt fortzufahren.
Lesen Sie die Aufzeichnungstipps durch, und wählen Sie Got it (Verstanden) aus. Für die besten Ergebnisse sollten Sie sich vor der Aufzeichnung Ihrer Sprachbeispiele in einen ruhigeren Bereich ohne Hintergrundgeräusche begeben.
Drücken Sie das Mikrofonsymbol, um die Aufnahme zu starten.
Drücken Sie das Stoppsymbol, um die Aufzeichnung zu beenden.
Überprüfen Sie die Qualitätsmetriken. Überprüfen Sie nach der Aufzeichnung jedes Beispiels die Qualitätsmetrik, bevor Sie mit dem nächsten fortfahren.
Zeichnen Sie weitere Beispiele auf. Zwar können Sie ein Modell mit nur 20 Beispielen erstellen, es empfiehlt sich aber, bis zu 50 aufzunehmen, um eine bessere Qualität zu erzielen.
Wählen Sie Modell trainieren aus, um den Trainingsprozess zu starten.

Der Trainingsprozess nimmt ungefähr eine Computestunde in Anspruch. Sie können den Fortschritt des Trainingsprozesses auf der Seite Modell überprüfen überprüfen.

Überprüfen des Modells

Führen Sie die folgenden Schritte aus, um das benutzerdefinierte Voice Lite-Modell zu überprüfen und Ihre eigene synthetische Stimme zu hören:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell überprüfen aus. Hier können Sie den Namen des Sprachmodells, die Modellsprache, die Größe der Beispieldaten und den Trainingsfortschritt überprüfen. Der Name der Stimme besteht aus dem Wort „Neural“, das an Ihren Projektnamen angefügt wird.
Wählen Sie den Namen des Sprachmodells aus, um die Modelldetails zu überprüfen und die Beispielergebnisse der Sprachsynthese anzuhören.
Wählen Sie das Wiedergabesymbol aus, um Ihre Stimme jedes Skript sprechen zu hören.

Einreichen der mündlichen Erklärung

Bevor Sie für Ihre geschäftliche Nutzung das Modell bereitstellen können, ist eine vom Sprecher aufgezeichnete Erklärung erforderlich.

Führen Sie die folgenden Schritte in Speech Studio aus, um die verbale Aussage des Sprachtalents zu übermitteln:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell bereitstellen>Verwalten Ihrer Sprecher*innen aus.
Wählen Sie das Modell aus.
Geben Sie den Namen des Sprechers und den Firmennamen ein.
Lesen Sie die Erklärung, und erstellen Sie eine Aufzeichnung davon. Wählen Sie das Mikrofonsymbol aus, um die Aufnahme zu starten. Wählen Sie das Stoppsymbol aus, um die Aufzeichnung zu beenden.
Wählen Sie Übermitteln aus, um die Erklärung einzureichen.
Überprüfen Sie den Verarbeitungsstatus in der Skripttabelle am unteren Rand des Dashboards. Sobald der Status Erfolgreich ist, können Sie das Modell bereitstellen.

Bereitstellen des Modells

Um Ihr benutzerdefiniertes Voice Lite-Modell bereitzustellen und in Ihren Anwendungen zu verwenden, müssen Sie vollständigen Zugriff auf benutzerdefinierte Stimmen erhalten. Fordern Sie den Zugriff über das Aufnahmeformular an. Sie erhalten innerhalb von ungefähr zehn Geschäftstagen eine E-Mail mit dem Genehmigungsstatus. Eine mündliche Erklärung, die vom Sprecher aufgezeichnet wurde, ist ebenfalls erforderlich, damit Sie das Modell für Ihre geschäftlichen Zwecke bereitstellen können.

Führen Sie die folgenden Schritte in Speech Studio aus, um ein benutzerdefiniertes VoIP Lite-Modell bereitzustellen:

Wählen Sie Benutzerdefinierte Stimme> Ihr Projektname >Modell bereitstellen>Modell bereitstellen aus.
Wählen Sie einen Namen für das Stimmmodell und dann Weiter aus.
Geben Sie einen Namen und eine Beschreibung für Ihren Endpunkt ein, und wählen Sie dann Weiter aus.
Aktivieren Sie das Kontrollkästchen, um den Nutzungsbedingungen zuzustimmen, und wählen Sie dann Weiter aus.
Klicken Sie auf Bereitstellen, um das Modell bereitzustellen.

Von hier aus können Sie das benutzerdefinierte Voice Lite-Modell ähnlich verwenden, wie Sie ein professionelles Sprachmodell verwenden würden. Beispielsweise können Sie einen Endpunkt anhalten oder fortsetzen, um die Kosten zu begrenzen und nicht genutzte Ressourcen freizugeben. Außerdem können Sie im Tool zum Erstellen von Audioinhalten in Speech Studio auf die Stimme zugreifen.

Freigeben über