Was ist personalisierte Stimme für Sprachsynthese?

Artikel
10/16/2024

Mit Personal Voice können Sie es Ihren Benutzern ermöglichen, die KI-generierte Replikation ihrer eigenen Stimmen in wenigen Sekunden abzurufen. Mit einer verbalen Äußerung und einem kurzen Sprachbeispiel als Audioprompt können Sie eine personalisierte Stimme für die Benutzer erstellen und ihnen das Generieren von Sprachausgaben in einer der über 90 Sprachen ermöglichen, die in mehr als 100 Gebietsschemas unterstützt werden.

Hinweis

Persönliche Stimme ist in diesen Regionen verfügbar: Westeuropa, Ost-USA und Südostasien. Unterstützte Gebietsschemata finden Sie unter Sprachunterstützung für persönliche Stimmen.

Die folgende Tabelle fasst den Unterschied zwischen persönlicher Stimme und professioneller benutzerdefinierter neuronaler Stimme zusammen.

Vergleich	Persönliche Stimme	Professionelle Stimme
Zielszenarien	Geschäftskunden erstellen eine App, damit ihre Benutzer ihre eigene persönliche Stimme in der App erstellen und verwenden können.	Professionelle Szenarien wie Marken- und Charakterstimmen für Chatbots oder das Lesen von Audioinhalten.
Anwendungsfälle	Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise. Genehmigte Kunden sollten über einen Plan verfügen, mehr als 1.000 persönliche Stimmen zu unterstützen.	Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise.
Trainingsdaten	Stellen Sie sicher, dass Sie dem Verhaltenskodex folgen.	Verwenden eigener Daten Die Aufzeichnung in einem professionellen Studio wird empfohlen.
Erforderliche Datengröße	Eine Minute menschlicher Sprache.	300-2000 Äußerungen (ca. 30 Minuten bis 3 Stunden menschliche Spracherkennung).
Trainingsdauer	Weniger als 5 Sekunden	Ungefähr 20 bis 40 Computestunden.
Stimmqualität	Natural	Hoch natürlich
Unterstützung mehrerer Sprachen	Ja. Die Stimme kann über 100 Sprachen sprechen, wobei die automatische Spracherkennung aktiviert ist.	Ja. Sie müssen das Feature „Neural – lingual quer“ auswählen, um ein Modell zu trainieren, das eine andere Sprache als die Schulungsdaten spricht.
Verfügbarkeit	Die Demo auf Speech Studio ist bei der Registrierung verfügbar. Der Zugriff auf die API ist auf berechtigte Kunden und genehmigte Anwendungsfälle beschränkt. Anfordern des Zugriffs über das Aufnahmeformular.	Sie können ein CNV Pro-Modell nur trainieren und bereitstellen, nachdem der Zugriff genehmigt wurde. Der Zugriff auf CNV Pro ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Anfordern des Zugriffs über das Aufnahmeformular.
Preiskalkulation	Sehen Sie sich hier die Preisdetails¹ an.	Sehen Sie sich hier die Preisdetails an.
Verantwortungsvolle KI-Anforderungen	Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig.	Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig.

¹ Beachten Sie, dass die Preise für die personalisierte Stimme nur für Dienstregionen sichtbar sind, in denen das Feature verfügbar ist, einschließlich Europa, Westen, USA, Osten und Asien, Südosten.

Testen Sie die Demo

Wenn Sie über eine S0-Ressource verfügen, können Sie in Speech Studio auf die persönliche Stimmendemo zugreifen. Um die personalisierte Stimmen-API zu verwenden, können Sie sich hier für den Zugriff bewerben.

Navigieren Sie zu Speech Studio
Wählen Sie die KartePersönliche Stimme aus.
Sie können Ihre eigene Stimme aufzeichnen und die Sprachausgabebeispiele in verschiedenen Sprachen ausprobieren. Die Demo enthält eine Teilmenge der Sprachen, die von persönlicher Stimme unterstützt werden.

So erstellen Sie eine persönliche Stimme

Im Ersten Schritt finden Sie eine Zusammenfassung der Schritte zum Erstellen einer persönlichen Stimme:

Erstellen eines Projekts
Zustimmungsdatei hochladen. Mit der persönlichen Sprachfunktion ist es erforderlich, dass jede Stimme mit expliziter Zustimmung des Benutzers erstellt wird. Es ist eine aufgezeichnete Erklärung des Benutzers erforderlich, in der er bestätigt, dass der Kunde (Eigentümer der Azure AI Speech-Ressource) seine Stimme erstellen und verwenden wird.
Rufen Sie eine Sprecherprofil-ID für die persönliche Stimme ab. Sie erhalten eine Sprecherprofil-ID basierend auf der mündlichen Zustimmungserklärung des Sprechers und einer Audioaufforderung. Die Stimmcharakteristik des Benutzers wird in der speakerProfileId-Eigenschaft kodiert, die für Text in Sprache verwendet wird.

Sobald Sie eine persönliche Stimme haben, können Sie diese für die Sprachsynthese in einer der 91 unterstützten Sprachen in über 100 Ländern verwenden. Ein Gebietsschematag ist nicht erforderlich. Persönliche Stimme verwendet die automatische Spracherkennung auf Satzebene. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.

Tipp

Sehen Sie sich die Codebeispiele im Speech SDK-Repository auf GitHub an, um zu erfahren, wie Sie eine personalisierte Stimme in Ihrer Anwendung verwenden.

Referenzdokumentation

Referenzdokumentation zur benutzerdefinierten VoIP-REST-API

Verantwortungsvolle KI

Wir kümmern uns um die Menschen, die KI und die Menschen nutzen, die davon betroffen sein werden, so viel wie wir uns um Technologie kümmern. Weitere Informationen finden Sie im Transparenzhinweis zu verantwortungsbewusster KI.

Nächste Schritte

Erstellen eines Projekts
Erfahren Sie mehr über benutzerdefinierte Neural Voice in der Übersicht.
Weitere Informationen zu Speech Studio finden Sie in der Übersicht.

Freigeben über