Was ist personalisierte Stimme für Sprachsynthese?
Mit Personal Voice können Sie es Ihren Benutzern ermöglichen, die KI-generierte Replikation ihrer eigenen Stimmen in wenigen Sekunden abzurufen. Mit einer verbalen Äußerung und einem kurzen Sprachbeispiel als Audioprompt können Sie eine personalisierte Stimme für die Benutzer erstellen und ihnen das Generieren von Sprachausgaben in einer der über 90 Sprachen ermöglichen, die in mehr als 100 Gebietsschemas unterstützt werden.
Hinweis
Persönliche Stimme ist in diesen Regionen verfügbar: Westeuropa, Ost-USA und Südostasien. Unterstützte Gebietsschemata finden Sie unter Sprachunterstützung für persönliche Stimmen.
Die folgende Tabelle fasst den Unterschied zwischen persönlicher Stimme und professioneller benutzerdefinierter neuronaler Stimme zusammen.
Vergleich | Persönliche Stimme | Professionelle Stimme |
---|---|---|
Zielszenarien | Geschäftskunden erstellen eine App, damit ihre Benutzer ihre eigene persönliche Stimme in der App erstellen und verwenden können. | Professionelle Szenarien wie Marken- und Charakterstimmen für Chatbots oder das Lesen von Audioinhalten. |
Anwendungsfälle | Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise. Genehmigte Kunden sollten über einen Plan verfügen, mehr als 1.000 persönliche Stimmen zu unterstützen. | Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise. |
Trainingsdaten | Stellen Sie sicher, dass Sie dem Verhaltenskodex folgen. | Verwenden eigener Daten Die Aufzeichnung in einem professionellen Studio wird empfohlen. |
Erforderliche Datengröße | Eine Minute menschlicher Sprache. | 300-2000 Äußerungen (ca. 30 Minuten bis 3 Stunden menschliche Spracherkennung). |
Trainingsdauer | Weniger als 5 Sekunden | Ungefähr 20 bis 40 Computestunden. |
Stimmqualität | Natural | Hoch natürlich |
Unterstützung mehrerer Sprachen | Ja. Die Stimme kann über 100 Sprachen sprechen, wobei die automatische Spracherkennung aktiviert ist. | Ja. Sie müssen das Feature „Neural – lingual quer“ auswählen, um ein Modell zu trainieren, das eine andere Sprache als die Schulungsdaten spricht. |
Verfügbarkeit | Die Demo auf Speech Studio ist bei der Registrierung verfügbar. Der Zugriff auf die API ist auf berechtigte Kunden und genehmigte Anwendungsfälle beschränkt. Anfordern des Zugriffs über das Aufnahmeformular. | Sie können ein CNV Pro-Modell nur trainieren und bereitstellen, nachdem der Zugriff genehmigt wurde. Der Zugriff auf CNV Pro ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Anfordern des Zugriffs über das Aufnahmeformular. |
Preiskalkulation | Sehen Sie sich hier die Preisdetails1 an. | Sehen Sie sich hier die Preisdetails an. |
Verantwortungsvolle KI-Anforderungen | Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig. | Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig. |
1 Beachten Sie, dass die Preise für die personalisierte Stimme nur für Dienstregionen sichtbar sind, in denen das Feature verfügbar ist, einschließlich Europa, Westen, USA, Osten und Asien, Südosten.
Testen Sie die Demo
Wenn Sie über eine S0-Ressource verfügen, können Sie in Speech Studio auf die persönliche Stimmendemo zugreifen. Um die personalisierte Stimmen-API zu verwenden, können Sie sich hier für den Zugriff bewerben.
Navigieren Sie zu Speech Studio
Wählen Sie die KartePersönliche Stimme aus.
Sie können Ihre eigene Stimme aufzeichnen und die Sprachausgabebeispiele in verschiedenen Sprachen ausprobieren. Die Demo enthält eine Teilmenge der Sprachen, die von persönlicher Stimme unterstützt werden.
So erstellen Sie eine persönliche Stimme
Im Ersten Schritt finden Sie eine Zusammenfassung der Schritte zum Erstellen einer persönlichen Stimme:
- Erstellen eines Projekts
- Zustimmungsdatei hochladen. Mit der persönlichen Sprachfunktion ist es erforderlich, dass jede Stimme mit expliziter Zustimmung des Benutzers erstellt wird. Es ist eine aufgezeichnete Erklärung des Benutzers erforderlich, in der er bestätigt, dass der Kunde (Eigentümer der Azure AI Speech-Ressource) seine Stimme erstellen und verwenden wird.
- Rufen Sie eine Sprecherprofil-ID für die persönliche Stimme ab. Sie erhalten eine Sprecherprofil-ID basierend auf der mündlichen Zustimmungserklärung des Sprechers und einer Audioaufforderung. Die Stimmcharakteristik des Benutzers wird in der
speakerProfileId
-Eigenschaft kodiert, die für Text in Sprache verwendet wird.
Sobald Sie eine persönliche Stimme haben, können Sie diese für die Sprachsynthese in einer der 91 unterstützten Sprachen in über 100 Ländern verwenden. Ein Gebietsschematag ist nicht erforderlich. Persönliche Stimme verwendet die automatische Spracherkennung auf Satzebene. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.
Tipp
Sehen Sie sich die Codebeispiele im Speech SDK-Repository auf GitHub an, um zu erfahren, wie Sie eine personalisierte Stimme in Ihrer Anwendung verwenden.
Referenzdokumentation
Verantwortungsvolle KI
Wir kümmern uns um die Menschen, die KI und die Menschen nutzen, die davon betroffen sein werden, so viel wie wir uns um Technologie kümmern. Weitere Informationen finden Sie im Transparenzhinweis zu verantwortungsbewusster KI.
Nächste Schritte
- Erstellen eines Projekts
- Erfahren Sie mehr über benutzerdefinierte Neural Voice in der Übersicht.
- Weitere Informationen zu Speech Studio finden Sie in der Übersicht.