Share via


Was ist personalisierte Stimme für Sprachsynthese?

Mit Personal Voice können Sie in wenigen Sekunden eine KI-generierte Replikation Ihrer Stimme (oder der Benutzer Ihrer Anwendung) erhalten. Sie geben ein einminütiges Sprachbeispiel als Audio-Prompt vor und verwenden es dann, um Sprache in einer der über 90 unterstützten Sprachen in mehr als 100 Ländern zu erzeugen.

Hinweis

Persönliche Stimme ist in diesen Regionen verfügbar: Westeuropa, Ost-USA und Südostasien. Unterstützte Gebietsschemata finden Sie unter Sprachunterstützung für persönliche Stimmen.

Die folgende Tabelle fasst den Unterschied zwischen persönlicher Stimme und professioneller benutzerdefinierter neuronaler Stimme zusammen.

Vergleich Persönliche Stimme Professionelle Stimme
Zielszenarien Geschäftskunden erstellen eine App, damit ihre Benutzer ihre eigene persönliche Stimme in der App erstellen und verwenden können. Professionelle Szenarien wie Marken- und Charakterstimmen für Chatbots oder das Lesen von Audioinhalten.
Anwendungsfälle Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise. Genehmigte Kunden sollten über einen Plan verfügen, mehr als 1.000 persönliche Stimmen zu unterstützen. Beschränkt auf eingeschränkte Anwendungsfälle. Siehe die Transparenzhinweise.
Trainingsdaten Stellen Sie sicher, dass Sie dem Verhaltenskodex folgen. Verwenden eigener Daten Die Aufzeichnung in einem professionellen Studio wird empfohlen.
Erforderliche Datengröße Eine Minute menschlicher Sprache. 300-2000 Äußerungen (ca. 30 Minuten bis 3 Stunden menschliche Spracherkennung).
Trainingsdauer Weniger als 5 Sekunden Ungefähr 20 bis 40 Computestunden.
Stimmqualität Natural Hoch natürlich
Unterstützung mehrerer Sprachen Ja. Die Stimme kann über 100 Sprachen sprechen, wobei die automatische Spracherkennung aktiviert ist. Ja. Sie müssen das Feature „Neural – lingual quer“ auswählen, um ein Modell zu trainieren, das eine andere Sprache als die Schulungsdaten spricht.
Verfügbarkeit Die Demo auf Speech Studio ist bei der Registrierung verfügbar. Der Zugriff auf die API ist auf berechtigte Kunden und genehmigte Anwendungsfälle beschränkt. Anfordern des Zugriffs über das Aufnahmeformular. Sie können ein CNV Pro-Modell nur trainieren und bereitstellen, nachdem der Zugriff genehmigt wurde. Der Zugriff auf CNV Pro ist auf der Grundlage von Berechtigungs- und Nutzungskriterien begrenzt. Anfordern des Zugriffs über das Aufnahmeformular.
Preiskalkulation Sehen Sie sich hier die Preisdetails1 an. Sehen Sie sich hier die Preisdetails an.
Verantwortungsvolle KI-Anforderungen Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig. Die mündliche Erklärung des Sprechers ist erforderlich. Kein nicht genehmigter Anwendungsfall zulässig.

1 Beachten Sie, dass die Preise für die personalisierte Stimme nur für Dienstregionen sichtbar sind, in denen das Feature verfügbar ist, einschließlich Europa, Westen, USA, Osten und Asien, Südosten.

Testen Sie die Demo

Wenn Sie über eine S0-Ressource verfügen, können Sie in Speech Studio auf die persönliche Stimmendemo zugreifen. Um die personalisierte Stimmen-API zu verwenden, können Sie sich hier für den Zugriff bewerben.

  1. Navigieren Sie zu Speech Studio

  2. Wählen Sie die KartePersönliche Stimme aus.

  3. Sie können Ihre eigene Stimme aufzeichnen und die Sprachausgabebeispiele in verschiedenen Sprachen ausprobieren. Die Demo enthält eine Teilmenge der Sprachen, die von persönlicher Stimme unterstützt werden.

    Screenshot der persönlichen Stimmdemo-Erfahrung in Speech Studio.

So erstellen Sie eine persönliche Stimme

Im Ersten Schritt finden Sie eine Zusammenfassung der Schritte zum Erstellen einer persönlichen Stimme:

  1. Erstellen eines Projekts
  2. Zustimmungsdatei hochladen. Mit der persönlichen Sprachfunktion ist es erforderlich, dass jede Stimme mit expliziter Zustimmung des Benutzers erstellt wird. Es ist eine aufgezeichnete Erklärung des Benutzers erforderlich, in der er bestätigt, dass der Kunde (Eigentümer der Azure AI Speech-Ressource) seine Stimme erstellen und verwenden wird.
  3. Rufen Sie eine Sprecherprofil-ID für die persönliche Stimme ab. Sie erhalten eine Sprecherprofil-ID basierend auf der mündlichen Zustimmungserklärung des Sprechers und einer Audioaufforderung. Die Stimmcharakteristik des Benutzers wird in der speakerProfileId-Eigenschaft kodiert, die für Text in Sprache verwendet wird.

Sobald Sie eine persönliche Stimme haben, können Sie diese für die Sprachsynthese in einer der 91 unterstützten Sprachen in über 100 Ländern verwenden. Ein Gebietsschematag ist nicht erforderlich. Persönliche Stimme verwendet die automatische Spracherkennung auf Satzebene. Weitere Informationen finden Sie unter Persönliche Stimme in Ihrer Anwendung verwenden.

Tipp

Sehen Sie sich die Codebeispiele im Speech SDK-Repository auf GitHub an, um zu erfahren, wie Sie eine personalisierte Stimme in Ihrer Anwendung verwenden.

Referenzdokumentation

Verantwortungsvolle KI

Wir kümmern uns um die Menschen, die KI und die Menschen nutzen, die davon betroffen sein werden, so viel wie wir uns um Technologie kümmern. Weitere Informationen finden Sie im Transparenzhinweis zu verantwortungsbewusster KI.

Nächste Schritte