Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wichtig
Nicht englische Übersetzungen werden nur zur Bequemlichkeit bereitgestellt. Bitte konsultieren Sie die EN-US Version dieses Dokuments für die endgültige Version.
Was ist eine Transparenznotiz?
Ein KI-System umfasst nicht nur die Technologie, sondern auch die Personen, die es nutzen werden, die Menschen, die davon betroffen sind, und die Umgebung, in der sie bereitgestellt wird. Die Erstellung eines Systems, das für den vorgesehenen Zweck geeignet ist, erfordert ein Verständnis dafür, wie Technologie funktioniert, was ihre Funktionen und Einschränkungen sind und wie Sie die beste Leistung erzielen können. Microsoft Transparenzhinweise sollen Ihnen helfen, zu verstehen, wie unsere KI-Technologie funktioniert, welche Entscheidungen Systembesitzer treffen können, die die Systemleistung und das Verhalten beeinflussen, und wie wichtig es ist, das gesamte System zu berücksichtigen, einschließlich der Menschen, der Technologie und der Umgebung. Sie können Transparenzhinweise verwenden, wenn Sie Ihr eigenes System entwickeln oder bereitstellen oder mit den Personen teilen, die ihr System verwenden oder davon betroffen sind.
Microsoft Transparenzhinweise sind Teil eines umfassenderen Aufwands für Microsoft, unsere KI-Prinzipien in die Praxis umzusetzen. Weitere Informationen finden Sie unter die Microsoft KI-Prinzipien.
Die Grundlagen von Text zu Sprache
Einführung
Text to speech, Teil von Azure Speech in Foundry Tools, ist ein vielseitiges Tool, mit dem geschriebener Text in Sprachaudio mit natürlichem Sound konvertiert werden kann. Das Feature verwendet Eingaben in Form von Text und generiert eine qualitativ hochwertige Sprachaudioausgabe, die auf Geräten wiedergegeben werden kann. Für die Sprachaudioausgabe bietet Text zu Sprache eine Reihe vordefinierter neuraler Stimmen oder für Kunden mit eingeschränktem Zugriff die Möglichkeit, eine benutzerdefinierte neurale Stimme für Ihr Produkt oder Ihre Marke zu erstellen.
Text-zu-Sprache verfügt auch über visuelle Funktionen. Mit einem Text-to-Speech-Avatar können Kunden Text eingeben und ein synthetisches Video von einem sprechenden Avatar erstellen. Sowohl vorgefertigte Text-zu-Sprache-Avatare als auch benutzerdefinierte Text-zu-Sprache-Avatare sind verfügbar, die sowohl mit vorgefertigter neuraler Stimme als auch mit benutzerdefinierter neuraler Stimme verwendet werden können, obwohl einige Funktionen nur für Kunden mit beschränktem Zugriff verfügbar sind.
In einem Text-zu-Sprachsystem können Kunden geschriebene Informationen in hörbare Sprache umwandeln und die Barrierefreiheit für Benutzer verbessern. Ganz gleich, ob beim Anhören von Dokumenten oder bei der Verbesserung der Benutzerfreundlichkeit mit synthetisierter Sprache, Text-zu-Sprache wandelt Text in natürlich klingende gesprochene Wörter um.
Schlüsselbegriffe
| Begriff | Definition |
|---|---|
| Sprachsynthese in Echtzeit | Verwenden Sie das Speech SDK oder die REST-API , um Text in Sprache zu konvertieren, indem Sie vordefinierte neurale Stimme, vordefinierten Text in Sprach avatar, benutzerdefinierte neurale Stimme und benutzerdefiniertenText in einen Sprach avatar verwenden. |
| Sprachmodell | In einem Text-zu-Sprachsystem bezieht sich ein Sprachmodell auf ein machine learning-basiertes Modell oder Algorithmus, das synthetische Sprache aus geschriebenem Text generiert. Dieses Modell wird trainiert, texteingaben in gesprochene Sprachausgabe zu konvertieren und die Merkmale einer menschlichen Stimme nachzuahmen, einschließlich Tonhöhe, Ton und Aussprache. |
| Prosodie | Prosody bezieht sich auf die Modulation von Sprachelementen wie Tonhöhe, Dauer, Lautstärke und Pausen, um synthetische Stimmen mit einer natürlichen und ausdrucksstarken Qualität zu infizieren, emotionale Nuancen und kontextbezogene Bedeutung zu vermitteln, wodurch die Roboterqualität der generierten Sprache reduziert und es für Hörer ansprechender und verständlicher macht. |
| Speech Synthesis Markup Language ("SSML") | Speech Synthesis Markup Language (SSML) ist eine XML-basierte Markupsprache, die zum Anpassen von Text an Sprachausgabe verwendet wird. Mit SSML können Sie die Tonhöhe anpassen, Pausen hinzufügen, die Aussprache verbessern, die Sprechgeschwindigkeit ändern, die Lautstärke anpassen und mehrere Stimmen einem einzelnen Dokument zuweisen. Sie können SSML verwenden, um Ihre eigenen Lexika zu definieren oder zu unterschiedlichen Sprachstilen zu wechseln. |
| Asynchrone Synthese langer Audiodaten | Verwenden Sie die Batchsynthese-API (Vorschau), um Text asynchron zu Sprachdateien zu synthetisieren, die länger als 10 Minuten sind (z. B. Hörbücher oder Vorträge). Im Gegensatz zur Synthese, die über das Speech SDK oder speech to text REST API ausgeführt wird, werden Antworten nicht in Echtzeit zurückgegeben. Die Erwartung besteht darin, dass Anforderungen asynchron gesendet werden, Antworten abgefragt werden und synthetisierte Audiodaten heruntergeladen werden, wenn der Dienst sie verfügbar macht. |
| Visemes | Mundbilder sind die Schlüsselpositionen in der beobachteten Sprache, einschließlich der Position der Lippen, des Kiefers und der Zunge bei der Produktion eines bestimmten Phonems. Visemes haben eine starke Korrelation mit Stimmen und Phonemen. |
- Vorkonfigurierte neurale Stimme
- Benutzerdefinierte neurale Stimme
- Vordefinierter Text in Sprach-Avatar
- Benutzerdefinierter Text in Sprach-Avatar
- Videoübersetzung
Einführung
Vordefinierte neuronale Stimme bietet eine Vielzahl an Stimmen mit über 400 Optionen in mehr als 140 Sprachen und Gebietsschemas. Diese Text-zu-Sprache-Stimmen ermöglichen es Ihnen, die Vorlesefunktion schnell in Ihre Anwendungen zu integrieren, um die Barrierefreiheit zu verbessern.
Schlüsselbegriffe
| Begriff | Definition |
|---|---|
| Vorkonfigurierte neurale Stimme | Microsoft bietet eine Reihe vordefinierter neuraler Stimmen, die tiefe neurale Netzwerke verwenden, um die Grenzen der traditionellen Sprachsynthese in Bezug auf Stress und Intonation in gesprochener Sprache zu überwinden. Prosodyvorhersage und Sprachsynthese erfolgen gleichzeitig, was zu flüssigeren und natürlich klingenden Ausgaben führt. Jedes Modell mit vordefinierter neuronaler Stimme ist mit 24 kHz und als High-Fidelity-Version mit 48 kHz verfügbar. Die Ausgabe kann durch Upsampling oder Downsampling in andere Formate konvertiert werden. |
Funktionen
Systemverhalten
Text-zu-Sprache
Text-zu-Sprache wandelt Text in natürlich klingende Sprache um.
Im Folgenden finden Sie die wichtigsten Optionen zum Aufrufen des Texts in den Sprachdienst.
Echtzeit-Text-in-Sprache-API
Dies ist ein gängiger API-Aufruf über das Speech SDK oder die REST-API , um eine Texteingabe zu senden und eine Audioausgabe in Echtzeit zu empfangen. Das Spracherkennungssystem verwendet ein Text-zu-Sprache-Sprachmodell, um den Text in menschliche, ähnliche synthetische Sprache umzuwandeln. Die Ausgabeaudio kann als Datei gespeichert oder auf einem Ausgabegerät wie einem Lautsprecher wiedergegeben werden (erfahren Sie mehr über das Synthetisieren von Sprachausgabe aus Text). Benutzer können auch SSML verwenden, um den Text in die Sprachausgabe zu optimieren.
Text-zu-Sprachmodelle werden in großen Mengen unterschiedlicher Audiodaten in typischen Nutzungsszenarien und einer breiten Palette von Lautsprechern trainiert. Beispielsweise wird der Text-zu-Sprachdienst häufig für sprachfähige Chat-Bots oder für die Erstellung von Audioinhalten verwendet.
API für Batchsynthese
Batchsynthese ist eine andere Art von API-Aufruf. Es wird in der Regel verwendet, um große Textdateien zu senden und Audioausgaben asynchron zu empfangen (d. r. zu einem späteren Zeitpunkt). Um diese API zu verwenden, können Sie Speicherorte für mehrere Textdateien angeben. Die Text-zu-Sprache-Technologie liest die Texteingabe aus der Datei und generiert Audiodateien, die an den von Ihnen angegebenen Speicherort zurückgegeben werden. Dieses Feature wird verwendet, um größere Sprachsyntheseaufträge zu unterstützen, bei denen es nicht erforderlich ist, Endbenutzern die Audioausgabe in Echtzeit bereitzustellen. Ein Beispiel ist das Erstellen von Hörbüchern.
Text zu Sprache – benutzerdefinierte neurale Stimme
Custom Neural Voice ist ein Text-zu-Sprache-Feature, mit dem Kunden mit eingeschränktem Zugriff eine einzigartige angepasste synthetische Stimme für ihre Anwendungen erstellen können, indem sie ihre eigenen Audiodaten der ausgewählten Stimmtalente bereitstellen.
Mit der angepassten neuronalen Stimme können Sie Ihren Sprecher aufnehmen, indem Sie ihn von Microsoft bereitgestellte Skripte im Speech Studio lesen lassen und mit einem Lite-Projekt (Vorschau) schnell eine synthetische Stimme erstellen, die wie Ihr Sprecher klingt. Ein Lite-Projekt eignet sich ideal für eine schnelle Testversion oder einen Machbarkeitsnachweis.
Mit einem Pro-Projekt können Sie von Studio aufgezeichnete qualitativ hochwertige Sprachdaten Ihres ausgewählten Sprachtalents hochladen und eine realistisch klingende Stimme erstellen. Pro unterstützt ein sehr natürliches Sprachtraining, das der Stimme Ihres Sprachtalents noch enger ähnelt und an mehrere Emotionen und sprachenübergreifend angepasst werden kann, ohne dass zusätzliche emotionsspezifische oder sprachspezifische Schulungsdaten erforderlich sind.
Nachdem eine benutzerdefinierte neurale Stimme erstellt wurde, können Sie das VoIP-Modell mit einem eindeutigen Endpunkt bereitstellen und das Modell verwenden, um synthetische Spracherkennung mit der oben beschriebenen Echtzeitsynthese-API oder der oben beschriebenen Batchsynthese-API zu generieren.
Weitere Informationen zur benutzerdefinierten neuralen Stimme finden Sie unter Übersicht über die benutzerdefinierte neurale Stimme.
Persönliche Stimme
Mit der persönlichen Sprachfunktion können Kunden mit eingeschränktem Zugriff ein Sprachmodell aus einer kurzen menschlichen Sprachprobe erstellen. Das Feature kann ein Sprachmodell basierend auf der Eingabeaufforderung in nur wenigen Sekunden erstellen. Dieses Feature wird in der Regel verwendet, um personalisierte Sprachfunktionen für die Anwendungen von Geschäftskunden zu nutzen. Persönliche Sprachmodelle können realistisch klingende Stimmen erstellen, die in nahezu 100 Sprachen sprechen können.
Wasserzeichen werden zu benutzerdefinierten neuralen Stimmen hinzugefügt, die mit der personalisierten Sprachfunktion erstellt wurden. Mit Wasserzeichen können Benutzer erkennen, ob die Sprache mit dem Azure-Dienst für Sprachsynthese erzeugt wurde und insbesondere, welche Stimme verwendet wurde. Berechtigte Kunden können die Erkennungsfunktionen für Sprachwasserzeichen von Azure nutzen. Wenden Sie sich bitte an mstts[at]microsoft.com, um die Wasserzeichenerkennung zu Ihren Anwendungen hinzuzufügen.
Weitere Informationen zur persönlichen Stimme finden Sie unter "Persönliche Stimme".
Text-zu-Sprache-Avatar
Ein Text-zu-Sprache-Avatar wandelt Text in ein digitales Video eines fotorealistischen Menschen um (entweder eines vordefinierten oder eines benutzerdefinierten Avatars), der mit einer natürlich klingenden Stimme spricht, die von Text-zu-Sprache-Funktionen wie vordefinierte neurale Stimme oder benutzerdefinierte neurale Stimme unterstützt wird. Der Text zu Sprach-Avatarvideo kann asynchron oder in Echtzeit synthetisiert werden. Entwickler können Anwendungen erstellen, die in Text- und Sprach avatar integriert sind, über eine API oder mithilfe eines Inhaltserstellungstools in Speech Studio Videoinhalte ohne Codierung erstellen.
Mit den fortschrittlichen neuronalen Netzwerkmodellen des Text-to-Speech-Avatars befähigt die Funktion die Nutzer, lebensechte und hochwertige synthetische sprechende Avatar-Videos für verschiedene Anwendungen zu erstellen.
Der Text-to-Speech-Avatar übernimmt den Standard der Coalition for Content Provenance and Authenticity (C2PA), um dem Publikum klarere Einblicke in die Herkunft und Geschichte von Videoinhalten zu geben, die von Avataren erstellt wurden. Dieser Standard bietet transparente Informationen zur KI-Generierung von Videoinhalten. Weitere Informationen zur Integration von C2PA mit text to speech Avataren finden Sie unter Content Credentials in Azure Sprachsynthese Avatar.
Darüber hinaus werden Avatarausgaben automatisch mit einem Wasserzeichen versehen. Mit Wasserzeichen können genehmigte Benutzer erkennen, ob ein Video mithilfe des Avatarfeatures von Azure Sprache synthetisiert wird. Um die Wasserzeichenerkennung anzufordern, wenden Sie sich bitte an avatarvoice[at]microsoft.com.
Videoübersetzung
Die Videoübersetzung kann Ihre Videoinhalte effizient lokalisieren, um diverse Zielgruppen weltweit zu erreichen. Die Videoübersetzung extrahiert automatisch Dialogaudio, transkribiert, übersetzt und vertont die Inhalte mit einer vordefinierten oder persönlichen Stimme in die Zielsprache, mit präzisen Untertiteln für eine bessere Zugänglichkeit. Multilautsprecherfeatures helfen dabei, die Anzahl der sprechenden Personen zu identifizieren und geeignete Stimmen zu empfehlen. Die Inhaltsbearbeitung mit menschlichem Eingreifen ermöglicht eine präzise Ausrichtung an Kundenpräferenzen. Verbesserte Übersetzungsqualität gewährleistet eine präzise Audio- und Videosynchronisierung durch die Integration von GPT. Die Videoübersetzung ermöglicht authentische und personalisierte Synchronisationserfahrungen mit persönlicher Stimme.
Anwendungsfälle
Text-zu-Sprache bietet eine Vielzahl von Funktionen, die für eine breite Palette von vorgesehenen Anwendungen in branchen- und domänenübergreifenden Bereichen dienen. Alle Text-to-Speech-Funktionen, darunter auch die Videoübersetzung, unterliegen den Allgemeinen Geschäftsbedingungen, die für das Azure-Abonnement der Kunden gelten, einschließlich der Azure-Richtlinie zur akzeptablen Nutzung und dem Verhaltenskodex für Azure-Sprache Text-to-Speech.
Darüber hinaus sind benutzerdefinierte Text-zu-Sprache-Features wie benutzerdefinierte neurale Stimme, persönliche Stimme und benutzerdefinierter Text für Sprach avatar auf die genehmigten Anwendungsfälle beschränkt, wie in den unten beschriebenen spezifischen Szenarien beschrieben:
Beabsichtigte Verwendung für Custom Neural Voice Pro und custom Neural Voice Lite
Im Folgenden sind die genehmigten Anwendungsfälle für Custom Neural Voice Pro und Custom Neural Voice Lite aufgeführt:
- Bildungs- oder interaktives Lernen: Um eine fiktive Marke oder Charakterstimme zum Lesen oder Sprechen von Unterrichtsmaterialien, Onlinelernen, interaktiven Unterrichtsplänen, Simulationslernen oder geführten Museumstouren zu erstellen.
- Medien: Unterhaltung: Um eine fiktive Marke oder Charakterstimme zum Lesen oder Sprechen von Unterhaltungsinhalten für Videospiele, Filme, TV, aufgezeichnete Musik, Podcasts, Hörbücher oder augmentierte oder virtuelle Realität zu erstellen.
- Medien: Marketing: Um eine fiktive Marke oder Charakterstimme zum Lesen oder Sprechen von Marketing- und Produkt- oder Dienstleistungsmedien, Produkteinführungen, Unternehmensförderung oder Werbung zu schaffen.
- Selbstverfasster Inhalt: Um eine Stimme zu erstellen, die Inhalte liest, die vom Sprachtalent verfasst wurden.
- Barrierefreiheitsfunktionen: Zur Verwendung in Audiobeschreibungssystemen und Erzählungen, einschließlich fiktiver Marken- oder Charakterstimme, oder zur Erleichterung der Kommunikation durch Personen mit Sprachbeeinträchtigungen.
- Interactive Voice Response (IVR)-Systeme: So erstellen Sie Stimmen, einschließlich fiktiver Marken- oder Charakterstimme, für Call center-Operationen, Telefoniesysteme oder Antworten für Telefoninteraktionen.
- Öffentliche Dienst- und Informationsankündigungen: Um eine fiktive Marke oder Charakterstimme zu erstellen, die für die Kommunikation von öffentlichen Dienstleistungen verwendet wird, einschließlich Ankündigungen für öffentliche Räume oder für Informationssendungen wie Verkehr, Wetter, Veranstaltungsinformationen und Zeitpläne. Dieser Anwendungsfall ist nicht für journalistische oder Nachrichteninhalte vorgesehen.
- Übersetzung und Lokalisierung: Für die Verwendung in Übersetzungsanwendungen zum Übersetzen von Unterhaltungen in verschiedenen Sprachen oder zum Übersetzen von Audiomedien.
- Virtual Assistant oder Chatbot: Zum Erstellen einer fiktiven Marke oder Zeichenstimme für intelligente Assistenten in oder für virtuelle Web-Assistenten, Geräte, Autos, Haushaltsgeräte, Spielzeug, Kontrolle von IoT-Geräten, Navigationssystemen, Lesen persönlicher Nachrichten, virtueller Begleiter oder Kundendienstszenarien.
Beabsichtigte Verwendungen für persönliche Stimme
Die persönliche VoIP-API (weitere Informationen finden Sie unter "Persönliche Stimme ") ist in der Vorschau für eingeschränkten Zugriff verfügbar. Nur Kunden, die die Berechtigungskriterien für eingeschränkten Zugriff erfüllen, können die persönliche VoIP-API in ihre Anwendungen integrieren. Diese berechtigten Kunden dürfen nur persönliche Stimmen für die folgenden Anwendungsfälle verwenden:
- Anwendungen: Für die Verwendung in Anwendungen, bei denen die Sprachausgabe durch Kunden eingeschränkt und definiert wird und bei denen die Stimme keine durch Benutzer generierten oder offene Inhalte liest. Die Nutzung des Sprachmodells darf nur innerhalb der Anwendung erfolgen, und die Ausgabe darf nicht über die Anwendung veröffentlicht oder weitergegeben werden. Einige Beispiele für Anwendungen, die dieser Beschreibung entsprechen, sind Sprachassistenten auf intelligenten Geräten und das Anpassen einer Zeichenstimme in Spielen.
- Medien, Filme und TV: Nur für die Vertonung von Filmen, TV, Video und Audio für Unterhaltungsszenarien, bei denen der Kunde die alleinige Kontrolle über die Erstellung, den Zugriff auf und die Verwendung der Sprachmodelle und deren Ausgabe behält.
- Geschäftsinhalte: So erstellen Sie Audio- und Videoinhalte für Geschäftsszenarien, um Produktinformationen, Marketingmaterialien, Geschäftliche Werbeinhalte und interne Geschäftskommunikation zu kommunizieren.
- Spezieller Einsatz, gebündelt mit Videoübersetzung: Um Stimmen für jeden Sprecher in einem Video zu synthetisieren. Kunden können auch in Zielsprachen lippen-synchronisierte Audioinhalte bearbeiten und erstellen. Kunden müssen in diesem Szenario keine zusätzliche Microsoft audiozustimmung für Videoinhalte übermitteln, aber Kunden müssen die alleinige Kontrolle über die Erstellung, den Zugriff und die Nutzung der Sprachmodelle und deren Ausgaben behalten.
Alle anderen Verwendungen benutzerdefinierter neuraler Stimme, einschließlich Custom Neural Voice Pro, Custom Neural Voice Lite und persönlicher Stimme, sind verboten. Darüber hinaus ist benutzerdefinierte neurale Stimme ein Eingeschränkter Zugriffsdienst, und für den Zugriff auf diesen Dienst ist eine Registrierung erforderlich. Weitere Informationen zur Richtlinie für eingeschränkten Zugriff von Microsoft finden Sie unter Limited Access-Features für Foundry Tools. Bestimmte Features sind nur für Microsoft verwaltete Kunden und Partner verfügbar, und nur für bestimmte Anwendungsfälle, die von Microsoft zum Zeitpunkt der Registrierung genehmigt wurden.
Eine vorkonfigurierte neurale Stimme kann auch für die oben genannten benutzerdefinierten Anwendungsfälle neuraler Stimmen sowie für zusätzliche Anwendungsfälle verwendet werden, die von Kunden ausgewählt werden und mit der Azure Acceptable Use Policy sowie dem Code of conduct for Azure Speech text to speech im Einklang stehen. Für zusätzliche Anwendungsfälle für vorkonfigurierte neurale Stimme, die alle anwendbaren Geschäftsbedingungen erfüllen, ist keine Registrierung oder Vorabgenehmigung erforderlich.
Beabsichtigte Anwendungsfälle für die Videoübersetzung
Videoübersetzungen können für Filme, TV und andere visuelle Elemente (einschließlich, aber nicht beschränkt auf Video oder Animation) und Audioanwendungen verwendet werden, in denen Kunden die alleinige Kontrolle über die Erstellung, den Zugriff und die Nutzung der Sprachmodelle und deren Ausgabe behalten. Die persönliche Sprach- und Lippensynchronisierung unterliegt dem Framework für eingeschränkten Zugriff, und berechtigte Kunden können diese Funktionen mit Videoübersetzung verwenden. Im Folgenden sind die genehmigten Anwendungsfälle für den Videoübersetzungsdienst aufgeführt:
- Bildung & Lernen: Zum Übersetzen von Audio in pädagogischen Visuellen, Onlinekursen, Schulungsmodulen, simulationsbasiertem Lernen oder geführten Museumsführungsvisualen für mehrsprachige Lernende.
- Medien: Unterhaltung: Um Audio in Filmen, Filmen, TV-Sendungen, Dokumentationen, Videospielen, Miniserien, Kurzspiel- und AR/VR-Inhalten für globale Zielgruppen zu übersetzen, sorgen Sie für nahtloses Geschichtenerzählen in allen Sprachen.
- Medien: Marketing: Um Audio in Werbebilder, Produktdemos, Werbung und Brandingkampagnen zu übersetzen, um mit internationalen Märkten und Kulturen zu resonieren.
- Eigenverfasste Inhalte: Zum Übersetzen von Audio in Vlogs, Kurzvideos, Influencer-Inhalten, Reiseführern, Ziel-Werbevideos, visuellen Social-Media-Elementen und Kulturhighlight-Zusammenfassungen, um sie zugänglich und ansprechend zu machen.
- Unternehmensschulung und -kommunikation: Audio in visuellen internen Kommunikationen, Mitarbeitereinführungsmaterialien, Complianceschulungen und globalen Unternehmensankündigungen für internationale Teams übersetzen.
- E-Commerce & Produktdemonstrationen: Zur Übersetzung von Audio in Produkt-Unboxing-Videos, Tutorials, Kundenbewertungen und Erklärvideos für internationale Käufer.
- Ankündigungen für öffentliche Dienste und Informationen: Um Audio in visuellen Elementen der öffentlichen Sensibilisierung, Veranstaltungspläne, Sicherheitsankündigungen und regierungsamtliche Informationssendungen für die mehrsprachige Zugänglichkeit zu übersetzen.
- Barrierefreiheitsfunktionen: Zur Verbesserung der Zugänglichkeit von Videoinhalten durch mehrsprachige Audio- und Untertitel.
- Nachrichten und Journalistische Inhalte: Um Audio in Nachrichtensegmente, Interviews, Pressemitteilungen und aktuelle Nachrichtenberichte für linguistische Zielgruppen zu übersetzen. Kunden, die Nachrichtenquellen übersetzen möchten, benötigen zusätzliche Überprüfungen.
Die beabsichtigten Verwendungen der benutzerdefinierten und vorgefertigten Text-in-Sprache-Avatare
Im Folgenden sind die genehmigten Anwendungsfälle für die benutzerdefinierten Text-zu-Sprache-Avatare aufgeführt.
- Virtual Assistant oder Chatbot: Zum Erstellen virtueller Assistenten, virtueller Begleiter, virtueller Vertriebsassistenten oder für Kundendienstanwendungen.
- Inhaltsgenerierung für Unternehmenskontexte: Zur Kommunikation von Produktinformationen, Marketingmaterialien, Geschäftlichen Werbeinhalten und interner Geschäftskommunikation. Beispiele hierfür sind Charakter-Avatare oder digitale Zwillinge eines Unternehmensführers, um eine Marke zu fördern.
- Bildungs- oder interaktives Lernen: So erstellen Sie einen fiktiven Marken- oder Charakter-Avatar zum Präsentieren von Lernmaterialien, Online-Lernen, interaktiven Unterrichtsplänen, Simulationslernen oder geführten Museumstouren.
- Medien: Unterhaltung: Um Updates zu präsentieren, Wissen zu teilen, interaktive Medien zu erstellen oder Gesprächsleitervideos für Unterhaltungsszenarien wie Videos, Spiele und augmentierte oder virtuelle Realität zu machen.
- Barrierefreiheitsfunktionen: Zur Erleichterung der Kommunikation für Personen mit Sprachbeeinträchtigungen.
- Eigenverfasste Inhalte: Um einen Avatar zu erstellen, um Inhalte zu lesen, die vom Avatar-Talent verfasst wurden.
- Öffentliche Dienstleistung und Informationsankündigungen: Um ein fiktives Marken- oder Charakterbild zu erstellen, das Informationen für öffentliche Dienste kommuniziert, einschließlich Ankündigungen für öffentliche Veranstaltungsorte oder für Informationsübertragungen wie Verkehrsmeldungen, Wetterberichte, Veranstaltungsinformationen und Zeitpläne. Dieser Anwendungsfall ist nicht für journalistische oder Nachrichteninhalte vorgesehen.
- Übersetzung und Lokalisierung: Für die Verwendung in Übersetzungsanwendungen zum Übersetzen von Unterhaltungen in verschiedenen Sprachen oder zum Übersetzen von Audiomedien im Videoformat.
Alle anderen Verwendungen von benutzerdefiniertem Text zu Sprach-Avataren sind verboten. Darüber hinaus ist ein benutzerdefinierter Text-zu-Sprache-Avatar ein Dienst mit eingeschränktem Zugang, und die Registrierung ist erforderlich, um auf diese Funktion zuzugreifen. Weitere Informationen zur Richtlinie für eingeschränkten Zugriff von Microsoft finden Sie unter aka.ms/limitedaccesscogservices. Bestimmte Features sind nur für Microsoft verwaltete Kunden und Partner verfügbar, und nur für bestimmte Anwendungsfälle, die von Microsoft zum Zeitpunkt der Registrierung genehmigt wurden.
Vordefinierter Avatar für Text-zu-Sprache kann auch für die oben genannten benutzerdefinierten Avatar-Anwendungsfälle und zusätzliche Anwendungsfälle verwendet werden, die von Kunden ausgewählt wurden und mit der Azure-Richtlinie zur zulässigen Nutzung und dem Verhaltenskodex für Azure Text-zu-Sprache übereinstimmen. Es ist keine Registrierung oder Vorabgenehmigung erforderlich für zusätzliche Verwendungszwecke von vorgefertigten Text-zu-Sprache-Avataren, die alle anwendbaren Nutzungsbedingungen erfüllen.
Überlegungen bei der Auswahl von Anwendungsfällen
Wir empfehlen Kunden, Text-zu-Sprache-Funktionen in ihren innovativen Lösungen oder Anwendungen zu verwenden. Alle Text-zu-Sprache-Features müssen der Azure-Nutzungsrichtlinie und dem Verhaltenskodex für Azure Text-zu-Sprache entsprechen. Darüber hinaus dürfen benutzerdefinierte neurale Stimme und benutzerdefinierter Text für Sprach avatare nur für die Anwendungsfälle verwendet werden, die über das Registrierungsformular für beschränkten Zugriff genehmigt wurden. Darüber hinaus sind hier einige Überlegungen bei der Auswahl eines Anwendungsfalles für text-zu-Sprache-Features aufgeführt:
- Sicherstellen der Anwendungsfallausrichtung: Stellen Sie sicher, dass die beabsichtigte Verwendung von Text-zu-Sprache-Features mit den Funktionen und dem beabsichtigten Zweck des Text-zu-Sprache-Features übereinstimmt.
- Verantwortungsvolle KI-Überlegungen: Priorisieren Sie verantwortungsvolle KI-Praktiken, indem Sie die Erstellung irreführender oder schädlicher Inhalte vermeiden. Beachten Sie Datenschutz-, Datensicherheits- und rechtliche Vorschriften bei der Verwendung von Text-zu-Sprache-Funktionen.
- Überprüfen Sie den Verhaltenskodex: Microsoft hat einen Verhaltenskodex etabliert, der bestimmte Verwendungen aller Funktionen zur Sprachausgabe untersagt. Stellen Sie beim Auswählen eines Anwendungsfalles für Text-zu-Sprache-Dienste die Einhaltung des Verhaltenskodex sicher.
- Redaktionelle Kontrolle ausüben: Erwägen Sie sorgfältig die Verwendung synthetischer Stimmen mit Inhalten, die keine ordnungsgemäße redaktionelle Kontrolle haben, da synthetische Stimmen menschenähnliches Klingen und die Wirkung falscher oder irreführender Inhalte verstärken können.
- Offenlegung: Legen Sie den Nutzern die synthetische Natur von Stimmen, Bildern und/oder Videos offen, sodass die Benutzer nicht getäuscht oder dazu verleitet werden können, zu glauben, dass sie mit einer echten Person interagieren.
- Rechtliche und behördliche Überlegungen: Organisationen müssen potenzielle spezifische rechtliche und behördliche Verpflichtungen bewerten, wenn Sie Foundry Tools und Lösungen verwenden, die möglicherweise nicht für die Verwendung in jeder Branche oder in jedem Szenario geeignet sind. Darüber hinaus sind Foundry Tools oder Lösungen nicht für sie ausgelegt und dürfen nicht auf eine Weise verwendet werden, die in anwendbaren Nutzungsbedingungen und relevanten Verhaltensregeln verboten ist.
Durch die Einhaltung dieser Überlegungen können Benutzer sowohl vordefinierte als auch benutzerdefinierte neurale Stimme verantwortungsbewusst nutzen.
Einschränkungen
Die Einschränkungen von Text zu Sprache sollten an der Schnittmenge der Technologie und der menschlichen, sozialen und organisatorischen Faktoren berücksichtigt werden, die ihre Nutzung und Wirkung beeinflussen. Während Text-zu-Sprache erweiterte Sprachsynthesefunktionen bietet, gibt es bestimmte Einschränkungen, die bei verantwortungsvollem Einsatz beachtet werden sollten, um potenzielle Fehler zu minimieren.
Technische Einschränkungen, Betriebliche Faktoren und Reichweiten
Technische Einschränkungen, die bei der Verwendung von Text-zu-Sprache berücksichtigt werden müssen, umfassen die Genauigkeit der Aussprache und Intonation. Während Text-to-Speech entwickelt wurde, um natürlich klingende Sprache zu generieren, könnte es auf Schwierigkeiten mit bestimmten Wörtern, Namen oder ungewöhnlichen Ausdrücken stoßen. Benutzer sollten sich bewusst sein, dass es Fälle geben kann, in denen das System Wörter falsch ausdrücken oder falsch hervorheben kann, insbesondere beim Umgang mit Nischen- oder domänenspezifischem Vokabular.
Es ist wichtig zu beachten, dass bestimmte Bevölkerungsgruppen durch diese technischen Einschränkungen negativer beeinflusst werden können. Beispielsweise können Personen mit Hörbehinderungen, die stark auf synthetisierte Spracherkennung angewiesen sind, Probleme beim Verständnis unklarer oder verzerrter Sprachausgabe haben. Ebenso können Benutzer mit kognitiven oder sprachbezogenen Behinderungen Schwierigkeiten haben, Sprache mit unnatürlicher Intonation oder falsch ausgesprochenen Wörtern zu verstehen.
- Vorkonfigurierte neurale Stimme
- Benutzerdefinierte neurale Stimme
- Vordefinierter Text in Sprach-Avatar
- Benutzerdefinierter Text in Sprach-Avatar
- Videoübersetzung
- Sprachliche Einschränkungen: Während wir Schulungsdaten sorgfältig zusammenstellen und vorbereiten, um Verzerrungen zu minimieren, insbesondere im Zusammenhang mit Geschlecht, Ethnie oder regionalen Akzenten, und während Text zu Sprache mehrere Sprachen und Akzente unterstützt, kann es Abweichungen in der Qualität und Verfügbarkeit von Stimmen in verschiedenen Sprachen geben. Kunden sollten sich potenzielle Einschränkungen bei der Genauigkeit der Aussprache, intonation und sprachlichen Nuancen bewusst sein, die für bestimmte Sprachen oder Dialekte spezifisch sind.
- Kontext und Emotion: Text zu Sprache kann Einschränkungen bei der präzisen Vermittlung kontextbezogener Informationen und Emotionen haben. Kunden sollten sich der Unfähigkeit des Systems bewusst sein, die emotionalen Nuancen oder subtilen Hinweise zu verstehen, die im Eingabetext vorhanden sind. Es sollten Überlegungen getroffen werden, um zusätzlichen Kontext bereitzustellen oder andere Methoden zu nutzen, um Emotionen effektiv zu vermitteln.
- Availability: Microsoft wird den Kunden 12 Monate im Voraus eine Mitteilung über das Entfernen vorgefertigter neuraler Stimmen aus unserem Katalog bereitstellen, es sei denn, Sicherheits-, rechtliche oder Systemleistungsaspekte erfordern eine beschleunigte Entfernung. Dies gilt nicht für Vorschauen.
Jede Anwendung ist anders, und unser Basismodell stimmt möglicherweise nicht mit Ihrem Kontext überein oder deckt alle Szenarien ab, die für Ihren Anwendungsfall erforderlich sind. Wir empfehlen Entwicklern, die Qualität von Text in synthetische Sprache und Video mit realen Daten zu bewerten, die Ihren Anwendungsfall widerspiegeln, einschließlich Tests mit Benutzern aus unterschiedlichen demografischen Gruppen und mit unterschiedlichen Sprachmerkmalen. Im Abschnitt "Qualität des trainierten Sprachmodells" finden Sie bewährte Methoden für die Erstellung qualitativ hochwertiger Sprachmodelle.
Neben der Sicherstellung der Leistung ist es wichtig zu berücksichtigen, wie Risiken von Stereotypisierung und Löschung minimiert werden, die sich aus synthetischen Stimmen und Avataren ergeben können. Wenn Sie z. B. eine benutzerdefinierte neurale Stimme für einen intelligenten Sprachassistenten erstellen, überlegen Sie sorgfältig, welche Stimme für die Erstellung geeignet ist, und suchen Sie verschiedene Perspektiven von Einzelpersonen aus einer Vielzahl von Hintergründen. Beziehen Sie beim Erstellen und Bewerten Ihres Systems immer vielfältige Eingaben ein.
Überlegungen zur Fairness
Bei Microsoft bemühen wir uns, jede Person auf dem Planeten zu befähigen, mehr zu tun. Ein wesentlicher Bestandteil dieses Ziels ist die Schaffung von Technologien und Produkten, die fair und inklusiv sind. Fairness ist ein mehrdimensionales, soziotechnisches Thema und wirkt sich auf viele verschiedene Aspekte unserer Produktentwicklung aus. Weitere Informationen zum Ansatz von Microsoft zur Fairness finden Sie hier.
Eine wichtige Dimension bei der Verwendung von KI-Systemen, einschließlich Text zu Sprache, ist, wie gut das System für verschiedene Personengruppen funktioniert. Forschung hat gezeigt, dass ki-Systeme ohne bewusste Anstrengungen, die auf die Verbesserung der Leistung für alle Gruppen ausgerichtet sind, unterschiedliche Leistungsstufen über verschiedene demografische Faktoren wie Rasse, Ethnische Zugehörigkeit, Geschlecht und Alter hinweg aufweisen können.
Um potenzielle Beeinträchtigungen der Fairness einzuschätzen, haben wir im Rahmen unserer Bewertung der Text-zu-Sprache-KI von Azure eine Analyse durchgeführt. Wir haben die Leistung des Systems in verschiedenen demografischen Gruppen untersucht, um Unterschiede zu identifizieren, die vorhanden sein können und möglicherweise die Fairness beeinträchtigen könnten.
In einigen Fällen können Leistungsabweichungen verbleiben. Es ist wichtig zu beachten, dass diese Unterschiede das Ziel überschreiten können, und wir arbeiten aktiv daran, potenzielle Verzerrungen oder Leistungslücken zu beheben und zu minimieren, die demografische Gruppenauswahl des Akteurs sorgfältig zu berücksichtigen und verschiedene Perspektiven aus einer Vielzahl von Hintergründen zu suchen.
Was Darstellungsfehler wie Stereotypisierung, Herabwürdigung oder Ausblendung von Inhalten betrifft, sind wir uns der mit diesen Problemen verbundenen Risiken bewusst. Während unser Bewertungsprozess darauf abzielt, solche Risiken zu mindern, ermutigen wir die Benutzer, ihre spezifischen Anwendungsfälle sorgfältig zu berücksichtigen und zusätzliche Risikominderungen entsprechend umzusetzen. Ein Mensch im Prozess kann eine zusätzliche Ebene der Aufsicht bieten, um potenzielle Verzerrungen oder unbeabsichtigte Folgen zu adressieren. Die Verwendung von Blocklisten oder Zulassungslisten kann auch dabei helfen, sicherzustellen, dass die synthetisierte Sprache mit den gewünschten Standards übereinstimmt und schädliche oder unangemessene Inhalte vermeidet.
Wir sind bestrebt, unsere Fairnessbewertungen kontinuierlich zu verbessern, um ein tieferes Verständnis der Leistung des Systems in verschiedenen demografischen Gruppen und potenziellen Fairnessbedenken zu gewinnen. Der Bewertungsprozess wird fortgesetzt, und wir arbeiten aktiv daran, Fairness und Inklusivität zu verbessern und identifizierte Unterschiede zu mindern. Wir sind uns bewusst, wie wichtig es ist, Fragen der Fairness zu berücksichtigen, und möchten sicherstellen, dass die Text-zu-Sprache-Funktion zuverlässige und faire synthetische Sprachausgaben bereitstellt.
Bitte beachten Sie, dass diese Informationen unseren aktuellen Wissensstand über Fairnessbewertungen darstellen und wir sind bestrebt geblieben, unsere Bewertungsmethoden zu verfeinern und eventuell auftretende Fairnessbedenken zu beheben.
Systemleistung
Die Leistung für das Text-zu-Sprachsystem bezieht sich darauf, wie genau und natürlich geschriebener Text in eine synthetisierte Sprache konvertiert werden kann. Dies wird mithilfe verschiedener Metriken gemessen, um die Qualität und Effektivität der generierten Audioausgabe zu bewerten. Einige häufig verwendete Leistungsmetriken umfassen:
- Mean opinion score (MOS): Ein Bewertungssystem, bei dem Die Richter eine Bewertung bereitstellen, die die Gesamtqualität der synthetisierten Sprach- und Avatarvideos darstellt. Ein höherer MOS weist auf eine bessere Qualität hin.
- MOS-Lücke: Der Unterschied zwischen der MOS-Bewertung von menschlichen Aufzeichnungen und den generierten Audiospuren/Videos. Ein kleinerer MOS-Abstand deutet auf eine größere Ähnlichkeit mit menschlicher Sprache/menschlichem Verhalten hin.
- Ähnlichkeit MOS (SMOS): Misst die Ähnlichkeit der generierten Audiospuren/Videos mit den menschlichen Aufnahmen. Ein höheres SMOS bedeutet eine bessere Ähnlichkeit.
- Intelligibility: Der Prozentsatz der korrekt verständlichen Wörter in synthetisierter Sprache.
Selbst bei modernsten Modellen können KI-Systeme wie Text-zu-Sprache Fehler erzeugen. Beispielsweise kann das System synthetisierte Sprache mit subtilen unnatürlichen Intonationen oder Aussprachefehlern erzeugen, was zu einer weniger als idealen Benutzererfahrung führt, oder das System kann Text falsch interpretieren oder mit ungewöhnlichen sprachlichen Konstrukten kämpfen, was zu einer unnatürlichen oder unverständlichen Sprache führt.
Bewährte Methoden zur Verbesserung der Systemleistung
Um die Systemleistung zu verbessern und das Systemverhalten in Text in Sprache anzupassen, gibt es mehrere bewährte Methoden, die befolgt werden können. Diese Methoden umfassen das Anpassen verschiedener Komponenten und Parameter zur Optimierung der Tradeoffs und zur Erfüllung bestimmter Anwendungsfallanforderungen. Es ist jedoch wichtig, die potenziellen Auswirkungen auf verschiedene Bevölkerungsgruppen zu berücksichtigen, um Fairness und Inklusivität zu gewährleisten.
- Vorkonfigurierte neurale Stimme
- Benutzerdefinierte neurale Stimme
- Vordefinierter Text in Sprach-Avatar
- Benutzerdefinierter Text in Sprach-Avatar
- Videoübersetzung
Die Verwendung von SSML (Speech Synthesis Markup Language) wird als bewährte Methode angesehen, um die Text-zu-Sprache-Ausgabequalität zu optimieren. Mit SSML können Benutzer eine bessere Kontrolle über die synthetisierte Sprache ausüben, wodurch die Anpassung der Aussprache, der Intonation, der Betonung und anderer prosodischen Features ermöglicht wird. Durch die Einbindung von SSML-Tags in den Text können Benutzer Pausen hinzufügen, die Sprachrate anpassen, phonetische Aussprachen angeben und unter anderem die Tonhöhe und Lautstärke steuern. Diese Feinabstimmung trägt dazu bei, eine natürlichere und ausdrucksstärkere Sprache zu erzeugen, wodurch die Text-zu-Sprache-Ausgabe menschlicher und ansprechender klingt. Alle SSML-Markups können direkt an die API übergeben werden. Darüber hinaus bieten wir ein Onlinetool, Audio Content Creation, mit dem Kunden über eine intuitive Benutzeroberfläche Feinabstimmungen vornehmen können.
Wenn Ihr Anwendungsfall spezifisches Vokabular oder domänenspezifische Inhalte umfasst, sollten Sie die Verwendung der benutzerdefinierten Lexikon-Funktion in Betracht ziehen, um die Fähigkeit des Systems zu verbessern, domänenspezifische Begriffe oder Ausdrücke präzise auszusprechen und zu vermitteln.
Die Auswertung von Text-zu-Sprache
Auswertungsmethoden
Zu den häufig verwendeten Metriken für die Bewertung der Gesamtleistung des Text-zu-Sprache-Systems gehören:
- Mean Opinion Score (MOS) im Vergleich zu einer menschlichen Aufnahme: wird in der Regel verwendet, um die Qualität des Text-to-Speech-Sprachmodells mit einer menschlichen Aufnahme zu vergleichen. Die Qualität eines Sprachmodells, das durch eine benutzerdefinierte neuronale Stimme erzeugt wurde, wird im Vergleich zu einer menschlichen Aufnahme voraussichtlich ähnlich sein, mit einem Unterschied von nicht mehr als 0,5 im MOS-Wert.
- Für benutzerdefinierte neurale Stimme können Sie auch Ähnlichkeit MOS (SMOS) verwenden, um zu messen, wie ähnlich die benutzerdefinierten Sprachtöne im Vergleich zu den ursprünglichen menschlichen Aufzeichnungen sind. Mit SMOS-Studien werden die Richter aufgefordert, eine Reihe von gekoppelten Audiospuren zu hören, eine, die mit der benutzerdefinierten Stimme, die andere aus den ursprünglichen menschlichen Aufzeichnungen in den Schulungsdaten generiert wird, und bewerten, ob die beiden Audiospuren in jedem Paar von derselben Person gesprochen werden, wobei eine Fünfpunktskala verwendet wird (1 ist der niedrigste, 5 am höchsten). Die durchschnittliche Bewertung wird als SMOS-Bewertung gemeldet. Wir empfehlen, dass eine gute benutzerdefinierte neurale Stimme ein SMOS höher als 4.0 erreichen sollte.
- Neben der Messung der Natürlichkeit mit MOS und SMOS können Sie auch die Verständlichkeit des Sprachmodells bewerten, indem Sie die Genauigkeit der Aussprache der generierten Sprache überprüfen. Dies geschieht, indem die Richter auf eine Reihe von Testbeispielen lauschen und bestimmen, ob sie die Bedeutung verstehen und auf alle Wörter hinweisen können, die für sie nicht verständlich waren. Die Verständlichkeitsrate wird mithilfe des Prozentsatzes der korrekt verständlichen Wörter unter der Gesamtzahl der getesteten Wörter berechnet (d. h. die Anzahl der verständlichen Wörter/die Gesamtzahl der getesteten Wörter * 100%). Normalerweise muss ein benutzbares Text-zu-Sprache-Modul eine Bewertung von > 98 % für die Verständlichkeit erreichen.
Auswertungsergebnisse
Text-zu-Sprache bietet konsistent hochwertige und natürlich klingende synthetisierte Sprache und erfüllt die Anforderungen verschiedener Branchen und Domänen. Zu unseren Bewertungen gehören umfangreiche Tests der Trainings- und Testdaten des Systems, um sicherzustellen, dass sie die beabsichtigten Verwendungen und betriebstechnischen Faktoren darstellt, die in realen Szenarien auftreten, sowie Testbeispiele von synthetisierten Sprachausgaben.
Die Auswertungsergebnisse haben Entscheidungen über die Einschränkungen im Systementwurf beeinflusst, z. B. die maximale Fallgröße und die Mindestmenge der erforderlichen Schulungsdaten. Durch die Analyse der Leistung des Systems über verschiedene Datensätze, Einstellungen und Parameter hinweg wurden geeignete Einschränkungen festgelegt, um das Verhalten, die Zuverlässigkeit und sicherheit des Systems zu optimieren.
Während die Bewertung eine vielzahl von Anwendungsfällen abdeckt, ist es wichtig zu beachten, dass die Ergebnisse in einigen Anwendungsfällen, die nicht direkt teil der Bewertung waren, generalisierbar sind. Die Stabilität und Leistung des Systems bietet Vertrauen in die Fähigkeit, verschiedene Szenarien zu verarbeiten, einschließlich derjenigen, die möglicherweise nicht explizit getestet wurden.
Hier sind einige empfohlene Tests und Bewertungsbereiche basierend auf unserer Erfahrung:
| Messung | Definition | Berechnungsweise | Empfohlene Textgröße | Empfohlene Bewertung |
|---|---|---|---|---|
| MOS | Mittelwert der Bewertung der Qualität der Audiospuren | Durchschnitt der Bewertungsergebnisse jedes Richters für jede Audiodatei. | > 30 generierte Audiospuren | > 4.0 (normalerweise erfordert es, dass der MOS der menschlichen Aufzeichnung höher als 4,5 ist) |
| MOS-Lücke | Der MOS-Bewertungsunterschied zwischen menschlichen Aufzeichnungen und den generierten Audiospuren | MOS-Wert für die Aufzeichnung der menschlichen Stimme minus MOS-Wert für die generierten Audiospuren | > 10 Menschliche Aufnahmen, > 30 generierte Audiospuren, > 20 Richter auf jedem Audio | < 0.5 |
| SMOS | Die Ähnlichkeit der generierten Audiospuren mit den menschlichen Aufzeichnungen | Durchschnittliche Bewertungspunktzahlen für die Ähnlichkeit der jeweiligen Audiospurpaare. | > 40 Paare, > 20 Richter pro Paar | > 4.0, > 3.5 (Sekundärsprache) |
| Verständlichkeit | Die Aussprachegenauigkeit der generierten Sprache auf Wortebene | Prozentsatz der korrekt verständlichen Wörter zwischen der Gesamtzahl der getesteten Wörter | > 60 generierte Audiospuren, > 10 Richter auf jedem Audio | > 98% |
Bewerten und Integrieren von Text-zu-Sprache-Funktionen für Ihre Verwendung
Nachfolgend finden Sie einige bewährte Praktiken, mit denen Sie Text-to-Speech-Funktionen verantwortungsbewusst in Ihre Anwendungsfälle integrieren können.
Offenlegen, wenn die Stimme synthetisch ist
Die Offenlegung, dass eine Stimme computergeneriert wird, minimiert nicht nur das Risiko schädlicher Ergebnisse von Täuschung, sondern erhöht auch das Vertrauen in die Organisation, die die Stimme liefert. Erfahren Sie mehr darüber , wie Sie offenlegen können.
Microsoft setzt voraus, dass seine Kunden die synthetische Eigenschaft von Text-to-Speech-Stimmen ihren Benutzern offenbaren.
- Achten Sie darauf, dass den Zuhörern ausreichende Informationen gegeben werden, insbesondere wenn Sie die Stimme einer bekannten Persönlichkeit nutzen. Menschen urteilen über Informationen, die teilweise auf der Person basieren, die sie liefert, ob sie dies bewusst oder unbewusst tun. Eine Offenlegung könnte z. B. zu Beginn einer Übertragung mündlich geteilt werden. Weitere Informationen finden Sie unter Offenlegungsmuster.
- Erwägen Sie die ordnungsgemäße Offenlegung an Eltern oder andere Parteien bei Anwendungsfällen, die für Situationen mit Minderjährigen und Kindern entwickelt sind oder in diesen verwendet werden können. Wenn Ihr Anwendungsfall für Minderjährige oder Kinder vorgesehen ist, müssen Sie sicherstellen, dass Ihre Offenlegung klar und transparent ist, damit Eltern oder erziehungsberechtigte Erziehungsberechtigte die Rolle synthetischer Medien verstehen und eine fundierte Entscheidung im Namen von Minderjährigen oder Kindern darüber treffen können, ob sie die Erfahrung nutzen sollen.
Offenlegen, wenn das Avatarvideo synthetisch ist
Die Offenlegung, dass ein Avatar sprechendes Video computergeneriert wird, minimiert nicht nur das Risiko schädlicher Ergebnisse von Täuschung, sondern erhöht auch das Vertrauen in die Organisation, die das Video bereitstellt. Erfahren Sie mehr darüber , wie Sie offenlegen können.
Microsoft fordert, dass seine Kunden die synthetische Natur von Sprach-Avataren gegenüber ihren Benutzern offenlegen.
- Stellen Sie sicher, dass Sie den Zielgruppen angemessene Offenlegung bieten, insbesondere bei Verwendung des Bilds (und der Stimme) einer bekannten Person. Menschen urteilen über Informationen, die teilweise auf der Person basieren, die sie liefert, ob sie dies bewusst oder unbewusst tun. Eine Veröffentlichung könnte z. B. mit einem Wasserzeichen versehen werden, indem zu Beginn des Videos ein Hinweis wie „Stimme und Bilder in diesem Video sind KI-generiert“ in Text- oder gesprochener Form bereitgestellt wird. Weitere Informationen finden Sie unter Offenlegungsmuster.
- Erwägen Sie die ordnungsgemäße Offenlegung an Eltern oder andere Parteien bei Anwendungsfällen, die für Situationen mit Minderjährigen und Kindern entwickelt sind oder in diesen verwendet werden können. Wenn Ihr Anwendungsfall für Minderjährige oder Kinder vorgesehen ist, müssen Sie sicherstellen, dass Ihre Offenlegung klar und transparent ist, damit Eltern oder erziehungsberechtigte Erziehungsberechtigte die Rolle synthetischer Medien verstehen und eine fundierte Entscheidung im Namen von Minderjährigen oder Kindern darüber treffen können, ob sie die Erfahrung nutzen sollen.
Wählen Sie geeignete Sprachtypen für Ihr Szenario aus.
Berücksichtigen Sie sorgfältig den Kontext der Verwendung und die potenziellen Schäden, die mit der Verwendung von Text zu Sprachstimmchen oder Avataren verbunden sind. Beispielsweise sind synthetische Stimmen mit hoher Genauigkeit in Szenarien mit hohem Risiko nicht geeignet, z. B. für persönliche Nachrichten, Finanztransaktionen oder komplexe Situationen, die menschliche Anpassungsfähigkeit oder Empathie erfordern.
Benutzer haben je nach Kontext möglicherweise auch unterschiedliche Erwartungen an Sprachtypen und Avatarausdrücke oder Gesten. Wenn Sie z. B. sensible Nachrichten hören, die von einer synthetischen Stimme gelesen werden, bevorzugen einige Benutzer einen einfühlsameren und menschlichen Ton, während andere eine neutrale Stimme bevorzugen. Erwägen Sie das Testen Ihrer Anwendung, um die Benutzereinstellungen besser zu verstehen.
Seien Sie transparent über Funktionen und Einschränkungen
Benutzer haben wahrscheinlich höhere Erwartungen, wenn sie mit synthetischen Sprach-Agents mit hoher Genauigkeit interagieren. Wenn Systemfunktionen diese Erwartungen nicht erfüllen, kann Vertrauen leiden und zu unangenehmen oder sogar schädlichen Erfahrungen führen.
Bereitstellen optionaler menschlicher Unterstützung
In mehrdeutigen Transaktionsszenarien (z. B. einem Anrufsupportcenter) vertrauen Benutzer einem Computer-Agent nicht immer, um auf ihre Anforderungen angemessen zu reagieren. Menschliche Unterstützung kann in diesen Situationen erforderlich sein, unabhängig von der realistischen Qualität der Stimme oder Fähigkeit des Systems.
Überlegungen zu Sprachtalenten
Wenn Kunden mit VoIP-Talenten zusammenarbeiten, um benutzerdefinierte neurale Stimme zu erstellen, gelten die folgenden Richtlinien.
- Stimmtalent sollte die Kontrolle über ihr Stimm-Modell haben (wie und wo es verwendet werden wird) und für seine Nutzung kompensiert werden. Microsoft verlangt von den Kunden von benutzerdefinierten neuronalen Stimmen, explizite schriftliche Genehmigungen von Stimmkünstlern zu erhalten, um eine synthetische Stimme zu erstellen und sicherzustellen, dass die Vereinbarung des Kunden mit jedem Einzelnen die Dauer, Nutzung und jegliche Inhaltsbeschränkungen berücksichtigt. Wenn Sie eine synthetische Stimme einer bekannten Person erstellen, sollten Sie dem VoIP-Talent die Möglichkeit bieten, den Inhalt der Ausgabe zu bearbeiten oder zu genehmigen, die Sie mit dem VoIP-Modell generieren möchten.
- Einige Sprachtalente wissen möglicherweise nicht von potenziellen böswilligen Verwendungen der Technologie und sollten von Systembesitzern über die Fähigkeiten der Technologie informiert werden. Microsoft verlangt von seinen Kunden, dass sie die Erklärung für Sprach- und Avatar-Talente von Microsoft direkt oder über den autorisierten Vertreter des Sprachtalents weitergeben, um zu beschreiben, wie synthetische Stimmen entwickelt werden und in Verbindung mit Text-to-Speech-Diensten funktionieren.
Überlegungen zu Avatar-Talenten
Wenn Kunden mit Avatar-Talenten zusammenarbeiten, um benutzerdefinierte Avatare zu erstellen, gelten die folgenden Richtlinien.
- Avatar-Talent sollte die Kontrolle über ihr Avatarmodell haben (wie und wo es verwendet wird) und für seine Verwendung kompensiert werden. Microsoft fordert, dass benutzerdefinierte Avatarkunden explizite schriftliche Genehmigungen von ihrem Avatar-Talent einholen, um einen synthetischen Text-zu-Sprache-Avatar zu erstellen und sicherzustellen, dass die Vereinbarung des Kunden mit jedem Einzelnen die Dauer, Nutzung und jegliche Inhaltsbeschränkungen berücksichtigt. Wenn Sie einen benutzerdefinierten Avatar einer bekannten Person erstellen, sollten Sie dem Avatar-Talent eine Möglichkeit bieten, den Inhalt der Ausgabe zu bearbeiten oder zu genehmigen, die Sie mit dem VoIP-Modell generieren möchten.
- Einige Avatar-Talenten wissen möglicherweise nicht von potenziellen böswilligen Verwendungen der Technologie und sollten von Systembesitzern über die Fähigkeiten der Technologie informiert werden. Microsoft verlangt, dass Kunden Microsofts Disclosure für Sprach- und Avatartalente direkt mit den Avatartalenten oder über den autorisierten Vertreter des Avatartalents teilen, um zu beschreiben, wie synthetische Avatarvideos entwickelt werden und in Verbindung mit Text-zu-Sprach-Diensten funktionieren.
Überlegungen für Menschen mit Sprachstörungen
Wenn Sie mit Personen mit Sprachstörungen zusammenarbeiten, um synthetische Sprachtechnologien zu erstellen oder bereitzustellen, gelten die folgenden Richtlinien.
Bereitstellen von Richtlinien für Verträge mit Talenten in Barrierefreiheitsszenarien
Kunden sollten Richtlinien für die Festlegung von Verträgen mit Einzelpersonen entwickeln, die synthetische Stimmen für die Unterstützung beim Sprechen verwenden. Kunden sollten in ihren Verträgen mit Einzelpersonen die Dauer der Nutzung, Eigentumsübertragung und/oder Lizenzkriterien, Verfahren zum Löschen des Sprachmodells sowie Maßnahmen zur Verhinderung unbefugten Zugriffs angeben.
Berücksichtigen Sie Inkonsistenzen in Sprachmustern
Bei Personen mit Sprachstörungen, die ihre eigenen Sprachschriftarten aufzeichnen, können Inkonsistenzen in ihrem Sprachmuster (Schlämmung oder Unfähigkeit, bestimmte Wörter auszusprechen) den Aufzeichnungsprozess erschweren. In diesen Fällen sollten synthetische Sprachtechnologie und Aufzeichnungssitzungen mit geeigneten Anpassungen gestaltet werden, die vom Kunden festgelegt werden (z. B. Pausen oder zusätzliche Aufzeichnungssitzungen).
Änderung im Laufe der Zeit zulassen
Personen mit Sprachstörungen können ihre synthetische Stimme aktualisieren, um Änderungen aufgrund von Alterung oder anderen Faktoren widerzuspiegeln. Personen können auch stilistische Vorlieben haben, die sich im Laufe der Zeit ändern, und Anpassungen an Tonhöhe, Akzent oder anderen Sprachmerkmalen vornehmen möchten.
Erfahren Sie mehr über verantwortungsvolle KI
- Microsoft KI-Prinzipien
- Microsoft verantwortungsvolle KI-Ressourcen
- Microsoft Azure Lernkurse zu verantwortungsvoller KI