Sprachsynthese mit dem Audioinhaltserstellungs-Tool

Artikel
01/18/2024

Sie können das Tool Audioinhaltserstellung in Speech Studio für die Sprachsynthese verwenden, ohne zu programmieren. Sie können die Audioausgabe unverändert oder als Ausgangspunkt für weitere Anpassungen nutzen.

Erzeugen Sie sehr natürliche Audioinhalte für eine Vielzahl von Szenarios, z. B. für Hörbücher, Nachrichtensendungen, Videokommentare und Chatbots. Mit der Audioinhaltserstellung können Sie Stimmen der Sprachsynthese effizient optimieren und benutzerdefinierte Audioerlebnisse gestalten.

Das Tool basiert auf der Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML). Das Tool ermöglicht das Anpassen von Ausgabeattributen der Sprachsynthese im Echtzeit- oder Batchmodus, wie etwa Stimmmerkmale, Sprachstile, Sprechgeschwindigkeit, Aussprache und Prosodie.

Programmierfreier Ansatz: Sie können das Audioinhaltserstellungs-Tool für die Sprachsynthese verwenden, ohne zu programmieren. Die Audioausgabe stellt möglicherweise das von Ihnen gewünschte Ergebnis dar. Sie können beispielsweise die Audioausgabe für einen Podcast oder eine Videoerzählung verwenden.
Entwicklerfreundlich: Sie können die Audioausgabe hören und die SSML anpassen, um die Sprachsynthese zu verbessern. Anschließend können Sie das Speech-SDK oder die Speech-CLI verwenden, um die SSML in Ihre Anwendungen zu integrieren. Sie können beispielsweise die SSML zum Erstellen eines Chat-Bots verwenden.

Sie haben einfachen Zugriff auf ein breites Portfolio von Sprachen und Stimmen. Zu diesen Stimmen gehören vordefinierte neuronale Stimmen nach dem neuesten Stand der Technik und Ihre benutzerdefinierte neuronale Stimme, wenn Sie eine erstellt haben.

Weitere Informationen finden Sie im Video zur Audioinhaltserstellung auf YouTube.

Erste Schritte

Das Audioinhaltserstellungs-Tool in Speech Studio ist kostenlos, aber Sie bezahlen für die Nutzung des Speech-Diensts. Damit Sie mit dem Tool arbeiten können, müssen Sie sich mit einem Azure-Konto anmelden und eine Speech-Ressource erstellen. Für jedes Azure-Konto verfügen Sie über kostenlose monatliche Sprachkontingente, die 0,5 Millionen Zeichen für vordefinierte neuronale Stimmen enthalten (auf der Preisseiteals Neuronal bezeichnet). Die monatlich zugeteilte Menge ist in der Regel ausreichend für ein kleines Inhaltsteam aus ca. drei bis fünf Personen.

In den nächsten Abschnitten wird das Erstellen eines Azure-Kontos und das Abrufen einer Speech-Ressource erläutert.

Schritt 1: Erstellen eines Azure-Kontos

Für das Arbeiten mit der Audioinhaltserstellung benötigen Sie ein Microsoft-Konto und ein Azure-Konto.

Das Azure-Portal ist der zentrale Ort zum Verwalten Ihres Azure-Kontos. Sie können die Speech-Ressource erstellen, den Zugriff auf das Produkt verwalten und alles von einfachen Web-Apps bis zu komplexen Cloudbereitstellungen überwachen.

Schritt 2: Erstellen einer Speech-Ressource

Nachdem Sie sich für das Azure-Konto registriert haben, müssen Sie eine Speech-Ressource in Ihrem Azure-Konto erstellen, um auf die Speech-Dienste zuzugreifen. Erstellen Sie eine Sprachressource im Azure-Portal. Weitere Informationen finden Sie unter Erstellen einer Ressource für mehrere Dienste.

Es dauert einen Moment, bis die neue Speech-Ressource bereitgestellt wird. Sobald die Bereitstellung abgeschlossen ist können Sie mit der Verwendung des Tools zur Audioinhaltserstellung beginnen.

Hinweis

Wenn Sie neuronale Stimmen verwenden möchten, achten Sie darauf, Ihre Ressource in einer Region, die neuronale Stimmen unterstützt zu erstellen.

Nachdem Sie das Azure-Konto und die Sprachressource erhalten haben, können Sie sich bei Speech Studio anmelden und Audioinhaltserstellung auswählen.
Wählen Sie das Azure-Abonnement und die Speech-Ressource aus, die Sie verwenden möchten, und wählen Sie dann Ressource verwenden aus.

Bei Ihrer nächsten Anmeldung bei der Audioinhaltserstellung wird eine direkte Verknüpfung mit den Audioarbeitsdateien unter der aktuellen Speech-Ressource hergestellt. Sie können die Details und den Status Ihres Azure-Abonnements im Azure-Portal überprüfen.

Wenn Sie über keine Speech-Ressource verfügen und Besitzer oder Administrator eines Azure-Abonnements sind, können Sie eine Speech-Ressource in Speech Studio erstellen, indem Sie Neue Ressource erstellen auswählen.

Wenn Sie eine Benutzerrolle für ein bestimmtes Azure-Abonnement besitzen, verfügen Sie möglicherweise nicht über die Berechtigung zum Erstellen einer neuen Speech-Ressource. Wenden Sie sich an Ihren Administrator, um Zugriff zu erhalten.

Sie können Ihre Speech-Ressource jederzeit ändern. Wählen Sie dazu oben auf der Seite die Option Einstellungen aus.

Wählen Sie zum Wechseln von Verzeichnissen die Option Einstellungen aus, oder wechseln Sie zu Ihrem Profil.

Verwenden des Tools

Das folgende Diagramm zeigt den Prozess zum Optimieren der Sprachsyntheseausgabe.

Diagram of the sequence of steps for fine-tuning text to speech outputs.

Die einzelnen Schritte im obigen Diagramm sind im Anschluss beschrieben:

Wählen Sie die Speech-Rssource aus, mit der Sie arbeiten möchten.
Erstellen Sie eine Datei zur Audiooptimierung als Nur-Text- oder SSML-Skript. Geben Sie Ihre Inhalte in der Audioinhaltserstellung ein, oder laden Sie sie hoch.
Wählen Sie die Stimme und die Sprache für Ihren Skriptinhalt aus. Die Audioinhaltserstellung beinhaltet alle integrierten Stimmen der Sprachsynthese. Sie können vordefinierte neuronale Stimmen oder eine benutzerdefinierte neuronale Stimme verwenden.

Hinweis

Der Zugriff auf „Benutzerdefinierte neuronale Stimme“ ist nur eingeschränkt möglich. Hiermit können Sie High-Definition-Stimmen erstellen, die ähnlich wie natürliche Stimmen klingen. Weitere Informationen finden Sie unter Was ist Text-zu-Sprache?.
Wählen Sie den Inhalt aus, den Sie in der Vorschau anzeigen möchten, und wählen sie dann Wiedergeben (Dreieckssymbol) aus, um eine Vorschau der Syntheseausgabe anzuzeigen.

Wenn Sie Änderungen am Text vornehmen, wählen Sie das Symbol Beenden und dann erneut Wiedergeben aus, um die Audiodatei mit geänderten Skripts neu zu generieren.

Verbessern Sie die Ausgabe, indem Sie Aussprache, Pausen, Tonhöhe, Geschwindigkeit, Intonation, Sprachstil usw. anpassen. Eine umfassende Liste der Optionen finden Sie unter Markupsprache für Sprachsynthese.

Weitere Informationen zur Optimierung der Sprachausgabe finden Sie im Video Konvertieren von Text zu Sprache mithilfe von Microsoft Azure KI-Stimmen.
Speichern und exportieren Sie die optimierten Audiodaten.

Nachdem Sie die Optimierungsspur im System gespeichert haben, können Sie die Ausgabe weiter bearbeiten. Wenn Sie mit der Ausgabe zufrieden sind, können Sie mit der Exportfunktion eine Aufgabe zur Audioerstellung erstellen. Sie können den Status der Exportaufgabe beobachten und die Ausgabe für die Verwendung in Ihren Apps und Produkten herunterladen.

Erstellen einer Audiooptimierungsdatei

Es gibt zwei Möglichkeiten, Ihre Inhalte in das Audioinhaltserstellungs-Tool zu übernehmen:

Option 1:
1. Wählen Sie Neu>Textdatei aus, um eine neue Audiooptimierungsdatei zu erstellen.
2. Geben oder fügen Sie Ihren Inhalt in das Bearbeitungsfenster ein. Die zulässige Anzahl von Zeichen für jede Datei beträgt maximal 20.000. Enthält Ihr Skript mehr als 20.000 Zeichen, können Sie Option 2 verwenden, um den Inhalt automatisch in mehrere Dateien zu unterteilen.
3. Wählen Sie Speichern aus.

Option 2:

Wählen Sie Hochladen>Textdatei aus, um eine oder mehrere Textdateien zu importieren. Sowohl Nur-Text als auch SSML werden unterstützt.

Wenn die Skriptdatei mehr als 20.000 Zeichen umfasst, teilen Sie den Inhalt nach Absätzen, Zeichen oder regulären Ausdrücken.

Stellen Sie beim Hochladen Ihrer Textdateien sicher, dass sie die folgenden Anforderungen erfüllen:

Eigenschaft	BESCHREIBUNG
Dateiformat	Nur-Text (.txt)* SSML-Text (.txt)* ZIP-Dateien werden nicht unterstützt.
Codierungsformat	UTF-8
Dateiname	Jede Datei muss einen eindeutigen Namen haben. Doppelte Dateien werden nicht unterstützt.
Textlänge	Maximal 20.000 Zeichen. Wenn Ihre Dateien den Grenzwert überschreiten, teilen Sie sie gemäß den Anweisungen im Tool auf.
SSML-Einschränkungen	Jede SSML-Datei darf nur ein einziges SSML-Element enthalten.

* Beispiel für Nur-Text:

Welcome to use Audio Content Creation to customize audio output for your products.

** Beispiel für SSML-Text:

<speak xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="http://www.w3.org/2001/mstts" version="1.0" xml:lang="en-US">
    <voice name="en-US-AvaMultilingualNeural">
    Welcome to use Audio Content Creation <break time="10ms" />to customize audio output for your products.
    </voice>
</speak>

Exportieren der optimierten Audiodatei

Nachdem Sie Ihre Audioausgabe überprüft haben und mit der Optimierung und den Anpassungen zufrieden sind, können Sie die Audiodatei exportieren.

Wählen Sie Exportieren aus, um eine Aufgabe zur Audioerstellung zu erstellen.

Es empfiehlt sich, In Audiobibliothek exportieren zu verwenden, um Audioausgaben ganz einfach in der Cloud zu speichern, zu finden und zu durchsuchen. Azure Blob Storage ermöglicht eine bessere Anwendungsintegration. Die Audiodaten können auch direkt auf Ihren lokalen Datenträger heruntergeladen werden.

Wählen Sie das Ausgabeformat für die Audiooptimierung aus. Die unterstützten Audioformate und Beispielraten sind in der folgenden Tabelle aufgeführt:

Format	8-kHz-Abtastrate	16-kHz-Abtastrate	24-kHz-Abtastrate	48-kHz-Abtastrate
WAV	riff-8khz-16bit-mono-pcm	riff-16khz-16bit-mono-pcm	riff-24khz-16bit-mono-pcm	riff-48khz-16bit-mono-pcm
MP3	–	audio-16khz-128kbitrate-mono-mp3	audio-24khz-160kbitrate-mono-mp3	audio-48khz-192kbitrate-mono-mp3

Wählen Sie zum Anzeigen des Status der Aufgabe die Registerkarte Aufgabenliste aus.

Wenn die Aufgabe zu einem Fehler führt, finden Sie auf der Seite mit den ausführlichen Informationen einen vollständigen Bericht.
Wenn die Aufgabe abgeschlossen wurde, steht Ihre Audiodatei im Bereich Audiobibliothek zum Download zur Verfügung.
Wählen Sie die Datei, die Sie herunterladen möchten, und anschließend Herunterladen aus.

Sie können nun Ihre benutzerdefinierten und optimierten Audiodaten in Ihren Apps oder Produkten verwenden.

Konfigurieren von BYOS und des anonymen, öffentlichen Lesezugriffs auf Blobs

Wenn Sie die Zugriffsberechtigung für Bring Your Own Storage (BYOS) verlieren, können Sie keine Dateien mehr anzeigen, erstellen, bearbeiten oder löschen. Um wieder zugreifen zu können, müssen Sie den aktuellen Speicher entfernen und BYOS im Azure-Portal neu konfigurieren. Weitere Informationen zum Konfigurieren von BYOS finden Sie unter Bereitstellen von Azure Storage als lokale Freigabe in App Service.

Nach dem Konfigurieren der BYOS-Berechtigung müssen Sie den anonymen öffentlichen Lesezugriff für zugehörige Container und Blobs konfigurieren. Andernfalls sind Blobdaten nicht für den öffentlichen Zugriff verfügbar, und auf Ihre Lexikondatei im Blob kann nicht zugegriffen werden. Standardmäßig ist die Einstellung für den öffentlichen Zugriff eines Containers deaktiviert. Um anonymen Benutzern Lesezugriff auf einen Container und seine Blobs zu gewähren, legen Sie zuerst Öffentlichen Blobzugriff gestatten auf Aktiviert fest, um den öffentlichen Zugriff für das Speicherkonto zuzulassen. Legen Sie dann die öffentliche Zugriffsebene des Containers (acc-public-files) fest (Anonymer Lesezugriff nur für Blobs). Informationen zum Konfigurieren des anonymen öffentlichen Lesezugriffs finden Sie unter Konfigurieren des anonymen, öffentlichen Lesezugriffs auf Container und Blobs.

Hinzufügen oder Entfernen von Benutzern für die Audioinhaltserstellung

Wenn mehrere Benutzer die Audioinhaltserstellung verwenden möchten, können Sie ihnen Zugriff auf das Azure-Abonnement und die Speech-Ressource erteilen. Wenn Sie einem Azure-Abonnement Benutzer hinzufügen, können sie auf alle Ressourcen unter dem Azure-Abonnement zugreifen. Wenn Sie Benutzer*innen jedoch nur einer Speech-Ressource hinzufügen, haben sie nur Zugriff auf die Speech-Ressource und nicht auf andere Ressourcen unter diesem Azure-Abonnement. Benutzer mit Zugriff auf die Speech-Ressource können das Tool zur Audioinhaltserstellung verwenden.

Die Benutzer, für die Sie Zugriff gewähren, müssen ein Microsoft-Konto einrichten. Wenn sie kein Microsoft-Konto besitzen, können sie in nur wenigen Minuten eins erstellen. Sie können ihre vorhandene E-Mail-Adresse verwenden und mit einem Microsoft-Konto verknüpfen oder eine Outlook-E-Mail-Adresse erstellen und als Microsoft-Konto nutzen.

Hinzufügen von Benutzern zu einer Speech-Ressource

Gehen Sie wie folgt vor, um Benutzer zu einer Speech-Ressource hinzuzufügen, damit sie die Audioinhaltserstellung verwenden können:

Wählen Sie im Azure-Portal die Option Alle Dienste.
Wählen Sie dann Azure KI Services aus, und navigieren Sie zu Ihrer spezifischen Speech-Ressource.

Hinweis

Sie können die Azure RBAC auch für ganze Ressourcengruppen, Abonnements oder Verwaltungsgruppen einrichten. Dazu wählen Sie die Ebene im gewünschten Bereich aus und navigieren dann zum gewünschten Element. Sie klicken also z. B. auf Ressourcengruppen und navigieren dann zur gewünschten Ressourcengruppe.
Klicken Sie im linken Navigationsbereich auf Zugriffssteuerung (IAM) .
Wählen Sie Hinzufügen>Rollenzuweisung hinzufügen aus.
Wählen Sie im nächsten Bildschirm auf der Registerkarte Rolle eine Rolle aus, die Sie hinzufügen möchten (in diesem Fall Besitzer).
Geben Sie auf der Registerkarte Mitglieder die E-Mail-Adresse eines Benutzers ein, und wählen Sie den Namen des Benutzers im Verzeichnis aus. Die E-Mail-Adresse muss mit einem Microsoft-Konto verknüpft sein, dem Microsoft Entra ID vertraut. Benutzer können sich ganz einfach mit ihrer persönlichen E-Mail-Adresse für ein Microsoft-Konto registrieren.
Wählen Sie auf der Registerkarte Überprüfen und zuweisen die Option Überprüfen und zuweisen aus, um die Rolle zuzuweisen.

Die Vorgehensweise ist wie folgt:

Eine E-Mail-Einladung wird automatisch an Benutzer gesendet. Sie können diese akzeptieren, indem sie in ihrer E-Mail auf Einladung annehmen>Beitritt zu Azure akzeptieren auswählen. Anschließend werden sie zum Azure-Portal umgeleitet. Sie müssen keine weiteren Aktionen im Azure-Portal durchführen. Nach einigen Augenblicken wird Benutzern die Rolle im Bereich der Speech-Ressource zugewiesen. Dadurch erhalten sie Zugriff auf diese Speech-Ressource. Wenn Benutzer die Einladungs-E-Mail nicht erhalten, können Sie unter Rollenzuweisungen nach ihrem Konto suchen und zu ihrem Profil wechseln. Suchen Sie nach Identität>Einladung angenommen, und wählen Sie (verwalten) aus, um die E-Mail-Einladung erneut zu senden. Sie können auch den Einladungslink kopieren und an Benutzer senden.

Benutzer besuchen oder aktualisieren nun die Produktseite Audioinhaltserstellung und melden sich mit dem Microsoft-Konto an. Sie wählen den Block Audioinhaltserstellung aus den Speech-Produkten aus. Sie wählen die Speech-Ressource im Popupfenster oder in den Einstellungen rechts oben aus.

Wenn sie die verfügbare Speech-Ressource nicht finden können, können sie überprüfen, ob sie sich im richtigen Verzeichnis befinden. Dazu wählen sie das Kontoprofil oben rechts und dann neben Aktuelles Verzeichnis die Option Wechseln aus. Wenn mehr als ein Verzeichnis verfügbar ist, bedeutet dies, dass sie Zugriff auf mehrere Verzeichnisse haben. Sie können zu einem anderen Verzeichnis wechseln und zu Einstellungen navigieren, um zu ermitteln, ob die richtige Speech-Ressource verfügbar ist.

Benutzer*innen, die sich in der gleichen Speech-Ressource befinden, sehen ihre Arbeit gegenseitig im Tool für die Audioinhaltserstellung. Wenn Sie möchten, dass jeder einzelne Benutzer über einen einzelnen und privaten Arbeitsbereich in der Audioinhaltserstellung verfügt, erstellen Sie eine neue Speech-Ressource für jeden Benutzer, und geben Sie jedem Benutzer den eindeutigen Zugriff auf die Speech-Ressource.

Entfernen von Benutzern aus einer Speech-Ressource

Suchen Sie im Azure-Portal nach Azure KI Services, und wählen Sie die Speech-Ressource aus, aus der Sie Benutzer*innen entfernen möchten.
Wählen Sie Zugriffssteuerung (IAM) und dann die Registerkarte Rollenzuweisungen aus, um alle Rollenzuweisungen für diese Speech-Ressource anzuzeigen.
Wählen Sie die zu entfernenden Benutzer, die Option Entfernen und dann OK aus.

Ermöglichen, dass Benutzer anderen Personen Zugriff erteilen

Wenn Sie zulassen möchten, dass ein Benutzer anderen Benutzern Zugriff erteilt, müssen Sie dem Benutzer die Besitzerrolle für die Speech-Ressource zuweisen und ihn als leseberechtigt für das Azure-Verzeichnis festlegen.

Fügen Sie den Benutzer als Besitzer der Speech-Ressource hinzu. Weitere Informationen finden Sie unter Hinzufügen von Benutzern zu einer Speech-Ressource.
Wählen Sie im Azure-Portal links oben das reduzierte Menü, anschließend Microsoft Entra ID und dann Benutzer aus.
Suchen Sie nach dem Microsoft-Konto des Benutzers, wechseln Sie zur Detailseite, und wählen Sie dann Zugewiesene Rollen aus.
Wählen Sie Zuweisungen hinzufügen>Verzeichnisleseberechtigte aus. Wenn die Schaltfläche Zuweisungen hinzufügen nicht verfügbar ist, bedeutet dies, dass Sie keinen Zugriff haben. Nur der globale Administrator dieses Verzeichnisses kann Benutzern Zuweisungen hinzufügen.

Sprachsynthese mit dem Audioinhaltserstellungs-Tool

Erste Schritte

Schritt 1: Erstellen eines Azure-Kontos

Schritt 2: Erstellen einer Speech-Ressource

Verwenden des Tools

Erstellen einer Audiooptimierungsdatei

Exportieren der optimierten Audiodatei

Konfigurieren von BYOS und des anonymen, öffentlichen Lesezugriffs auf Blobs

Hinzufügen oder Entfernen von Benutzern für die Audioinhaltserstellung

Hinzufügen von Benutzern zu einer Speech-Ressource

Entfernen von Benutzern aus einer Speech-Ressource

Ermöglichen, dass Benutzer anderen Personen Zugriff erteilen

Nächste Schritte

Zusätzliche Ressourcen

Sprachsynthese mit dem Audioinhaltserstellungs-Tool

Erste Schritte

Schritt 1: Erstellen eines Azure-Kontos

Schritt 2: Erstellen einer Speech-Ressource

Schritt 3: Anmelden bei der Audioinhaltserstellung mit Ihrem Azure-Konto und der Speech-Ressource

Verwenden des Tools

Erstellen einer Audiooptimierungsdatei

Exportieren der optimierten Audiodatei

Konfigurieren von BYOS und des anonymen, öffentlichen Lesezugriffs auf Blobs

Hinzufügen oder Entfernen von Benutzern für die Audioinhaltserstellung

Hinzufügen von Benutzern zu einer Speech-Ressource

Entfernen von Benutzern aus einer Speech-Ressource

Ermöglichen, dass Benutzer anderen Personen Zugriff erteilen

Nächste Schritte

Zusätzliche Ressourcen