Migrieren von Code von der API für lange Audioinhalte zur Batchsynthese-API
Die Batchsynthese-API stellt eine asynchrone Synthese von Langformtext zu Sprache bereit. In diesem Artikel werden die Vorteile des Upgrades von der langen Audio-API auf die Batchsynthese-API sowie details zur Vorgehensweise beschrieben.
Wichtig
Batchsynthese-API ist allgemein verfügbar. die Long Audio API wird am 1. April 2027 eingestellt.
Basispfad und -version
Aktualisieren Sie den Endpunkt von https://YourSpeechRegion.customvoice.api.speech.microsoft.com
zu https://YourSpeechRegion.api.cognitive.microsoft.com
oder Sie können stattdessen eine benutzerdefinierte Domäne verwenden: https://{customDomainName}.cognitiveservices.azure.com/
.
Aktualisieren Sie den Basispfad in Ihrem Code von /texttospeech/v3.0/longaudiosynthesis
zu /texttospeech/batchsyntheses
.
Aktualisieren Sie die Version vom Basispfad in die Abfragezeichenfolge /texttospeech/v3.0/longaudiosynthesis
auf ?api-version=2024-04-01
.
Wenn Sie beispielsweise Syntheseaufträge für Ihre Speech-Ressource in der Region eastus
auflisten möchten, verwenden Sie https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
anstelle von https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Regionen und Endpunkte
Die Batchsynthese-API ist in weiteren Sprachregionen verfügbar.
Die API für lange Audioinhalte ist auf die folgenden Regionen beschränkt:
Region | Endpunkt |
---|---|
Australien (Osten) | https://australiaeast.customvoice.api.speech.microsoft.com |
East US | https://eastus.customvoice.api.speech.microsoft.com |
Indien, Mitte | https://centralindia.customvoice.api.speech.microsoft.com |
USA Süd Mitte | https://southcentralus.customvoice.api.speech.microsoft.com |
Asien, Südosten | https://southeastasia.customvoice.api.speech.microsoft.com |
UK, Süden | https://uksouth.customvoice.api.speech.microsoft.com |
Europa, Westen | https://westeurope.customvoice.api.speech.microsoft.com |
Stimmliste
Die Batchsynthese-API unterstützt alle Stimmen und Sprechweisen der Sprachsynthese.
Die API für lange Audioinhalte ist auf den Satz von Stimmen beschränkt, die von einer GET-Anforderung an https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
zurückgegeben werden.
Texteingaben
Batchsynthesetexteingaben werden in einer JSON-Nutzlast von bis zu 2 Mb gesendet.
Texteingaben für die API für lange Audioinhalte werden aus einer Datei hochgeladen, die die folgenden Anforderungen erfüllt:
- Eine Datei mit unformatiertem Text (TXT) oder SSML-Text (TXT), die als UTF-8 mit BOM (Byte Order Mark) codiert ist. Verwenden Sie keine komprimierten Dateien wie ZIP. Wenn Sie über mehr als eine Eingabedatei verfügen, müssen Sie mehrere Anforderungen einreichen.
- Sie enthält mehr als 400 Zeichen für Nur-Text oder 400 abrechenbare Zeichen für SSML-Text und weniger als 10.000 Absätze. Bei unformatiertem Text wird jeder Absatz durch eine neue Zeile getrennt. Bei SSML-Text wird jede SSML-Komponente als Absatz betrachtet. Trennen Sie SSML-Teile durch verschiedene Absätze.
Bei der Batchsynthese-API können Sie jedes der unterstützten SSML-Elemente verwenden, einschließlich der Elemente audio
, mstts:backgroundaudio
und lexicon
. Die lange Audio-API unterstützt die audio
Elemente mstts:backgroundaudio
und lexicon
Elemente nicht.
Audioausgabeformate
Die Batchsynthese-API unterstützt alle Audioausgabeformate für Sprachsynthese.
Die API für lange Audioinhalte ist auf die folgenden Audioausgabeformate beschränkt. Die Abtastrate für lange Audiostimmen beträgt 24 kHz, nicht 48 kHz. Andere Abtastraten können durch Upsampling oder Downsampling beim Synthetisieren erreicht werden.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Abrufen von Ergebnissen
Verwenden Sie bei der Batchsynthese-API die URL aus der outputs.result
Eigenschaft der HTTP GET-Batchsyntheseantwort. Die Ergebnisse befinden sich in einer ZIP-Datei, die die Audiodaten (z. B. 0001.wav
), die Zusammenfassung und die Debugdetails enthält.
Texteingaben und Ergebnisse der API für lange Audioinhalte werden über zwei separate Inhalts-URLs zurückgegeben, wie im folgenden Beispiel gezeigt. Die Ausgabe mit "kind": "LongAudioSynthesisScript"
ist das übermittelte Eingabeskript. Die andere Ausgabe mit "kind": "LongAudioSynthesisResult"
ist das Ergebnis dieser Anforderung. Beide ZIP-Dateien können über die URL in ihrer links.contentUrl
-Eigenschaft heruntergeladen werden.
Bereinigen von Ressourcen
Die Batchsynthese-API unterstützt bis zu 300 Batchsyntheseaufträge, die keinen Status "Erfolgreich" oder "Fehlgeschlagen" aufweisen. Der Sprachdienst behält jeden Syntheseverlauf für bis zu 31 Tage oder die Dauer der Anforderungseigenschaft timeToLiveInHours
bei, je nachdem, was früher kommt. Datum und Uhrzeit der automatischen Löschung (bei Syntheseaufträgen mit dem Status „Erfolgreich“ oder „Fehler“) entsprechen den Eigenschaften lastActionDateTime
+ timeToLiveInHours
.
Die API für lange Audioinhalte ist auf 20.000 Anforderungen für jedes Azure-Abonnementkonto beschränkt. Der Speech-Dienst entfernt den Auftragsverlauf nicht automatisch. Sie müssen den Verlauf vorheriger Auftragsausführungen entfernen, bevor Sie neue Anforderungen ausführen, die andernfalls den Grenzwert überschreiten würden.