Migrieren von Code von der API für lange Audioinhalte zur Batchsynthese-API

Artikel
09/20/2024

Die Batchsynthese-API stellt eine asynchrone Synthese von Langformtext zu Sprache bereit. In diesem Artikel werden die Vorteile des Upgrades von der langen Audio-API auf die Batchsynthese-API sowie details zur Vorgehensweise beschrieben.

Wichtig

Batchsynthese-API ist allgemein verfügbar. die Long Audio API wird am 1. April 2027 eingestellt.

Basispfad und -version

Aktualisieren Sie den Endpunkt von https://YourSpeechRegion.customvoice.api.speech.microsoft.com zu https://YourSpeechRegion.api.cognitive.microsoft.com oder Sie können stattdessen eine benutzerdefinierte Domäne verwenden: https://{customDomainName}.cognitiveservices.azure.com/.

Aktualisieren Sie den Basispfad in Ihrem Code von /texttospeech/v3.0/longaudiosynthesis zu /texttospeech/batchsyntheses.

Aktualisieren Sie die Version vom Basispfad in die Abfragezeichenfolge /texttospeech/v3.0/longaudiosynthesis auf ?api-version=2024-04-01.

Wenn Sie beispielsweise Syntheseaufträge für Ihre Speech-Ressource in der Region eastus auflisten möchten, verwenden Sie https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 anstelle von https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regionen und Endpunkte

Die Batchsynthese-API ist in weiteren Sprachregionen verfügbar.

Die API für lange Audioinhalte ist auf die folgenden Regionen beschränkt:

Region	Endpunkt
Australien (Osten)	`https://australiaeast.customvoice.api.speech.microsoft.com`
East US	`https://eastus.customvoice.api.speech.microsoft.com`
Indien, Mitte	`https://centralindia.customvoice.api.speech.microsoft.com`
USA Süd Mitte	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asien, Südosten	`https://southeastasia.customvoice.api.speech.microsoft.com`
UK, Süden	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa, Westen	`https://westeurope.customvoice.api.speech.microsoft.com`

Stimmliste

Die Batchsynthese-API unterstützt alle Stimmen und Sprechweisen der Sprachsynthese.

Die API für lange Audioinhalte ist auf den Satz von Stimmen beschränkt, die von einer GET-Anforderung an https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voiceszurückgegeben werden.

Texteingaben

Batchsynthesetexteingaben werden in einer JSON-Nutzlast von bis zu 2 Mb gesendet.

Texteingaben für die API für lange Audioinhalte werden aus einer Datei hochgeladen, die die folgenden Anforderungen erfüllt:

Eine Datei mit unformatiertem Text (TXT) oder SSML-Text (TXT), die als UTF-8 mit BOM (Byte Order Mark) codiert ist. Verwenden Sie keine komprimierten Dateien wie ZIP. Wenn Sie über mehr als eine Eingabedatei verfügen, müssen Sie mehrere Anforderungen einreichen.
Sie enthält mehr als 400 Zeichen für Nur-Text oder 400 abrechenbare Zeichen für SSML-Text und weniger als 10.000 Absätze. Bei unformatiertem Text wird jeder Absatz durch eine neue Zeile getrennt. Bei SSML-Text wird jede SSML-Komponente als Absatz betrachtet. Trennen Sie SSML-Teile durch verschiedene Absätze.

Bei der Batchsynthese-API können Sie jedes der unterstützten SSML-Elemente verwenden, einschließlich der Elemente audio, mstts:backgroundaudio und lexicon. Die lange Audio-API unterstützt die audioElemente mstts:backgroundaudiound lexicon Elemente nicht.

Audioausgabeformate

Die Batchsynthese-API unterstützt alle Audioausgabeformate für Sprachsynthese.

Die API für lange Audioinhalte ist auf die folgenden Audioausgabeformate beschränkt. Die Abtastrate für lange Audiostimmen beträgt 24 kHz, nicht 48 kHz. Andere Abtastraten können durch Upsampling oder Downsampling beim Synthetisieren erreicht werden.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Abrufen von Ergebnissen

Verwenden Sie bei der Batchsynthese-API die URL aus der outputs.result Eigenschaft der HTTP GET-Batchsyntheseantwort. Die Ergebnisse befinden sich in einer ZIP-Datei, die die Audiodaten (z. B. 0001.wav), die Zusammenfassung und die Debugdetails enthält.

Texteingaben und Ergebnisse der API für lange Audioinhalte werden über zwei separate Inhalts-URLs zurückgegeben, wie im folgenden Beispiel gezeigt. Die Ausgabe mit "kind": "LongAudioSynthesisScript" ist das übermittelte Eingabeskript. Die andere Ausgabe mit "kind": "LongAudioSynthesisResult" ist das Ergebnis dieser Anforderung. Beide ZIP-Dateien können über die URL in ihrer links.contentUrl-Eigenschaft heruntergeladen werden.

Bereinigen von Ressourcen

Die Batchsynthese-API unterstützt bis zu 300 Batchsyntheseaufträge, die keinen Status "Erfolgreich" oder "Fehlgeschlagen" aufweisen. Der Sprachdienst behält jeden Syntheseverlauf für bis zu 31 Tage oder die Dauer der Anforderungseigenschaft timeToLiveInHours bei, je nachdem, was früher kommt. Datum und Uhrzeit der automatischen Löschung (bei Syntheseaufträgen mit dem Status „Erfolgreich“ oder „Fehler“) entsprechen den Eigenschaften lastActionDateTime + timeToLiveInHours.

Die API für lange Audioinhalte ist auf 20.000 Anforderungen für jedes Azure-Abonnementkonto beschränkt. Der Speech-Dienst entfernt den Auftragsverlauf nicht automatisch. Sie müssen den Verlauf vorheriger Auftragsausführungen entfernen, bevor Sie neue Anforderungen ausführen, die andernfalls den Grenzwert überschreiten würden.

Teilen über