Migrer du code de l’API Audio long vers l’API Synthèse par lots

Article
10/16/2024

L’API de synthèse Batch fournit une synthèse asynchrone de texte de longue forme en synthèse vocale. Cet article décrit les avantages de la mise à niveau de l’API Audio Long vers l’API de synthèse Batch et des détails sur la façon de le faire.

Important

L’API de synthèse batch est généralement disponible. l’API Long Audio prend sa retraite le 1er avril 2027.

Chemin d’accès de base et version

Mettez à jour le point de https://YourSpeechRegion.customvoice.api.speech.microsoft.com terminaison vers https://YourSpeechRegion.api.cognitive.microsoft.com ou vous pouvez utiliser un domaine personnalisé à la place : https://{customDomainName}.cognitiveservices.azure.com/.

Mettez à jour le chemin d’accès de base dans votre code /texttospeech/v3.0/longaudiosynthesis de vers /texttospeech/batchsyntheses.

Mettez à jour la version du chemin d’accès de base à la chaîne /texttospeech/v3.0/longaudiosynthesis de requête vers ?api-version=2024-04-01.

Par exemple, pour lister les travaux de synthèse de votre ressource Speech dans la région eastus, utilisez https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 au lieu de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Régions et points de terminaison

L’API de synthèse batch est disponible dans d’autres régions Speech.

L’API Audio long est limitée aux régions suivantes :

Région	Point de terminaison
Australie Est	`https://australiaeast.customvoice.api.speech.microsoft.com`
USA Est	`https://eastus.customvoice.api.speech.microsoft.com`
Inde Centre	`https://centralindia.customvoice.api.speech.microsoft.com`
États-Unis - partie centrale méridionale	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asie Sud-Est	`https://southeastasia.customvoice.api.speech.microsoft.com`
Sud du Royaume-Uni	`https://uksouth.customvoice.api.speech.microsoft.com`
Europe Ouest	`https://westeurope.customvoice.api.speech.microsoft.com`

Liste de voix

L’API de synthèse par lots prend en charge tous les styles et voix de synthèse vocale.

L’API Audio long est limitée à l’ensemble des voix retournées par une requête GET vers https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entrées de texte

Les entrées de texte de synthèse par lots sont envoyées dans une charge utile JSON allant jusqu’à 2 mégaoctets.

Les entrées de texte de l’API Audio longue sont chargées à partir d’un fichier qui remplit les exigences suivantes :

Un fichier de texte brut (.txt) ou de texte SSML (.txt) encodé en UTF-8 avec marque d’ordre d’octet (BOM). N’utilisez pas de fichiers compressés tels que ZIP. Si vous avez plusieurs fichiers d’entrée, vous devez envoyer plusieurs requêtes.
Il contient plus de 400 caractères pour le texte brut ou 400 caractères facturables pour du texte SSML, et moins de 10 000 paragraphes. Pour du texte brut, chaque paragraphe est séparé par une nouvelle ligne. Pour du texte SSML, chaque élément SSML est considéré comme un paragraphe. Séparez les éléments SSML par des paragraphes différents.

Avec l’API Synthèse par lots, vous pouvez utiliser n’importe lequel des éléments SSML pris en charge, y compris les éléments audio, mstts:backgroundaudio et lexicon. L’API audio longue ne prend pas en charge les éléments et lexicon les audioélémentsmstts:backgroundaudio.

Formats de sortie aduio

L’API de synthèse par lots prend en charge tous les formats de sortie audio de la synthèse vocale.

L’API Audio long est limitée à l’ensemble suivant de formats de sortie audio. Le taux d’échantillonnage pour les voix audio longues est de 24 kHz, et pas de 48 kHz. D’autres taux d’échantillonnage peuvent être obtenus par le biais d’une mise à l’épreuve ou d’un basculement lors de la synthèse.

riff-8 khz-16 bits-mono-pcm
riff-16 khz-16 bits-mono-pcm
riff-24 khz-16 bits-mono-pcm
riff-48 khz-16 bits-mono-pcm
audio-16 khz-32 kbitrate-mono-mp3
audio-16 khz-64 kbitrate-mono-mp3
audio-16 khz-128 kbitrate-mono-mp3
audio-24 khz-48 kbitrate-mono-mp3
audio-24 khz-96 kbitrate-mono-mp3
audio-24 khz-160 kbitrate-mono-mp3

Obtention des résultats

Avec l’API de synthèse par lots, utilisez l’URL de la outputs.result propriété de la réponse de synthèse par lots HTTP GET. Les résultats sont fournis dans un fichier ZIP qui contient l’audio (0001.wav par exemple), un résumé et des détails de débogage.

Les entrées de texte et les résultats de l’API Audio long sont retournés via deux URL de contenu distinctes, comme le montre l’exemple suivant. Celui avec "kind": "LongAudioSynthesisScript" est le script d’entrée envoyé. L’autre avec "kind": "LongAudioSynthesisResult" est le résultat de cette requête. Les deux fichiers ZIP peuvent être téléchargés à partir de l’URL dans leur propriété links.contentUrl.

Nettoyage des ressources

L’API de synthèse batch prend en charge jusqu’à 300 travaux de synthèse par lots qui n’ont pas l’état « Réussi » ou « Échec ». Le service Speech conserve chaque historique de synthèse pendant jusqu’à 31 jours, ou la durée de la propriété de requête timeToLiveInHours , selon le cas plus tôt. La date et l’heure de la suppression automatique (pour les travaux de synthèse ayant l’état « Réussite » ou « Échec ») sont celles définies par les propriétés lastActionDateTime + timeToLiveInHours.

L’API Audio long est limitée à 20 000 requêtes par compte d’abonnement Azure. Le service Speech ne supprime pas automatiquement l’historique des travaux. Vous devez supprimer vous-même l’historique des exécutions de travaux précédents avant d’effectuer de nouvelles requêtes qui entraîneraient un dépassement de la limite.

Partage via