Nouveautés d’Azure AI Speech

Article
11/12/2024

Azure AI Speech est mis à jour en continu. Pour vous informer des développements récents, cet article vous fournit des informations sur les nouvelles versions et fonctionnalités.

Temps forts récents

Transcription rapide est désormais en disponibilité générale. Elle peut transcrire l’audio beaucoup plus rapidement que la durée de l’audio réelle. Pour plus d’informations, consultez le guide de l’API de transcription rapide.
L’extension du kit de ressources Azure AI Speech est désormais disponible pour les utilisateurs de Visual Studio Code. Il contient une liste d’exemples de démarrages rapides et de scénarios vocaux qui peuvent être facilement générés et exécutés avec des clics simples. Pour plus d’informations, consultez Kit de ressources Azure AI Speech dans Visual Studio Code Marketplace.
Les voix haute définition (HD) Azure AI Speech sont disponibles dans la préversion publique. Les voix haute définition peuvent comprendre le contenu, automatiquement détecter des émotions dans le texte d’entrée et ajuster le ton d’élocution en temps réel pour le faire correspondre au sentiment. Pour découvrir plus d’informations, consultez Que sont les voix haute définition (HD) d’Azure AI Speech ?.
La traduction vidéo est désormais disponible dans le service Azure AI Speech. Pour plus d’informations, consultez Qu’est-ce que la traduction vidéo ?.
Le service Azure AI Speech prend en charge les voix de synthèse vocale OpenAI. Pour plus d’informations, consultez Que sont les voix de synthèse vocale OpenAI ?.
L’API de voix personnalisée est disponible pour créer et gérer des modèles vocaux neuraux personnalisés professionnels et personnels.

Notes de publication

Choisir un service ou une ressource

Version de novembre 2024

L’extension du kit de ressources Azure AI Speech est désormais disponible pour les utilisateurs de Visual Studio Code. Il contient une liste d’exemples de démarrages rapides et de scénarios vocaux qui peuvent être facilement générés et exécutés avec des clics simples. Pour plus d’informations, consultez Kit de ressources Azure AI Speech dans Visual Studio Code Marketplace.

Kit de développement logiciel (SDK) Speech 1.41.1 : version d’octobre 2024

Nouvelles fonctionnalités

Ajout de la prise en charge d’Amazon Linux 2023 et Azure Linux 3.0.
Ajout de l’ID de propriété publique SpeechServiceConnection_ProxyHostBypass pour spécifier les hôtes pour lesquels le proxy n’est pas utilisé.
Ajout de propriétés pour contrôler les nouvelles stratégies de segmentation d’expressions.

Correctifs de bogues

Correction de la prise en charge incomplète des modèles avancés de reconnaissance de mots clés produits après août 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Notez que, avec Swift sur iOS, votre projet doit utiliser MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (disponible ici : https://aka.ms/csspeech/iosbinaryembedded) ou le pod MicrosoftCognitiveServicesSpeechEmbedded-iOS qui inclut la prise en charge des modèles avancés.
Correction d’une fuite de mémoire dans C# liée à l’utilisation de chaînes.
Correction de l’impossibilité d’obtenir SPXAutoDetectSourceLanguageResult auprès de SPXConversationTranscriptionResult dans Objective-C et Swift.
Correction d’un incident occasionnel lors de l’utilisation de la pile audio Microsoft dans la reconnaissance.
Correction d’indicateurs de type dans Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Correction de l’impossibilité d’extraire la liste des voix TTS lors de l’utilisation d’un point de terminaison personnalisé.
Correction de la réinitialisation TTS incorporée pour chaque demande de parole quand la voix est spécifiée par un nom court.
Correction de la documentation de référence de l’API pour la durée maximale de l’audio RecognizeOnce.
Correction des taux d’échantillonnage arbitraires de gestion des erreurs dans JavaScript.
- Merci à rseanhall pour cette contribution.
Correction d’une erreur lors du calcul du décalage audio en JavaScript.
- Merci à motamed pour cette contribution.

Dernières modifications

La prise en charge de la reconnaissance de mots clés sur Windows ARM 32 bits a été supprimée en raison du runtime ONNX requis qui n’est pas disponible pour cette plateforme.

SDK Speech 1.40: 2024 : version 2024-August

Remarque

La version 1.39.0 du SDK Speech était une version interne et n’est pas manquante.

Nouvelles fonctionnalités

Ajout de la prise en charge de la diffusion en continu de l’audio compressé G.722 dans la reconnaissance vocale.
Ajout de la prise en charge des paramètres de hauteur, de débit et de volume dans la diffusion en continu de texte d’entrée dans la synthèse vocale.
Ajout de la prise en charge de diffusion en continu de texte d’entrée de voix personnelle en introduisant PersonalVoiceSynthesisRequest dans la synthèse vocale. Cette API est en préversion et est susceptible de changer dans les versions ultérieures.
Ajout de la prise en charge de la diarisation des résultats intermédiaires lorsque ConversationTranscriber est utilisé.
Suppression de la prise en charge de CentOS/RHEL 7 en raison de la fin du service de CentOS 7 et de la fin du support de maintenance 2 de RHEL 7.
L’utilisation de modèles vocaux incorporés nécessite désormais une licence de modèle au lieu d’une clé de modèle. Si vous êtes un client Speech incorporé existant et que vous souhaitez effectuer une mise à niveau, contactez votre support technique chez Microsoft pour plus d’informations sur les mises à jour de modèle.

Résolution des bogues

Fichiers binaires du SDK Speech générés pour Windows avec l’indicateur _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR comme atténuation du problème de runtime Visual C++ Violation d’accès avec std::mutex::lock après la mise à niveau vers VS 2022 version 17.10.0 – Developer Community (visualstudio.com). Les applications Windows C++ utilisant le SDK Speech peuvent avoir besoin d’appliquer le même indicateur de configuration de build si leur code utilise std::mutex (voir les détails dans le problème lié).
Correction de la détection OpenSSL 3.x qui ne fonctionnait pas sur Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
Correction du problème qui se produisait lors du déploiement d’une application UWP, où les bibliothèques et le modèle du package NuGet MAS ne se copiaient pas à l’emplacement de déploiement.
Correction d’un conflit de fournisseur de contenu dans les packages Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
Correction des options de post-traitement qui ne s’appliquaient pas aux résultats de la reconnaissance vocale intermédiaire.
Correction de l’avertissement .NET 8 concernant les identificateurs de runtime spécifiques à une distribution (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).

Exemples

Mise à jour des exemples de voix incorporés pour utiliser une licence de modèle au lieu d’une clé.

Kit de développement logiciel (SDK) Speech 1.38.0 : version de juin 2024

Nouvelles fonctionnalités

Mettre à niveau la configuration requise pour la plateforme Linux du Kit de développement logiciel (SDK) Speech :
- La nouvelle base de référence minimale est Ubuntu 20.04 LTS ou compatible avec glibc 2.31 ou version ultérieure.
- Les fichiers binaires pour Linux x86 sont supprimés conformément à la prise en charge de la plateforme Ubuntu 20.04.
- Notez que les RHEL/CentOS 7 restent pris en charge jusqu’au 30 juin (la fin de CentOS 7 et la fin du support de maintenance RHEL 7 2). Les fichiers binaires pour eux seront supprimés dans la version 1.39.0 du Kit de développement logiciel (SDK) Speech.
Ajoutez la prise en charge d’OpenSSL 3 sur Linux.
Ajoutez la prise en charge du format de sortie audio g722-16khz-64kbps avec synthétiseur vocal.
Ajoutez la prise en charge de l’envoi de messages via un objet de connexion avec synthétiseur vocal.
Ajoutez des API Start/StopKeywordRecognition dans Objective-C et Swift.
Ajoutez l’API pour sélectionner une catégorie de modèle de traduction personnalisée.
Mettez à jour l’utilisation de GStreamer avec le synthétiseur vocal.

Résolution des bogues

Correction de l’erreur « Taille du message Websocket ne peut pas dépasser 65,536 octets » pendant Start/StopKeywordRecognition.
Corrigez une erreur de segmentation Python pendant la synthèse vocale.

Exemples

Mettez à jour des exemples C# pour utiliser .NET 6.0 par défaut.

Kit de développement logiciel (SDK) Speech 1.37.0 : version d’avril 2024

Nouvelles fonctionnalités

Ajoutez la prise en charge de la diffusion en continu de texte d’entrée dans la synthèse vocale.
Modifiez la voix de synthèse vocale par défaut en-US-AvaMultilingualNeural.
Mettez à jour les builds Android pour utiliser OpenSSL 3.x.

Résolution des bogues

Corrigez les incidents occasionnels de JVM pendant la suppression de SpeechRecognizer lors de l’utilisation de MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Améliorez la détection des appareils audio par défaut sur Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Exemples

Mis à jour pour les nouvelles fonctionnalités.

Kit de développement logiciel (SDK) Speech 1.36.0 : version de mars 2024

Nouvelles fonctionnalités

Ajout de la prise en charge de l’identification de la langue dans la traduction multilingue sur les points de terminaison v2 en utilisant AutoDetectSourceLanguageConfig::FromOpenRange().

Résolution des bogues

Correction de l’événement SynthesisCanceled qui n’est pas déclenché si l’arrêt est appelé lors de l’événement SynthesisStarted.
Correction d’un problème de bruit dans la synthèse vocale incorporée.
Correction d’un incident dans la reconnaissance vocale incorporée lors de l’exécution de plusieurs modules de reconnaissance en parallèle.
Correction du paramètre du mode de détection d’expressions sur les points de terminaison v1/v2.
Corrections de différents problèmes liés à la pile audio Microsoft.

Exemples

Mises à jour de nouvelles fonctionnalités.

SDK Speech 1.35.0 : version de février 2024

Nouvelles fonctionnalités

Remplacement de la voix par défaut de la synthèse vocale en-US-JennyMultilinguelNeural par en-US-AvaNeural.
Prise en charge des détails au niveau du mot dans les résultats de traduction vocale incorporés à l’aide du format de sortie détaillé.

Résolution des bogues

Corrige l’API getter de position AudioDataStream dans Python.
Corrige la traduction vocale à l’aide de points de terminaison v2 sans détection de langue.
Correction d’un incident aléatoire et des événements de limite de mots en double dans la synthèse vocale incorporée.
Retourne un code d’erreur d’annulation correct pour une erreur de serveur interne sur les connexions WebSocket.
Corrige l’échec de chargement de la bibliothèque FPIEProcessor.dll lorsque MAS est utilisé avec C#.

Exemples

Mises à jour de mise en forme mineures pour les exemples de reconnaissance incorporée.

Sdk Speech 1.34.1 : version de janvier 2024

Dernières modifications

Correctifs de bogues uniquement

Nouvelles fonctionnalités

Correctifs de bogues uniquement

Résolution des bogues

Correction de la régression introduite dans la version 1.34.0 où l’URL du point de terminaison de service a été construite avec des informations de paramètres régionaux incorrectes pour les utilisateurs dans plusieurs régions de Chine.

Kit de développement logiciel (SDK) Speech 1.34.0 : version de novembre 2023

Dernières modifications

SpeechRecognizer est mis à jour pour utiliser un nouveau point de terminaison par défaut (ça veut dire, lors de la non spécification explicite d’URL) qui ne prend plus en charge les paramètres de chaîne de requête pour la plupart des propriétés. Au lieu de définir des paramètres de chaîne de requête directement avec ServicePropertyChannel.UriQueryParameter, veuillez utiliser les fonctions d’API correspondantes.

Nouvelles fonctionnalités

Compatibilité avec .NET 8 (correctif pour https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, à l’exception de l’avertissement sur centos7-x64)
Prise en charge des mesures de performances de message incorporées qui peuvent être utilisées pour évaluer la capacité d’un appareil à exécuter un message incorporé.
Prise en charge de l’identification de langue source dans une traduction en plusieurs langues incorporée.
Prise en charge de la reconnaissance vocale, de la synthèse vocale et de la traduction incorporées pour iOS et Swift/Objective-C mise en production dans la préversion.
La prise en charge incorporée est fournie dans Cocoapod MicrosoftCognitiveServicesSpeechEmbedded-iOS.

Résolution des bogues

Correctif pour la croissance doublée de la taille binaire du Kit de développement logiciel (SDK) iOS · Problème #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correctif pour Impossible d’obtenir des timestamps au niveau du mot pour l’API de reconnaissance vocale Azure · Problème #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correctif pour la phase de destruction DialogServiceConnector pour déconnecter correctement des événements. Ce problème entraînait des incidents de manière occasionnelle.
Correctif pour une exception pendant la création d’un module de reconnaissance quand MAS était utilisé.
FPIEProcessor.dll du package NuGet Microsoft.CognitiveServices.Speech.Extension.MAS pour Windows UWP x64 et ARM64 avait une dépendance sur des bibliothèques de runtime VC pour C++ natif. Le problème a été rectifié en mettant à jour la dépendance vers des bibliothèques correctes de runtime VC (pour UWP).
Correctif pour les appels périodiques [MAS] vers recognizeOnceAsync aboutit à SPXERR_ALREADY_INITIALIZED lors de l’utilisation de MAS · Problème #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Correctif pour l’incident de reconnaissance vocale incorporée quand des listes d’expressions étaient utilisées.

Exemples

Exemples iOS incorporés pour la reconnaissance vocale, la synthèse vocale et la traduction.

Interface CLI Speech 1.34.0 : version de novembre 2023

Nouvelles fonctionnalités

Prise en charge de la sortie des événements de limite de mot lors de la synthèse vocale.

Résolution des bogues

Mise à jour de la dépendance JMESPath vers la version la plus récente, améliore les évaluations de chaîne

Kit de développement logiciel (SDK) Speech 1.33.0 : version d’octobre 2023

Avis de modification cassant

Le nouveau package NuGet ajouté pour Microsoft Audio Stack (MAS) est désormais requis pour être inclus par les applications qui utilisent MAS dans leurs fichiers de configuration de package.

Nouvelles fonctionnalités

Ajout du nouveau package NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, qui offre des performances d’annulation d’écho améliorées lors de l’utilisation de Microsoft Audio Stack
Évaluation de la prononciation : ajout de la prise en charge de l’évaluation de la prosodie et du contenu, qui permet d’évaluer le discours parlé en termes de prosodie, de vocabulaire, de grammaire et de sujet.

Résolution des bogues

Correction des décalages de résultat de reconnaissance de mot clé afin qu’ils correspondent correctement au flux audio d’entrée depuis le début. Le correctif s’applique à la reconnaissance de mot clé autonome et à la reconnaissance vocale déclenchée par un mot clé.
Correction de Synthesizer stopSpeaking qui ne retournait pas immédiatement La méthode SPXSpeechSynthesizer stopSpeaking() ne peut pas retourner immédiatement sur iOS 17 : problème n° 2081
Correction du problème d’importation de Mac Catalyst sur la prise en charge du module Swift pour Mac Catalyst avec le Apple Silicon. Problème n° 1948
JS : Le module AudioWorkletNode charge utilise désormais une URL approuvée, avec une solution de repli pour le navigateur CDN inclut.
JS : Les fichiers de bibliothèque empaquetés ciblent désormais ES6 JS, avec la prise en charge de ES5 JS supprimée.
JS : les événements intermédiaires pour le scénario de traduction ciblant le point de terminaison v2 sont gérés correctement
JS : La propriété de langue pour TranslationRecognitionEventArgs est désormais définie pour les événements translation.hypothèse.
Synthèse vocale : l’événement SynthesisCompleted est garanti d’être émis après tous les événements de métadonnées, de sorte qu’il peut être utilisé pour indiquer la fin des événements. Comment détecter quand les visèmes sont reçus complètement ? Problème n° 2093 Azure-Samples/cognitive-services-speech-sdk

Exemples

Ajout d’un exemple pour illustrer le streaming MULAW à l’aide de Python)
Correctif pour l’exemple NAudio de reconnaissance vocale

Interface de ligne de commande Speech 1.33.0 : version d’octobre 2023

Nouvelles fonctionnalités

Prise en charge de la sortie des événements de limite de mot lors de la synthèse vocale.

Résolution des bogues

aucun(e)

Kit de développement logiciel (SDK) Speech 1.32.1 : version de septembre 2023

Résolution des bogues

Mise à jour des packages Android avec les derniers correctifs de sécurité d’OpenSSL1.1.1v
JS : ajout de la propriété WebWorkerLoadType pour permettre le contournement du chargement de l’URL de données pour le travailleur en délai d’attente
JS : déconnexion de la traduction des conversations après 10 minutes
JS : le jeton d’authentification de la traduction des conversations se propage désormais à la connexion au service de traduction

Exemples

Transcription de conversation avec des API Swift

SDK Speech 1.31.0 : version d’août 2023

Nouvelles fonctionnalités

La prise en charge de la diarisation en temps réel est disponible en préversion publique avec le SDK Speech 1.31.0. Cette fonctionnalité est disponible dans les SDK suivants : C#, C++, Java, JavaScript, Python et Objective-C/Swift.
Événements de limite de mot et de visème de synthèse vocale synchronisés avec lecture audio

Dernières modifications

L’ancien scénario de « transcription de conversation » est renommé « transcription de réunion ». Par exemple, utilisez MeetingTranscriber au lieu de ConversationTranscriber, et utilisez CreateMeetingAsync au lieu de CreateConversationAsync. Bien que les noms des objets et méthodes du SDK aient changé, le changement de nom ne modifie pas la fonctionnalité elle-même. Utilisez des objets de transcription de réunion pour la transcription de réunions avec des profils utilisateur et des signatures vocales. Consultez Transcription de réunions pour plus d'informations. Les objets et méthodes de « traduction de conversation » ne sont pas affectés par ces modifications. Vous pouvez toujours utiliser l’objet ConversationTranslator et ses méthodes pour les scénarios de traduction de réunion.

Pour la diarisation en temps réel, un nouvel objet ConversationTranscriber est introduit. Le nouveau modèle objet de « transcription de conversation » et les modèles d’appel sont similaires à la reconnaissance continue avec l’objet SpeechRecognizer. Une différence clé est que l’objet ConversationTranscriber est conçu pour être utilisé dans un scénario de conversation où vous souhaitez différencier plusieurs orateurs (diarisation). Les profils utilisateur et les signatures vocales ne sont pas applicables. Consultez Démarrage rapide Diarisation en temps réel pour plus d’informations.

Ce tableau présente les noms d’objets précédents et nouveaux pour la diarisation en temps réel et la transcription de réunion. Le nom du scénario se trouve dans la première colonne, les noms d’objets précédents se trouvent dans la deuxième colonne et les nouveaux noms d’objets se trouvent dans la troisième colonne.

Nom du scénario	Noms d’objets précédents	Nouveaux noms d’objets
Diarisation en temps réel	N/A	`ConversationTranscriber`
Transcription de réunion	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant`¹ `ParticipantChangedReason`¹ `User`¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting`²

¹ Les objets Participant, ParticipantChangedReason et User s’appliquent à la fois aux scénarios de transcription de réunion et de traduction de réunion.

² L’objet Meeting est nouveau et est utilisé avec l’objet MeetingTranscriber.

Résolution des bogues

Correction de la version minimale prise en charge de macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Correction d’un bogue dans l’évaluation de la prononciation :
- Résolution du problème des scores de justesse des phonèmes, pour qu’ils reflètent désormais avec précision uniquement le phonème spécifique mal prononcé. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Résolution d’un problème où la fonctionnalité Évaluation de la prononciation identifiait de manière inexacte comme erronées des prononciations tout à fait correctes, en particulier quand les mots pouvaient avoir plusieurs prononciations valides. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Exemples

Kit de développement logiciel (SDK) Speech 1.30.0 : version de juillet 2023

Nouvelles fonctionnalités

C++, C#, Java : ajout de la prise en charge de DisplayWords dans le résultat détaillé de la reconnaissance vocale incorporée.
Objective-C/Swift : ajout de la prise en charge de l’événement ConnectionMessageReceived dans Objective-C/Swift.
Objective-C/Swift : modèles améliorés d’identification de mot clé pour iOS. Cette modification a augmenté la taille de certains packages contenant des fichiers binaires iOS (comme NuGet, XCFramework). Nous travaillons à la réduction de la taille pour les prochaines versions.

Résolution des bogues

Correction d’une fuite de mémoire lors de l’utilisation du module de reconnaissance vocale avec PhraseListGrammar, comme signalé par un client (problème GitHub).
Correction d’un blocage dans l’API de connexion ouverte de la synthèse vocale (TTS).

Autres remarques

Java : certaines méthodes d’API Java public utilisées en interne ont été modifiées en package internal, protected ou private. Cette modification ne devrait pas avoir d’effet sur les développeurs, car nous ne nous attendons pas à ce que les applications les utilisent. Noté ici pour la transparence.

Exemples

Nouveaux exemples d’évaluation de la prononciation sur la façon de spécifier une langue d’apprentissage dans votre application
- C# : Consultez cet exemple de code.
- C++ : Consultez cet exemple de code.
- JavaScript : Consultez l’exemple de code.
- Objective-C : Consultez cet exemple de code.
- Python : Consultez cet exemple de code.
- Swift : Consultez cet exemple de code.

Kit de développement logiciel (SDK) Speech 1.29.0 : version de juin 2023

Nouvelles fonctionnalités

C++, C#, Java : préversion des API de traduction vocale incorporée. Vous pouvez désormais effectuer une traduction vocale sans connexion cloud !
JavaScript : LID (Continuous Language Identification) désormais activé pour la traduction vocale.
JavaScript : contribution de la communauté pour l’ajout d’une LocaleName propriété à la VoiceInfo classe. Merci à l’utilisateur GitHub shivsarthak pour la demande de tirage.
C++, C#, Java : ajout de la prise en charge du rééchantillonnage de la sortie incorporée de synthèse vocale (TTS) à un échantillonnage de 16 kHz à 48 kHz.
Ajout de la prise en charge des hi-IN paramètres régionaux dans Intent Recognizer avec Simple Pattern Matching.

Résolution des bogues

Correction d’un plantage provoqué par une condition de concurrence dans Speech Recognizer lors de la destruction d’objets, comme indiqué dans certains de nos tests Android
Correction des interblocages possibles dans Intent Recognizer avec Simple Pattern Matcher

Exemples

Nouveaux exemples de traduction vocale incorporée

Kit de développement logiciel (SDK) Speech 1.28.0 : version de mai 2023

Modification avec rupture

Kit de développement logiciel (SDK) JavaScript : le protocole OCSP (Online Certificate Status Protocol) a été supprimé. Cela permet aux clients de mieux se conformer aux normes du navigateur et des nœuds pour la gestion des certificats. Les versions 1.28 et ultérieures n’incluront plus notre module OCSP personnalisé.

Nouvelles fonctionnalités

La Reconnaissance vocale incorporée retourne désormais NoMatchReason::EndSilenceTimeout lorsqu’un délai d’expiration du silence se produit à la fin d’un énoncé. Cela correspond au comportement pendant une reconnaissance à l’aide du service de reconnaissance vocale en temps réel.
Kit de développement logiciel (SDK) JavaScript : définissez des propriétés sur SpeechTranslationConfig en tirant parti des valeurs d’énumération PropertyId.

Résolution des bogues

C# sur Windows : corrigez des conditions de concurrence/interblocage éventuels dans une extension audio Windows. Dans des scénarios qui suppriment rapidement le renderer audio et utilisent également la méthode Synthesizer pour arrêter les paroles, l’événement sous-jacent n’était pas réinitialisé par arrêt et l’objet renderer pouvait en conséquence ne jamais être supprimé, tout en conservant potentiellement un verrou global pour la suppression, bloquant le thread dotnet GC.

Exemples

Ajout d’un exemple de reconnaissance vocale incorporée pour MAUI.
Mise à jour de l’exemple de message incorporé pour Android Java afin d’inclure la synthèse vocale.

Kit de développement logiciel (SDK) Speech 1.27.0 : version d’avril 2023

Notification concernant les modifications à venir

Nous prévoyons de supprimer le protocole OCSP (Online Certificate Status Protocol) dans la prochaine version du Kit de développement logiciel (SDK) JavaScript. Cela permet aux clients de mieux se conformer aux normes du navigateur et des nœuds pour la gestion des certificats. La version 1.27 est la dernière version qui inclut notre module OCSP personnalisé.

Nouvelles fonctionnalités

JavaScript : ajout de la prise en charge de l’entrée de microphone à partir du navigateur avec la vérification et l’identification de l’orateur.
Reconnaissance vocale incorporée : mise à jour de la prise en charge du paramètre PropertyId::Speech_SegmentationSilenceTimeoutMs.

Résolution des bogues

Général : mises à jour de la fiabilité dans la logique de reconnexion de service (tous les langages de programmation, à l’exception de JavaScript).
Général : correction des conversions de chaînes faisant l’objet d’une fuite de mémoire sur Windows (tous les langages de programmation pertinents à l’exception de JavaScript).
Reconnaissance vocale incorporée : correction des incidents dans la reconnaissance vocale en français lors de l’utilisation de certaines entrées de liste grammaticale.
Documentation du code source : corrections apportées aux commentaires de la documentation de référence du Kit de développement logiciel (SDK) relatifs à la journalisation audio sur le service.
Reconnaissance de l’intention : correction des priorités de la correspondance de modèle liées aux entités de liste.

Exemples

Gérer correctement l’échec d’authentification dans l’exemple C# Transcription de conversation (CTS).
Ajout d’un exemple d’évaluation de la prononciation dans la diffusion en continu pour Python, JavaScript, Objective-C et Swift.

SDK Speech 1.26.0 : version de mars 2023

Changements cassants

Le Bitcode a été désactivé dans toutes les cibles iOS des packages suivants : Cocoapod avec xcframework, NuGet (pour Xamarin et MAUI) et Unity. Cette modification est due à la dépréciation d’Apple de la prise en charge de Bitcode à partir de Xcode 14 et version ultérieure. Cela signifie également que si vous utilisez la version Xcode 13 ou que vous avez explicitement activé le Bitcode sur votre application avec le SDK Speech, vous pouvez rencontrer une erreur indiquant que « le framework ne contient pas de Bitcode et vous devez le recréer ». Pour résoudre ce problème, assurez-vous que le bitcode de vos cibles est désactivé.
La cible de déploiement iOS minimale est passée à la version 11.0 dans cette version, ce qui signifie qu’armv7 HW n’est plus pris en charge.

Nouvelles fonctionnalités

La reconnaissance vocale incorporée (sur appareil) prend désormais en charge la fréquence d’échantillonnage audio de 8 et 16 kHz (16 bits par échantillon, PCM mono).
La synthèse vocale signale désormais les latences de connexion, de réseau et de service dans le résultat pour faciliter l’optimisation de la latence de bout en bout.
Nouvelles règles pour départager lors d’une reconnaissance de l’intention avec une mise en correspondance simple de modèle. Le plus grand nombre d’octets de caractères correspondants l’emporte sur les correspondances de modèle avec un nombre d’octets de caractères inférieur. Exemple : Le modèle « Sélectionnez {quelque chose} en haut à droite » l’emporte sur « Sélectionnez {quelque chose} »

Résolution des bogues

Synthèse vocale : correction d’un bogue où l’émoji n’est pas correct dans les événements de limite de mots.
Reconnaissance de l’intention vocale avec compréhension du langage courant (CLU) :
- Les intentions du workflow Orchestrator CLU s’affichent désormais correctement.
- Le résultat JSON est maintenant disponible via l’ID de propriété LanguageUnderstandingServiceResponse_JsonResult.
Reconnaissance vocale avec activation de mot clé : correction de l’audio manquant d’environ 150 ms après une reconnaissance de mot clé.
Correctif de la build Speech SDK NuGet iOS MAUI Release, signalé par un client (problème GitHub)

Exemples

Correctif de l’échantillon iOS Swift, signalé par un client (problème GitHub)

Kit de développement logiciel (SDK) Speech 1.25.0 : version de janvier 2023

Changements cassants

Les API d’identification du langage (préversion) ont été simplifiées. Si vous effectuez une mise à jour vers le Kit de développement logiciel (SDK) Speech 1.25 et que vous voyez une erreur de génération, visitez la page Identification du langage pour en savoir plus sur la nouvelle propriété SpeechServiceConnection_LanguageIdMode. Cette propriété unique remplace les deux précédentes SpeechServiceConnection_SingleLanguageIdPriority et SpeechServiceConnection_ContinuousLanguageIdPriority. La hiérarchisation entre une faible latence et une précision élevée n’est plus nécessaire suite aux améliorations récentes du modèle. Maintenant, il vous suffit de sélectionner s’il faut exécuter au début ou en continu l’identification du langage lors de la reconnaissance ou de la traduction vocale continue.

Nouvelles fonctionnalités

C#/C++/Java : le Kit de développement logiciel (SDK) Embedded Speech est désormais publié sous préversion publique fermée. Consultez la documentation Embedded Speech (préversion). Vous pouvez désormais faire de la reconnaissance vocale et de la synthèse vocale sur l’appareil lorsque la connectivité cloud est intermittente ou indisponible. Pris en charge sur les plateformes Android, Linux, macOS et Windows
C# MAUI : prise en charge ajoutée pour les cibles iOS et Mac Catalyst dans le Kit de développement logiciel (SDK) Speech NuGet (problème client)
Unity : l’architecture Android x86_64 ajoutée au package Unity (problème client)
Go :
- Ajout de la prise en charge de la diffusion en continu directe ALAW/MULAW pour la reconnaissance vocale (problème client)
- Ajout de la prise en charge de PhraseListGrammar. Merci à l’utilisateur GitHub czkoko pour la contribution à la communauté !
C#/C++ : la reconnaissance de l’intention prend désormais en charge les modèles de compréhension du langage courant en C++ et C# avec orchestration sur le service Microsoft

Résolution des bogues

Corriger un blocage occasionnel dans KeywordRecognizer lorsque vous essayez de l’arrêter
Python :
- Corriger l’obtention des résultats de l’évaluation de la prononciation lorsque PronunciationAssessmentGranularity.FullText est défini (problème client)
- Corriger la propriété de genre pour les voix masculines non récupérées, lors de l’obtention de voix de synthèse vocale
JavaScript
- Corriger l’analyse de certains fichiers WAV enregistrés sur des appareils iOS (problème client)
- Le KIT de développement logiciel (SDK) JS est désormais généré sans utiliser npm-force-resolutions (problème client)
- Conversation Translator définit désormais correctement le point de terminaison de service lors de l’utilisation d’une instance speechConfig créée à l’aide de SpeechConfig.fromEndpoint()

Exemples

Ajout d’exemples montrant comment utiliser Embedded Speech
Ajout d’un exemple de reconnaissance vocale pour MAUI

Consultez Référentiel d’exemples du Kit de développement logiciel (SDK) Speech.

Kit de développement logiciel (SDK) Speech 1.24.2 : version de novembre 2022

Nouvelles fonctionnalités

Aucune nouvelle fonctionnalité, juste un correctif de moteur incorporé pour prendre en charge les nouveaux fichiers de modèle.

Résolution des bogues

Tous les langages de programmation
- Correction d’un problème lié au chiffrement des modèles de reconnaissance vocale incorporés.

SDK Speech 1.24.1 : version de novembre 2022

Nouvelles fonctionnalités

Packages publiés pour la préversion d’Embedded Speech. Consultez la rubrique https://aka.ms/embedded-speech (éventuellement en anglais) pour plus d'informations.

Résolution des bogues

Tous les langages de programmation
- Corriger le blocage de la synthèse vocale incorporée quand la police de la voix n’est pas prise en charge
- La correction de stopSpeaking() ne peut pas arrêter la lecture sur Linux (#1686)
Kit de développement logiciel (SDK) JavaScript
- Correction de la régression dans la façon dont le transcripteur de conversation a contrôlé l’audio.
Java
- Publication temporaire des fichiers POM et Javadocs mis à jour dans Maven Central pour permettre au pipeline de documents de mettre à jour les documents de référence en ligne.
Python
- Correction de la régression quand speak_text(ssml) retourne void (Python).

Kit de développement logiciel (SDK) Speech 1.24.0 : version d’octobre 2022

Nouvelles fonctionnalités

Tous les langages de programmation : AMR-WB (16 kHz) ajoutées à la liste des formats de sortie audio de synthèse vocale pris en charge
Python : Package ajouté pour Linux ARM64 pour les distributions Linux prises en charge.
C#/C++/Java/Python : ajout de la prise en charge de la diffusion en continu en direct ALAW et MULAW vers le service Speech (en plus du flux PCM existant) en utilisant AudioStreamWaveFormat.
C# MAUI : package NuGet mis à jour pour prendre en charge les cibles Android pour les développeurs .NET MAUI (problème client)
Mac : Ajout de XCframework distinct pour Mac, qui ne contient pas de fichiers iOS binaires. Cela offre une option pour les développeurs qui n’ont besoin que de fichiers binaires Mac à l’aide d’un package XCframework plus petit.
Pile audio Microsoft (MAS) :
- Lorsque des angles de formation de faisceau sont spécifiés, le son provenant de l’extérieur de la plage spécifiée sera mieux supprimé.
- Environ 70 % de réduction de la taille de libMicrosoft.CognitiveServices.Speech.extension.mas.so Linux ARM32 et Linux ARM64.
Reconnaissance de l’intention à l’aide de critères spéciaux :
- Ajouter la prise en charge de l’orthographe pour les langues fr, de, es, jp
- Ajout de la prise en charge de l’entier prédéfini pour la langue es.

Résolution des bogues

iOS : corriger l’erreur de synthèse vocale sur iOS 16 causée par une défaillance de décodage de contenu audio compressée (problème client).
JavaScript :
- Corrigez le jeton d’authentification qui ne fonctionne pas lors de l’obtention de la liste vocale de synthèse vocale (problème client).
- Utilisez l’URL de données pour le chargement du rôle de travail (problème client).
- Créez un worklet de processeur audio uniquement lorsque AudioWorklet est pris en charge dans le navigateur (Problème client). Il s’agissait d’une contribution communautaire de William Wong. Merci William !
- Corrigez le rappel reconnu lorsque la réponse LUIS connectionMessage est vide (Problème client).
- Définissez correctement le délai d’expiration de segmentation vocale.
Reconnaissance de l’intention à l’aide de critères spéciaux :
- Les caractères non JSON à l’intérieur des modèles sont désormais chargés correctement.
- Corrigez le problème de suspension lors de l’appel recognizeOnceAsync(text) lors de la reconnaissance continue.

Le Kit de développement logiciel (SDK) Speech1.23.0: version de juillet 2022

Nouvelles fonctionnalités

C#, C++, Java : ajout de la prise en charge des langageszh-cn et zh-hk de la reconnaissance d’intention avec la correspondance de modèle.
C#: Ajout de la prise en charge des AnyCPU builds .NET Framework

Résolution des bogues

Android : Correction de la vulnérabilité OpenSSL CVE-2022-2068 en mettant à jour OpenSSL vers 1.1.1q
Python : Corriger un incident lors de l’utilisation de PushAudioInputStream
iOS : Corriger « EXC_BAD_ACCESS : tentative de déréférencement du pointeur null » comme indiqué sur iOS (problème GitHub)

Kit de développement logiciel (SDK) Speech 1.22.0 : version de juin 2022

Nouvelles fonctionnalités

Java : ajout de l’API IntentRecognitionResult pour getEntities(), applyLanguageModels() et recognizeOnceAsync(text) pour prendre en charge le moteur de « correspondance de modèle simple ».
Unity : ajout de la prise en charge du package Mac M1 (Apple Silicon) pour Unity (problème GitHub)
C# : ajout de la prise en charge de x86_64 pour Xamarin Android (problème GitHub)
C# : mise à jour de la version minimale du .NET Framework vers la version v4.6.2 pour le package C# du Kit de développement logiciel (SDK) en raison du retrait de v4.6.1 (voir Stratégie de cycle de vie de composant Microsoft .NET Framework)
Linux : ajout de la prise en charge de Debian 11 et d’Ubuntu 22.04 LTS. Ubuntu 22.04 LTS nécessite une installation manuelle de libssl1.1 en tant que package binaire à partir d’ici (par exemple, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou version ultérieure pour x64) ou en opérant une compilation à partir de sources.

Résolution des bogues

UWP : suppression de la dépendance OpenSSL des bibliothèques UWP et remplacement par les API Websocket et HTTP WinRT pour répondre à la conformité en matière de sécurité et réduire l’empreinte binaire.
Mac : Correction du problème « Module MicrosoftCognitiveServicesSpeech introuvable » lors de l’utilisation de projets Swift ciblant une plateforme macOS
Windows, Mac : correction d’un problème spécifique de la plateforme où des sources audio configurées via des propriétés pour diffuser en continu à un débit en temps réel prenaient parfois du retard et finissaient par dépasser leur capacité

Exemples (GitHub)

C# : mise à jour des exemples .NET Framework pour utiliser v4.6.2
Unity : correction de l’exemple d’assistant virtuel pour Android et UWP
Unity : mise à jour des exemples Unity pour le version LTS de Unity 2020

SDK Speech 1.21.0 : version d’avril 2022

Nouvelles fonctionnalités

Java et JavaScript : ajout de la prise en charge de l’identification de la langue en continu lors de l’utilisation de l’objet SpeechRecognizer
JavaScript : Ajout d’API Diagnostics pour activer le niveau de journalisation de la console et la journalisation des fichiers (Nœud uniquement), afin d’aider Microsoft à résoudre les problèmes signalés par le client
Python : Ajout de la prise en charge de la transcription de conversation
Go : Ajout de la prise en charge de Reconnaissance de l’orateur
C++ et C# : ajout de la prise en charge d’un groupe de mots nécessaire dans le module de reconnaissance de l’intention (critères spéciaux simples). Par exemple : « (définir|démarrer|commencer) un retardateur » où « définir », « démarrer » ou « commencer » doivent être présents pour que l’intention soit reconnue.
Tous les langages de programmation, Synthèse vocale : Ajout de la propriété de durée dans les événements de limite de mot. Ajout de la prise en charge de la limite de ponctuation et de la limite de phrase
Objective-C/Swift/Java : Ajout de résultats au niveau du mot sur l’objet résultat de l’évaluation de la prononciation (similaire à C#). L’application n’a plus besoin d’analyser une chaîne de résultat JSON pour obtenir des informations au niveau du mot (problème GitHub)
Plateforme iOS : Ajout de la prise en charge expérimentale de l’architecture ARMv7

Résolution des bogues

Plateforme iOS : Correctif permettant d’autoriser une génération pour la cible « Tout appareil iOS », lors de l’utilisation de CocoaPod (problème GitHub)
Plateforme Android : La version OpenSSL a été mise à jour vers la version 1.1.1n pour corriger la vulnérabilité de sécurité CVE-2022-0778
JavaScript : Résolution du problème où l’en-tête wav n’était pas mis à jour avec la taille du fichier (problème GitHub)
JavaScript : Résolution du problème de désynchonisation de l’ID de requête dans les scénarios de traduction (problème GitHub)
JavaScript : Résolution du problème lors de l’instanciation de SpeakerAudioDestination sans flux (problème GitHub]
C++ : Correction des en-têtes C++ pour supprimer un avertissement lors de la compilation pour C++17 ou version ultérieure

Exemples GitHub

Nouveaux exemples Java pour la reconnaissance vocale avec identification de la langue
Nouveaux exemples Python et Java pour la transcription de conversation
Nouvel exemple Go pour la reconnaissance de l’orateur
Nouvel outil C++ et C# pour Windows qui énumère tous les appareils de capture audio et de rendu, afin de trouver leur ID d’appareil. Cet ID est nécessaire pour le SDK Speech si vous envisagez de capturer de l’audio ou de rendre de l’audio sur un appareil autre que par défaut.

SDK Speech 1.20.0 : version de janvier 2022

Nouvelles fonctionnalités

Objective-C, Swift et Python : Ajout de la prise en charge de DialogServiceConnector, utilisé pour les scénarios de l’Assistant vocal.
Python : Ajout de la prise en charge de Python 3.10. La prise en charge de Python 3.6 a été supprimée, par la fin de vie de Python 3.6.
Unity : Le SDK Speech est désormais pris en charge pour les applications Unity sur Linux.
C++, C# : IntentRecognizer à l’aide de critères spéciaux est désormais pris en charge en C#. En outre, les scénarios avec des entités personnalisées, des groupes facultatifs et des rôles d’entité sont désormais pris en charge en C++ et en C#.
C++, C# : Amélioration de la journalisation des traces de diagnostics à l’aide des nouvelles classes FileLogger, MemoryLogger et EventLogger. Les journaux du SDK sont un outil important pour permettre à Microsoft de diagnostiquer les problèmes signalés par les clients. Ces nouvelles classes facilitent l’intégration des journaux SDK Speech à leur propre système de journalisation.
Tous les langages de programmation : PronunciationAssessmentConfig a désormais des propriétés permettant de définir l’alphabet de phonèmes souhaité (IPA ou SAPI) et le nombre des N meilleurs phonèmes (en évitant de créer un fichier JSON de configuration comme indiqué dans le problème GitHub 1284). De plus, la sortie au niveau des syllabes est désormais prise en charge.
Android, iOS et macOS (tous les langages de programmation) : GStreamer n’est plus nécessaire pour prendre en charge les réseaux à bande passante limitée. SpeechSynthesizer utilise désormais les fonctionnalités de décodage audio du système d’exploitation pour décoder le contenu audio compressé diffusé à partir du service de synthèse vocale.
Tous les langages de programmation : SpeechSynthesizer prend désormais en charge trois nouveaux formats Opus de sortie brute (sans conteneur), qui sont largement utilisés dans les scénarios de streaming en direct.
JavaScript : ajout de l’API getVoicesAsync() à SpeechSynthesizer pour récupérer la liste des voix de synthèse prises en charge (problème GitHub 1350)
JavaScript : ajout de l’API getWaveFormat() à AudioStreamFormat pour la prise en charge des formats wave non PCM (problème GitHub 452)
JavaScript : ajout des API getter/setter and mute()/unmute() de volume à SpeakerAudioDestination (problème GitHub 463)

Résolution des bogues

C++, C#, Java, JavaScript, Objective-C et Swift : correctif supprimant un délai de 10 secondes lors de l’arrêt d’un module de reconnaissance vocale qui utilise un PushAudioInputStream. C’est pour le cas où aucun nouvel audio n’est poussé après l’appel de StopContinuousRecognition (problèmes GitHub 1318, 331)
Unity sur Android et UWP : les métafichiers Unity ont été corrigés pour UWP, Android Arm64 et le sous-système Windows pour Android (WSA) Arm64 (problème GitHub 1360)
iOS : la compilation de votre application du SDK Speech sur un appareil iOS lors de l’utilisation de CocoaPods est maintenant résolue (problème GitHub 1320)
iOS : dans quelques rares cas, lorsque SpeechSynthesizer est configuré pour la sortie audio directement vers un orateur, la lecture s’arrêtait au début. Ce problème a été résolu.
JavaScript : utilisez le processeur de script de secours pour l’entrée de microphone si aucune interface AudioWorkLet n’est trouvée (problème GitHub 455)
JavaScript : ajoutez un protocole à l’agent pour atténuer le bogue trouvé avec l’intégration Sentry (problème GitHub 465)

Exemples GitHub

Exemples C++, C#, Python et Java illustrant comment obtenir des résultats détaillés de la reconnaissance. Les détails incluent des résultats de reconnaissance alternatifs, un indice de confiance, une forme lexicale, une forme normalisée, une forme normalisée masquée, avec un minutage au niveau des mots pour chaque.
Exemple iOS ajouté à l’aide d’AVFoundation comme source audio externe.
Exemple Java ajouté pour montrer comment obtenir le format SRT (SubRip Text) à l’aide d’un événement WordBoundary.
Exemples Android pour l’évaluation de la prononciation.
C++, C# montrant l’utilisation des nouvelles classes de journalisation des diagnostics.

SDK Speech 1.19.0 : version de novembre 2021

Points forts

Le service Reconnaissance de l’orateur est désormais en disponibilité générale. Les API du Kit de développement logiciel (SDK) Speech sont disponibles en C++, C#, Java et JavaScript. Avec la Reconnaissance de l’orateur, vous pouvez vérifier et identifier avec précision les orateurs d’après leurs caractéristiques vocales uniques. Pour plus d’informations à ce sujet, consultez la documentation.
Nous avons abandonné la prise en charge d’Ubuntu 16.04 conjointement avec Azure DevOps et GitHub. Ubuntu 16.04 a atteint sa fin de vie en avril 2021. Migrez vos workflows Ubuntu 16.04 vers Ubuntu 18.04 ou version ultérieure.
La liaison OpenSSL dans les binaires Linux est désormais dynamique. La taille des binaires Linux a été réduite d’environ 50 %.
Ajout de la prise en charge du silicium Mac M1 ARM.

Nouvelles fonctionnalités

C++/C#/Java : ajout de nouvelles API pour activer la prise en charge du traitement audio pour les entrées vocales avec Microsoft Audio Stack. Documentation ici.
C++ : nouvelles API pour la reconnaissance d’intention afin de faciliter les critères spéciaux plus avancés. Cela comprend des entités Liste et Entier prédéfini, ainsi que la prise en charge du regroupement des intentions et des entités en tant que modèles (la documentation, les mises à jour et les exemples sont en cours de développement et seront publiés dans un avenir proche).
Mac : Prise en charge des puces silicium ARM64 (M1) pour packages NuGet, CocoaPod, Python et Java afin de résoudre le problème GitHub 1244.
iOS/Mac : les binaires iOS et macOS sont maintenant empaquetés dans xcframework afin de résoudre le problème GitHub 919.
iOS/Mac : prise en charge de Mac Catalyst afin de résoudre le problème GitHub 1171.
Linux : nouveau package tar ajouté pour CentOS7 À propos du SDK Speech. Le package Linux .tar contient maintenant des bibliothèques spécifiques pour RHEL/CentOS 7 dans lib/centos7-x64. Les bibliothèques du SDK Speech dans lib/x64 sont toujours applicables à toutes les autres distributions Linux x64 prises en charge (notamment RHEL/CentOS 8) et ne fonctionneront pas sur RHEL/CentOS 7.
JavaScript : les API VoiceProfile et SpeakerRecognizer sont désormais asynchrones/pouvant être attendues.
JavaScript : ajout de la prise en charge pour les régions Azure du gouvernement des États-Unis.
Windows : ajout de la prise en charge de la lecture sur la plateforme Windows universelle (UWP).

Résolution des bogues

Android : mise à jour de sécurité OpenSSL (mise à jour vers la version 1.1.1 l) pour les packages Android.
Python : résolution d’un bogue qui provoquait l’échec de la sélection du périphérique haut-parleur sur Python.
Core : reconnexion automatique en cas d’échec d’une tentative de connexion.
iOS : la compression audio est désactivée sur les packages iOS en raison d’une instabilité et de problèmes de génération bitcode lors de l’utilisation de GStreamer. Pour plus de détails, consultez le problème GitHub 1209.

Exemples GitHub

Mac/iOS : mise à jour des exemples et des guides de démarrage rapide pour utiliser le package xcframework.
.NET : mise à jour des exemples pour utiliser la version 3.1 de .NET core.
JavaScript : ajout d’un exemple pour les assistants vocaux.

Speech SDK 1.18.0:2021-version de juillet

Remarque : le démarrage avec le SDK Speech se trouve ici.

Résumé des points importants

Ubuntu 16.04 a atteint sa fin de vie en avril 2021. Avec Azure DevOps et GitHub, nous allons supprimer la prise en charge de la version 16.04 en septembre 2021. Migrez les workflows ubuntu-16.04 vers ubuntu-18.04 ou une version ultérieure avant cette date.

Nouvelles fonctionnalités

C++ : la mise en correspondance des modèles de langage simples avec le module de reconnaissance d’intention facilite désormais l’implémentation de scénarios de reconnaissance d’intention simples.
C++/C#/Java : nous avons jouté une nouvelle API, GetActivationPhrasesAsync(), à la classe VoiceProfileClient pour la réception d’une liste d’expressions d’activation valides dans la phase d’inscription de Reconnaissance de l’orateur pour les scénarios de reconnaissance indépendante.
- Important : la fonctionnalité reconnaissance de l’orateur est en préversion. Tous les profils vocaux créés dans la préversion seront effacés 90 jours après le passage de la fonctionnalité Reconnaissance de l’orateur de la préversion à la disponibilité générale. À ce stade, les profils vocaux en préversion cessent de fonctionner.
Python : ajout de la prise en charge de l’identification de langage continue (LID) sur les objets SpeechRecognizer et TranslationRecognizer existants.
Python : ajout d’un nouvel objet Python appelé SourceLanguageRecognizer pour une identification de langage ponctuelle ou continue (sans reconnaissance ni traduction).
JavaScript : API getActivationPhrasesAsync ajoutée à la classe VoiceProfileClient pour la réception d’une liste d’expressions d’activation valides dans la phase d’inscription de Reconnaissance de l’orateur pour les scénarios de reconnaissance indépendante.
L’API enrollProfileAsync de VoiceProfileClient dans JavaScript est maintenant asynchrone. Consultez ce code d’identification indépendant pour voir un exemple d’usage.

Améliorations

Java : prise en charge d’AutoCloseable ajoutée à de nombreux objets Java. Désormais, le modèle try-with-resources est pris en charge pour libérer des ressources. Voir cet exemple qui utilise try-with-resources. Consultez également le tutoriel de la documentation Oracle Java sur l’instruction try-with-resources pour en savoir plus sur ce modèle.
L’encombrement sur le disque a été considérablement réduit pour de nombreuses plateformes et architectures. Exemples pour le binaire Microsoft.CognitiveServices.Speech.core : Linux x64 est 475 Ko plus léger (réduction de 8,0 %), ARM64 Windows UWP est 464 Ko plus léger (réduction de 11,5 %), Windows x86 est 343 Ko plus léger (réduction de 17,5 %) et x64 Windows est 451 Ko plus léger (réduction de 19,4 %).

Résolution des bogues

Java : erreur de synthèse corrigée quand le texte de synthèse contient des caractères de substitution. Détails ici.
JavaScript : le traitement audio du micro du navigateur utilise maintenant AudioWorkletNode au lieu de ScriptProcessorNode. Détails ici.
JavaScript : garde correctement les conversations actives pendant les scénarios de traduction de conversation de longue durée. Détails ici.
JavaScript : résolution d’un problème de reconnexion du module de reconnaissance à un mediastream en reconnaissance continue. Détails ici.
JavaScript : résolution d’un problème de reconnexion du module de reconnaissance à un pushStream en reconnaissance continue. Détails ici.
JavaScript : calcul du décalage au niveau du mot corrigé dans les résultats détaillés de la reconnaissance. Détails ici.

Exemples

Exemples de démarrage rapide mis à jour ici.
Exemples de Reconnaissance de l’orateur JavaScript mis à jour pour montrer la nouvelle utilisation de enrollProfileAsync(). Consultez des exemples ici.

SDK Speech 1.17.0 : version de mai 2021

Notes

Prenez en main le SDK Speech ici.

Résumé des points importants

Empreinte réduite : nous continuons à réduire l’empreinte mémoire et disque du SDK Speech et de ses composants.
Une nouvelle API Identification de la langue autonome vous permet de reconnaître la langue parlée.
Développez des applications de gaming et de réalité mixte avec reconnaissance vocale en utilisant Unity sur macOS.
Vous pouvez désormais utiliser la synthèse vocale en plus de la reconnaissance vocale à partir du langage de programmation Go.
Plusieurs correctifs de bogues pour résoudre les problèmes que VOUS, nos chers clients, ont signalé sur GitHub ! MERCI ! Continuez à nous faire part de vos commentaires.

Nouvelles fonctionnalités

C++/C# : Nouvelle détection de langue autonome au démarrage et en continu par le biais de l’API SourceLanguageRecognizer. Si vous voulez uniquement détecter la ou les langues parlées dans le contenu audio, voici l’API dont vous avez besoin. Voir les détails pour C++ et C#.
C++/C# : La reconnaissance vocale et la reconnaissance de traduction prennent à présent en charge à la fois une identification de la langue au démarrage et en continu. Vous pouvez ainsi déterminer par programmation la ou les langues parlées avant de les transcrire ou traduire. Consultez la documentation disponible ici pour la reconnaissance vocale et ici pour la traduction vocale.
C# : Ajout de la prise en charge d’Unity à macOS (x64). Cette prise en charge permet de déverrouiller les cas d’usage de la reconnaissance vocale et de la synthèse vocale pour la réalité mixte et le gaming !
Go : nous avons ajouté la prise en charge de la synthèse vocale au langage de programmation Go pour la rendre disponible dans encore plus de cas d’usage. Consultez notre guide de démarrage rapide ou notre documentation de référence.
C++/C#/Java/Python/Objective-C/Go : Le synthétiseur vocal prend maintenant en charge l’objet connection. Celui-ci vous permet de gérer et de superviser la connexion au service Speech, et s’avère particulièrement utile à la préconnexion pour réduire la latence. Consultez la documentation ici.
C++/C#/Java/Python/Objective-C/Go : Nous exposons maintenant la latence et la durée de sous-exécution dans SpeechSynthesisResult pour vous aider à superviser et diagnostiquer les problèmes de latence de synthèse vocale. Consultez d’autres informations pour C++, C#, Java, Python, Objective-C et Go.
C++/C#/Java/Python/Objective-C : la synthèse vocale utilise à présent des voix neuronales par défaut quand vous ne spécifiez pas de voix à utiliser. Vous obtenez ainsi une meilleure fidélité par défaut, mais le prix par défaut augmente également. Vous pouvez spécifier l’une de nos plus de 70 voix standard ou de nos plus de 130 voix neuronales pour modifier la valeur par défaut.
C++/C++/C#/Java/Python/Objective-C/Go : Nous avons ajouté une propriété Gender aux informations de synthèse vocale pour faciliter la sélection des voix selon le sexe. Cet ajout résout le problème GitHub n° 1055.
C++, C#, Java, JavaScript : nous prenons à présent en charge retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync et getAllProfilesAsync() dans la Reconnaissance de l’orateur pour faciliter la gestion des utilisateurs de tous les profils vocaux d’un compte donné. Consultez la documentation relative à C++, C#, Java et JavaScript. Cela résout le problème GitHub n° 338.
JavaScript : Nous avons ajouté une nouvelle tentative en cas d’échec de connexion pour rendre vos applications vocales JavaScript plus robustes.

Améliorations

Les binaires du SDK Speech Linux et Android ont été mis à jour pour utiliser la dernière version d’OpenSSL (1.1.1k).
Améliorations de la taille du code :
- Language Understanding est maintenant scindé en une bibliothèque « lu » distincte.
- Diminution de la taille des binaires principaux Windows x64 de 14,4 %.
- Diminution de la taille des binaires principaux Android ARM64 de 13,7 %.
- D’autres composants ont aussi été réduits en taille.

Résolution des bogues

Tous : Correction du problème GitHub n° 842 pour ServiceTimeout. Vous pouvez maintenant transcrire des fichiers audio longs à l’aide du SDK Speech sans que la connexion au service soit interrompue avec cette erreur. Toutefois, nous vous recommandons quand même d’utiliser une transcription par lot pour les fichiers longs.
C# : Correction du problème GitHub n° 947 où aucune entrée vocale ne pouvait quitter votre application dans un état incorrect.
Java : Problème GitHub N° 997 corrigé où le SDK Speech pour Java 1.16 se bloque lors de l’utilisation de DialogServiceConnector sans connexion réseau ou avec une clé d’abonnement non valide.
Correction d’un plantage lors de l’arrêt brutal de la reconnaissance vocale (par exemple, en utilisant Ctrl+C dans l’application console).
Java : Ajout d’un correctif pour supprimer les fichiers temporaires sur Windows lors de l’utilisation du SDK Speech pour Java.
Java: Correction du problème GitHub n° 994 où l’appel à DialogServiceConnector.stopListeningAsync pouvait entraîner une erreur.
Java : Correction d’un problème client dans le démarrage rapide de l’assistant virtuel.
JavaScript : Correction du problème GitHub n° 366 où ConversationTranslator levait une erreur de type « this.cancelSpeech n’est pas une fonction ».
JavaScript : Correction du problème GitHub n° 298 où l’exemple « Obtenir le résultat sous forme de flux en mémoire » produisait un son fort.
JavaScript : Correction du problème GitHub n° 350 où l’appel à AudioConfig pouvait entraîner un message « ReferenceError : MediaStream n’est pas défini ».
JavaScript : Correction d’un avertissement UnhandledPromiseRejection dans Node.js pour les sessions de longue durée.

Exemples

Mise à jour de la documentation des exemples Unity pour macOS ici.
Un exemple React Native est maintenant disponible ici pour le service de reconnaissance d’Azure AI Speech.

Kit de développement logiciel (SDK) Speech 1.16.0 : 2021-mise en production de mars

Notes

Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.

Nouvelles fonctionnalités

C++/C#/Java/Python : déplacé vers la dernière version de GStreamer (1.18.3) pour ajouter le support de la transcription de tout format multimédia sur Windows, Linux et Android. Consultez la documentation ici.
C++/C#/Java/Objective-C/Python : ajout de la prise en charge du décodage du contenu audio de synthèse vocale compressée/synthétisé vers le kit SDK. Si vous définissez le format audio de sortie sur PCM et que GStreamer est disponible sur votre système, le kit de développement logiciel (SDK) demande automatiquement un contenu audio compressé à partir du service pour économiser de la bande passante et décoder l’audio sur le client. Vous pouvez définir SpeechServiceConnection_SynthEnableCompressedAudioTransmission sur false pour désactiver cette fonctionnalité. Détails pour C++, C#, Java, Objective-C, Python.
JavaScript : les utilisateurs Node.js peuvent désormais utiliser l’API AudioConfig.fromWavFileInput. Cela résout le problème GitHub #252.
C++/C#/Java/Objective-C/Python : ajout de la méthode GetVoicesAsync() pour la synthèse vocale afin de retourner toutes les voix de synthèse disponibles. Détails pour C++, C#, Java, Objective-C et Python.
C++/c #/Java/JavaScript/objective-C/python : événement VisemeReceived ajouté pour la synthèse vocale/TTS pour retourner une animation de visème synchrone. Consultez la documentation ici.
C++/c #/Java/JavaScript/objective-C/python : événement BookmarkReached ajouté pour la synthèse vocale. Vous pouvez définir des signets dans le SSML d’entrée et obtenir les décalages audio pour chaque signet. Consultez la documentation ici.
Java : ajout de la prise en charge des API de Reconnaissance de l’orateur. Détails ici.
C++/c #/Java/JavaScript/objective-C/python : ajout de deux nouveaux formats audio de sortie avec le conteneur WebM pour la synthèse vocale (Webm16Khz16BitMonoOpus et Webm24Khz16BitMonoOpus). Il s’agit de formats plus performants pour la diffusion audio en continu avec le codec Opus. Détails pour C++, C#, Java, JavaScript, Objective-C, Python.
C++/C#/Java : ajout de la prise en charge de la récupération du profil vocal pour le scénario de Reconnaissance de l’orateur. Détails pour C++, C# et Java.
C++/C#/Java/Objective-C/Python : ajout de la prise en charge de la bibliothèque partagée distincte pour le contrôle de microphone et de haut-parleur. Cela permet au développeur d’utiliser le SDK dans les environnements qui n’ont pas les dépendances de bibliothèque audio nécessaires.
Objective-C/SWIFT : ajout de support du module d’infrastructure avec l’en-tête parapluie. Cela permet au développeur d’importer le SDK Speech en tant que module dans les applications iOS/Mac Objective-C/Swift. Cela résout le problème GitHub #452.
Python : ajout du support de Python 3.9 et suppression du support de Python 3.5 par la fin de vie de Python pour 3.5.

Problèmes connus

C++/C#/Java : DialogServiceConnector ne peut pas utiliser une CustomCommandsConfig pour accéder à une application de commandes personnalisées et rencontrera à la place une erreur de connexion. Pour ce faire, vous pouvez ajouter manuellement votre ID d’application à la demande avec config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Le comportement attendu de CustomCommandsConfig sera restauré dans la prochaine mise en production.

Améliorations

Dans le cadre de notre travail sur plusieurs versions visant à réduire l’utilisation de la mémoire et l’encombrement sur le disque du SDK Speech, les fichiers binaires Android sont maintenant de 3 à 5 % plus petits.
Amélioration de la précision, de la lisibilité et des sections Voir aussi de notre documentation de référence C# ici.

Résolution des bogues

JavaScript : les en-têtes de fichier WAV volumineux sont maintenant analysés correctement (augmente la tranche d’en-tête à 512 octets). Cela résout le problème GitHub #962.
JavaScript : correction du problème de minutage du microphone si le flux du micro se termine avant d’arrêter la reconnaissance, ce qui résout un problème avec la reconnaissance vocale qui ne fonctionne pas dans Firefox.
JavaScript : nous prenons désormais correctement en charge la promesse d’initialisation lorsque le navigateur force le micro à s’arrêter avant la fin du turnOn.
JavaScript : nous avons remplacé la dépendance d’URL par l’analyse d’URL. Cela résout le problème GitHub #264.
Android : les rappels fixes ne fonctionnent pas lorsque minifyEnabled est défini sur true.
C++/c #/Java/objective-C/python : TCP_NODELAY sera correctement défini sur les E/S de socket sous-jacentes pour la synthèse vocale pour réduire la latence.
C++/c #/Java/Python/objective-C/Go : correction d’un incident occasionnel lorsque le module de reconnaissance a été détruit juste après le démarrage d’une reconnaissance.
C++/c #/Java : correction d’un incident occasionnel lors de la destruction de la reconnaissance de l’orateur.

Exemples

JavaScript : les exemples de navigateur n’ont plus besoin de télécharger un fichier de bibliothèque JavaScript distinct.

Kit SDK Speech 1.15.0 : version de janvier 2021

Notes

Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.

Résumé des points importants

Réduction de la taille de la mémoire et de l’espace disque pour améliorer l’efficacité du Kit de développement logiciel (SDK).
Formats de sortie disponibles avec une fidélité supérieure pour la préversion privée de la voix neuronale personnalisée.
Le module de reconnaissance de l’intention peut désormais retourner plus que l’intention principale, ce qui vous permet d’effectuer une évaluation distincte de l’intention de votre client.
Les assistants vocaux et bots sont désormais plus faciles à configurer : vous pouvez faire en sorte qu’ils cessent d’écouter immédiatement, et ainsi exercer un plus grand contrôle sur la façon dont ils répondent aux erreurs.
Amélioration des performances des appareils grâce à une compression facultative.
Utilisez le Kit de développement logiciel (SDK) Speech sur Windows ARM/ARM64.
Amélioration du débogage de bas niveau.
La fonctionnalité Évaluation de la prononciation est désormais plus largement disponible.
Plusieurs correctifs de bogues pour résoudre les problèmes que VOUS, nos chers clients, ont signalé sur GitHub ! MERCI ! Continuez à nous faire part de vos commentaires.

Améliorations

Le Kit de développement logiciel (SDK) Speech est désormais plus efficace et plus léger. Nous avons entamé un travail sur plusieurs versions pour réduire l’utilisation de la mémoire et l’encombrement sur le disque du SDK Speech. Dans la première étape, nous avons réduit de façon significative la taille des fichiers dans les bibliothèques partagées sur la plupart des plateformes. En comparaison avec la version 1.14 :
- les bibliothèques Windows compatibles UWP 64 bits sont environ 30 % plus petites.
- Les bibliothèques Windows 32 bits ne bénéficient pas encore d’une amélioration de leur taille.
- les bibliothèques Linux sont 20 à 25 % plus petites.
- les bibliothèques Android sont 3 à 5 % plus petites.

Nouvelles fonctionnalités

Tous : Nouveaux formats de sortie 48 kHz disponibles pour la préversion privée de la voix neuronale personnalisée par le biais de l’API de synthèse vocale TTS : Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
Tout : La voix personnalisée est également plus facile à utiliser. Ajout de la prise en charge de la configuration de la voix personnalisée via EndpointId (EndpointId, C#, Java, JavaScript, Objective-C, Python). Avant cette modification, les utilisateurs de la voix personnalisée devaient définir l’URL du point de terminaison via la méthode FromEndpoint . Désormais, les clients peuvent utiliser la méthode FromSubscription comme pour des voix prédéfinies, puis fournir l’ID de déploiement en définissant EndpointId. Cela simplifie la configuration des voix personnalisées.
C++/C#/Java/Objective-C/Python : obtenez davantage que l’intention principale de IntentRecognizer. Prend désormais en charge la configuration du résultat JSON contenant toutes les intentions, et pas seulement l’intention de score principale via la méthode LanguageUnderstandingModel FromEndpoint à l’aide du paramètre URI verbose=true. Cela résout le problème GitHub #880. Consultez ici la documentation mise à jour.
C++/C#/Java : veillez à ce que votre Assistant vocal ou votre bot cesse d’écouter immédiatement. DialogServiceConnector (C++, C#, Java) dispose désormais d’une méthode StopListeningAsync() pour accompagner ListenOnceAsync(). Cela arrêtera immédiatement la capture audio et attendra de manière appropriée un résultat, une méthode idéale pour les scénarios impliquant l’utilisation du bouton « Arrêter maintenant ».
C++/C#/Java/JavaScript : Faites en sorte que votre Assistant vocal ou votre bot réagisse mieux aux erreurs système sous-jacentes. DialogServiceConnector (C++, C#, Java, JavaScript) dispose désormais d’un nouveau gestionnaire d’événements TurnStatusReceived. Ces événements facultatifs correspondent à chaque résolution ITurnContext sur le bot et signalent les échecs d’exécution lorsqu’ils se produisent, par exemple suite à une exception non prise en charge, une expiration de délai, ou une perte de réseau entre Direct Line Speech et le bot. TurnStatusReceived facilite la réponse aux conditions d’échec. Par exemple, si un bot passe trop de temps sur une requête de base de données back-end (comme la recherche d’un produit), TurnStatusReceived permet au client d’afficher à nouveau un message de type « Désolé, je n’ai pas compris, pouvez-vous réessayer » ou quelque chose de similaire.
C++/C# : Utilisez le Kit de développement logiciel (SDK) Speech sur plus de plateformes. Le package NuGet du Kit SDK Speech prend désormais en charge les binaires natifs Windows ARM/ARM64 (UWP était déjà pris en charge) pour rendre le SDK Speech plus utile sur davantage de types de machines.
Java : DialogServiceConnector propose maintenant une méthode setSpeechActivityTemplate() qui avait été involontairement exclue de ce langage. Cela équivaut à définir la propriété Conversation_Speech_Activity_Template et à demander que toutes les futures activités Bot Framework générées par le service Direct Line Speech fusionnent le contenu fourni dans leurs charges utiles JSON.
Java : Amélioration du débogage de bas niveau. La classe Connection a maintenant un événement MessageReceived, comme d’autres langages de programmation (C++, C#). Cet événement fournit un accès de bas niveau aux données entrantes à partir du service et peut être utile pour les diagnostics et le débogage.
JavaScript : configuration plus facile pour les assistants vocaux et les bots par le biais de BotFrameworkConfig, qui possède désormais des méthodes de fabrique fromHost() et fromEndpoint() simplifiant l’utilisation d’emplacements de service personnalisés et la définition manuelle des propriétés. Nous avons également standardisé la spécification facultative de botId pour utiliser un bot autre que le bot par défaut dans les fabriques de configuration.
JavaScript : Amélioration des performances des appareils grâce à la propriété de contrôle de chaîne ajoutée pour la compression WebSocket. Pour des raisons de performances, nous avons désactivé la compression WebSocket par défaut. Cette option peut être réactivée pour les scénarios à faible bande passante. Plus de détails ici. Cela résout le problème GitHub #242.
JavaScript : ajout de la prise en charge de l’Évaluation de la prononciation pour permettre l’évaluation de la prononciation vocale. Consultez ici le démarrage rapide.

Résolution des bogues

Tous (sauf JavaScript): Correction d’une régression dans la version 1.14, dans laquelle une trop grande quantité de mémoire a été allouée par le module de reconnaissance.
C++ : Correction d’un problème lié au processus garbage collection avec DialogServiceConnector, corrigeant le problème GitHub no 794.
C# : Correction d’un problème lié à l’arrêt d’un thread qui entraînait le blocage d’objets pendant environ une seconde en cas de suppression.
C++/C#/Java : Correction d’une exception empêchant une application de définir plusieurs fois un jeton d’autorisation vocale ou un modèle d’activité sur un DialogServiceConnector.
C++/C#/Java : Correction d’un blocage du module de reconnaissance en raison d’une condition de concurrence en cours de désactivation.
JavaScript : DialogServiceConnector n’a pas respecté précédemment le paramètre facultatif botId spécifié dans les fabriques BotFrameworkConfig. Il est ainsi nécessaire de définir manuellement le paramètre de chaîne de requête botId pour utiliser un bot autre que le bot par défaut. Le bogue a été corrigé et les valeurs botId fournies aux fabriques de BotFrameworkConfig seront respectées et utilisées, y compris les nouveaux ajouts fromHost() et fromEndpoint(). Cela s’applique également au paramètre applicationId pour CustomCommandsConfig.
JavaScript : résolution du problème GitHub 881, en permettant de réutiliser le module de reconnaissance.
JavaScript : Correction d’un problème où le SKD envoyait speech.config plusieurs fois dans une session TTS, en gaspillant de la bande passante.
JavaScript : Gestion simplifiée des erreurs d’autorisation du microphone, permettant d’obtenir un message plus descriptif quand l’utilisateur n’a pas autorisé l’entrée du microphone sur son navigateur.
JavaScript : Correction du problème GitHub no 249 où des erreurs de type dans ConversationTranslator et ConversationTranscriber provoquaient une erreur de compilation pour les utilisateurs de TypeScript.
Objective-C: Correction d’un problème où la génération de GStreamer échouait pour iOS sur Xcode 11.4, corrigeant le problème GitHub #911.
Python : correction du problème GitHub #870, supprimant le message « DeprecationWarning: the imp module is deprecated in favor of importlib ».

Exemples

L’exemple de fichier pour le navigateur JavaScript utilise désormais des fichiers pour la reconnaissance vocale. Cela résout le problème GitHub #884.

Kit SDK Speech 1.14.0 : version d’octobre 2020

Notes

Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.

Nouvelles fonctionnalités

Linux : Ajout de la prise en charge de Debian 10 et Ubuntu 20.04 LTS.
Python/Objective-C : Ajout de la prise en charge de l’API KeywordRecognizer. La documentation sera disponible ici.
C++/Java/C# : Ajout de la prise en charge pour définir toute clé-valeur HttpHeader par le biais de ServicePropertyChannel::HttpHeader.
JavaScript : Ajout de la prise en charge de l’API ConversationTranscriber. Lisez la documentation ici.
C++/C# : Ajout d’une nouvelle méthode AudioDataStream FromWavFileInput (pour lire les fichiers .WAV) ici (C++) et ici (C#).
C++/C#/Java/Python/Objective-C/Swift : ajout d’une méthode stopSpeakingAsync() pour arrêter la synthèse vocale. Lisez la documentation de référence ici (C++), ici (C#), ici (Java), ici (Python) et ici (Objective-C/Swift).
C#, C++, Java : Ajout d’une fonction FromDialogServiceConnector() à la classe Connection qui peut être utilisée pour superviser les événements de connexion et de déconnexion pour DialogServiceConnector. Lisez la documentation de référence ici (C#), ici (C++) et ici (Java).
C++/C#/Java/Python/Objective-C/Swift : Ajout de la prise en charge de l’évaluation de la prononciation, qui évalue la prononciation des entrées vocales et fournit des commentaires aux orateurs sur l’exactitude et la fluidité de l’audio parlé. Lisez la documentation ici.

Modification avec rupture

JavaScript : PullAudioOutputStream.Read() a un type de retour modifié d’une promesse interne à une promesse JavaScript native.

Résolution des bogues

Tous : Correction de la régression 1.13 dans SetServiceProperty où les valeurs avec certains caractères spéciaux étaient ignorées.
C# : Correction des exemples de console Windows sur Visual Studio 2019 qui ne parvenaient pas à trouver les DLL natives.
C# : Correction d’un plantage avec la gestion de la mémoire si un flux était utilisé en tant qu’entrée KeywordRecognizer.
ObjectiveC/Swift : Correction d’un plantage avec la gestion de la mémoire si un flux était utilisé en tant qu’entrée du module de reconnaissance.
Windows : résolution d’un problème de coexistence avec BT HFP/A2DP sur UWP.
JavaScript : Correction du mappage des ID de session pour améliorer la journalisation et faciliter les corrélations de débogage/service internes.
JavaScript : Ajout d’un correctif à DialogServiceConnector pour la désactivation des appels de ListenOnce après le premier appel.
JavaScript : Résolution d’un problème où la sortie du résultat était toujours « simple ».
JavaScript : Résolution d’un problème de reconnaissance continue dans Safari sur macOS.
JavaScript : Atténuation de la charge du processeur pour le scénario de débit de requête élevé.
JavaScript : Autorisation de l’accès aux détails de VoiceProfileEnrollmentResult.
JavaScript : Ajout d’un correctif pour la reconnaissance continue dans IntentRecognizer.
C++/C#/Java/Python/Swift/ObjectiveC : Correction d’une URL incorrecte pour australiaeast et brazilsouth dans IntentRecognizer.
C++/C# : Ajout de VoiceProfileType en tant qu’argument lors de la création d’un objet VoiceProfile.
C++/C#/Java/Python/Swift/ObjectiveC : Correction de SPX_INVALID_ARG potentiel lors de la tentative de lecture de AudioDataStream à partir d’une position donnée.
IOS : Correction d’un plantage de la reconnaissance vocale sur Unity

Exemples

ObjectiveC : Ajout d’un exemple de reconnaissance de mot clé ici.
C#/JavaScript : Ajout d’un guide de démarrage rapide pour la transcription de conversation ici (C#) et ici (JavaScript).
C++/C#/Java/Python/Swift/ObjectiveC : ajout d’un exemple pour l’Évaluation de la prononciationici

Problème connu

Le certificat DigiCert Global Root G2 n’est pas pris en charge par défaut dans HoloLens 2 et Android 4.4 (KitKat), et doit être ajouté au système pour que le SDK Speech fonctionne. Le certificat sera ajouté prochainement aux images de système d’exploitation HoloLens 2. Les clients Android 4.4 doivent ajouter le certificat mis à jour au système.

Test raccourci COVID-19

en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !

Kit SDK Speech 1.13.0 : version de juillet 2020

Notes

Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez et installez l’application à partir d’ici.

Nouvelles fonctionnalités

C# : Ajout de la prise en charge de la transcription de conversation asynchrone. Consultez la documentation ici.
JavaScript : Ajout de la prise en charge de la reconnaissance de l’orateur pour le navigateur et Node.js.
JavaScript : ajout de la prise en charge de l’identification de la langue/ID de la langue. Consultez la documentation ici.
Objective-C : ajout de la prise en charge de la conversation multi-appareil et de la transcription de conversation.
Python : Ajout de la prise en charge des contenus audio compressés pour Python sur Windows et Linux. Consultez la documentation ici.

Résolution des bogues

Tout : Correction d’un problème qui empêchait KeywordRecognizer de faire avancer les flux après une reconnaissance.
Tout : Correction d’un problème en raison duquel le flux obtenu à partir d’un KeywordRecognitionResult ne contenait pas le mot clé.
Tous : Résolution d’un problème en raison duquel la méthode SendMessageAsync n’envoie pas vraiment le message sur le réseau une fois que les utilisateurs ont fini de l’attendre.
Tous : Correction d’un plantage dans les API Reconnaissance de l’orateur lorsque les utilisateurs appellent la méthode VoiceProfileClient::SpeakerRecEnrollProfileAsync plusieurs fois et n’attendent pas la fin des appels.
Tout : Correction de l’activation de la journalisation des fichiers dans les classes VoiceProfileClient et SpeakerRecognizer.
JavaScript : Correction d’un problème de limitation de bande passante lorsque le navigateur est réduit.
JavaScript : Correction d’un problème de fuite de mémoire sur les flux.
JavaScript : Ajout de la mise en cache pour les réponses OCSP à partir de NodeJS.
Java : Correction d’un problème en raison duquel les champs BigInteger retournaient toujours la valeur 0.
iOS : Correction d’un problème avec la publication d’applications basées sur le Kit de développement logiciel (SDK) Speech dans l’App Store iOS.

Exemples

C++ : Ajout d’un exemple de code pour Reconnaissance de l’orateur ici.

Test raccourci COVID-19

Kit SDK Speech 1.12.1 : version de juin 2020

Nouvelles fonctionnalités

C#, C++ : Aperçu de reconnaissance de l’orateur : Cette fonctionnalité permet l’identification de l’orateur (qui parle ?) et la vérification de l’orateur (l’orateur est-il la personne qu’il prétend être ?). Consultez la vue d’ensemble de la documentation.

Résolution des bogues

C#, C++ : Correction du problème en raison duquel l’enregistrement du microphone ne fonctionnait pas dans la version 1.12 dans la Reconnaissance de l’orateur.
JavaScript : correctifs pour la synthèse vocale dans Firefox et Safari sur macOS et iOS.
Correctif pour l’incident de violation d’accès du vérificateur d’applications Windows lors d’une transcription de conversation, dans le cas de l’utilisation d’un flux de huit canaux.
Correction pour l’incident de violation d’accès du vérificateur d’applications Windows lors d’une traduction de conversation entre plusieurs appareils.

Exemples

C# : Exemple de code pour la Reconnaissance de l’orateur.
C++ : Exemple de code pour la Reconnaissance de l’orateur.
Java : Exemple de code pour la reconnaissance de l’intention sur Android.

Test raccourci COVID-19

Kit de développement logiciel (SDK) Speech 1.12.0 : version de mai 2020

Nouvelles fonctionnalités

Go : nouvelle prise en charge du langage Go pour la Reconnaissance vocale et l’Assistant vocal personnalisé. Configurez votre environnement de développement ici. Pour un exemple de code, consultez la section Exemples ci-dessous.
JavaScript : ajout de la prise en charge du navigateur pour la synthèse vocale. Consultez la documentation ici.
C++, C#, Java : nouvel objet KeywordRecognizer et nouvelles API pris en charge sur les plateformes Windows, Android, Linux et iOS. Lisez la documentation ici. Pour un exemple de code, consultez la section Exemples ci-dessous.
Java : ajout de la conversation sur plusieurs appareils avec prise en charge de la traduction. Consultez le document de référence ici.

Améliorations et optimisations

JavaScript : implémentation optimisée du microphone du navigateur améliorant la précision de la reconnaissance vocale.
Java : liaisons refactorisées à l’aide de l’implémentation de JNI directe sans SWIG. Cette modification réduit de 10 fois la taille des liaisons pour tous les packages Java utilisés pour Windows, Android, Linux et Mac, et facilite le développement ultérieur de l’implémentation Java du SDK Speech.
Linux : mise à jour de la documentation de support avec les dernières remarques spécifiques de RHEL 7.
Amélioration de la logique de connexion pour effecteur plusieurs tentatives de connexion lorsque des erreurs de service et de réseau se produisent.
Mise à jour de la page de démarrage rapide de Speech sur portal.azure.com pour aider les développeurs à passer à l’étape suivante dans le parcours Azure AI Speech.

Résolution des bogues

C#, Java : correction d’un problème de chargement des bibliothèques de Kit de développement logiciel (SDK) sur Linux ARM (32 bits et 64 bits).
C# : correction de la suppression explicite des handles natifs pour les objets TranslationRecognizer, IntentRecognizer et Connection.
C# : correction de la gestion de la durée de vie d’entrée audio pour l’objet ConversationTranscriber.
Correction d’un problème qui avait pour effet que la raison du résultat de IntentRecognizer n’était pas définie correctement lors de la reconnaissance d’intentions à partir d’expressions simples.
Correction d’un problème qui avait pour effet que le décalage de résultat SpeechRecognitionEventArgs n’était pas défini correctement.
Correction d’une condition de concurrence qui avait pour effet que le Kit de développement logiciel (SDK) essayait d’envoyer un message réseau avant d’ouvrir la connexion websocket. Était reproductible pour TranslationRecognizer lors de l’ajout de participants.
Correction de fuites de mémoire dans le moteur de reconnaissance de mot clé.

Exemples

Go : ajout de démarrages rapides pour la reconnaissance vocale et Assistant vocal personnalisé. Trouvez un exemple de code ici.
JavaScript : ajout de démarrages rapides pour Synthèse vocale, Traduction et Reconnaissance de l’intention.
Exemples de reconnaissance de mot clé pour C# et Java (Android).

Test raccourci COVID-19

en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Au cas où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !

Kit de développement logiciel (SDK) Speech 1.11.0 : version de mars 2020

Nouvelles fonctionnalités

Linux : ajout de la prise en charge de Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
Linux : Ajout de la prise en charge de .NET Core C# sur Linux ARM32 et ARM64. En savoir plus ici.
C#, C++ : Ajout de UtteranceId dans ConversationTranscriptionResult, un ID cohérent pour tous les intermédiaires et le résultat final de la reconnaissance vocale. Détails pour C# et C++.
Python : Ajout de la prise en charge de Language ID. Voir speech_sample.py dans le référentiel GitHub.
Windows : Ajout de la prise en charge du format d’entrée audio compressé sur la plateforme Windows pour toutes les applications console win32. Détails ici.
JavaScript : prise en charge de la synthèse vocale (conversion de texte par synthèse vocale) dans NodeJS. En savoir plus ici.
JavaScript : ajout de nouvelles API pour activer l’inspection de tous les messages envoyés et reçus. En savoir plus ici.

Résolution des bogues

C#, C++ : Correction d’un problème de sorte que SendMessageAsync envoie maintenant un message binaire sous forme de type binaire. Détails pour C# et C++.
C#, C++ : Correction d’un problème où l’utilisation de l’événement Connection MessageReceived peut provoquer un incident si Recognizer est supprimé avant l’objet Connection. Détails pour C# et C++.
Android : la taille de la mémoire tampon audio du microphone a été réduite de 800 ms à 100 ms pour améliorer la latence.
Android : Correction d’un problème avec l’émulateur Android x86 dans Android Studio.
JavaScript : Ajout de la prise en charge des régions en Chine avec l’API fromSubscription. Détails ici.
JavaScript : Ajout d’autres informations d’erreur pour les échecs de connexion à partir de NodeJS.

Exemples

Unity : L’échantillon public de reconnaissance des intentions est corrigé, là où l’importation du fichier json LUIS échouait. Détails ici.
Python : Exemple ajouté pour Language ID. Détails ici.

Tests abrégés en raison du Covid19 : En raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests manuels de vérification des appareils que nous le faisons habituellement. Par exemple, nous n’avons pas pu tester l’entrée du microphone et de la sortie du haut-parleur sous Linux, iOS et macOS. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit sur ces plateformes, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, informez-en nous sur GitHub.
Nous vous remercions de votre soutien continu. Comme toujours, publiez vos questions ou vos commentaires sur GitHub ou Stack Overflow.
Restez en bonne santé !

Kit de développement logiciel (SDK) de Speech 1.10.0 : version de février 2020

Nouvelles fonctionnalités

Ajout de packages Python pour prendre en charge la nouvelle version 3.8 de Python.
Prise en charge de Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

Notes

Les clients doivent configurer OpenSSL conformément à ces instructions.
Prise en charge de Linux ARM32 pour Debian et Ubuntu.
DialogServiceConnector prend désormais en charge un paramètre facultatif « bot ID » sur BotFrameworkConfig. Ce paramètre permet d’utiliser plusieurs robots Direct Line Speech avec une unique ressource Speech. Si le paramètre n’est pas spécifié, le robot par défaut (tel que déterminé par la page de configuration du canal Direct Line Speech) sera utilisé.
DialogServiceConnector a maintenant une propriété SpeechActivityTemplate. Le contenu de cette chaîne JSON sera utilisé par Direct Line Speech pour préremplir un grand nombre de champs pris en charge dans toutes les activités qui atteignent un robot Direct Line Speech, y compris les activités générées automatiquement en réponse à des événements tels que la reconnaissance vocale.
TTS utilise désormais la clé d’abonnement pour l’authentification, ce qui réduit la latence du premier octet du premier résultat de synthèse après la création d’un synthétiseur.
Mise à jour des modèles de reconnaissance vocale pour 19 paramètres régionaux pour une réduction du taux d’erreur moyen des mots de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Les nouveaux modèles apportent des améliorations significatives dans plusieurs domaines, notamment les scénarios de dictée, de transcription des centres d’appels et d’indexation vidéo.

Résolution des bogues

Correction du bogue dans lequel le transcripteur de conversation n’a pas attendu correctement dans les API JAVA
Correctif de l’émulateur Android x86 pour le problème Xamarin GitHub
Ajouter les méthodes (Get|Set)Property manquantes à AudioConfig
Correction d’un bogue TTS dans lequel audioDataStream ne pouvait pas être arrêté lors de l’échec de la connexion
L’utilisation d’un point de terminaison sans région entraînerait des défaillances de l’USP pour le traducteur de conversations
La génération d’ID dans les applications Windows universelles utilise désormais un algorithme GUID approprié ; elle utilisait précédemment et involontairement par défaut une implémentation faisant l’objet d’un stub qui produisait souvent des collisions sur de grands ensembles d’interactions.

Exemples

Exemple Unity pour l’utilisation du Kit de développement logiciel (SDK) Speech avec microphone Unity et diffusion en continu en mode push

Autres modifications

Mise à jour de la documentation de configuration OpenSSL pour Linux

SDK Speech 1.9.0 : version de janvier 2020

Nouvelles fonctionnalités

Conversation multi-appareil : connectez plusieurs appareils à la même conversation vocale ou textuelle et traduisez éventuellement les messages échangés. Apprenez-en plus dans cet article.
Ajout de la prise en charge de la reconnaissance des mots clés pour le package .aar Android et ajout de la prise en charge des versions x86 et x64.
Objective-C : ajout des méthodes SendMessage et SetMessageProperty à l'objet Connection. Consultez la documentation ici.
L'API TTS C++ prend désormais en charge std::wstring comme entrée de texte de synthèse, ce qui évite d'avoir à convertir un wstring en string avant de la passer au SDK. Consultez les informations détaillées ici.
C# : l'ID de langue et la configuration de la langue source sont désormais disponibles.
JavaScript : ajout d’une fonctionnalité à l’objet Connection permettant de transférer les messages personnalisés à partir du le service Speech en tant que rappel receivedServiceMessage.
JavaScript : ajout de la prise en charge de FromHost API pour faciliter l'utilisation avec les conteneurs locaux et les clouds souverains. Consultez la documentation ici.
JavaScript : Nous prenons désormais en considération NODE_TLS_REJECT_UNAUTHORIZED grâce à une contribution d’NODE_TLS_REJECT_UNAUTHORIZED. Consultez les informations détaillées ici.

Dernières modifications

OpenSSL a été mis à jour vers la version 1.1.1b et est lié de manière statique à la bibliothèque principale du kit SDK Speech pour Linux. Cela peut provoquer un arrêt si votre boîte de réception OpenSSL n’a pas été installée dans le répertoire /usr/lib/ssl du système. Pour contourner ce problème, consultez notre documentation sous les documents du SDK Speech.
Concernant le type de données retournées pour C# WordLevelTimingResult.Offset, nous avons remplacé int par long pour permettre l’accès à WordLevelTimingResults lorsque les données vocales dépassent 2 minutes.
PushAudioInputStream et PullAudioInputStream envoient désormais des informations d’en-tête WAV au service Speech en fonction de AudioStreamFormat, éventuellement spécifiés au moment de leur création. Les clients doivent maintenant utiliser le format d'entrée audio pris en charge. Tous les autres formats donneront des résultats de reconnaissance non optimaux ou risquent de causer d’autres problèmes.

Résolution des bogues

Consultez les informations concernant la mise à jour de OpenSSL dans la section Changements cassants ci-dessus. Nous avons résolu un incident intermittent et un problème de performances (contention de verrouillage en condition de charge élevée) dans Linux et Java.
Java : améliorations apportées à la fermeture des objets dans les scénarios de forte concurrence.
Restructuration de notre package NuGet. Nous avons supprimé les trois copies de Microsoft.CognitiveServices.Speech.core.dll et Microsoft.CognitiveServices.Speech.extension.kws.dll sous les dossiers lib. Plus petit, le package NuGet se télécharge plus rapidement, et nous avons ajouté les en-têtes nécessaires à la compilation de certaines applications natives C++.
Vous trouverez ici des exemples de démarrage rapide corrigés. Ceux-ci se fermaient sans afficher l’exception « microphone introuvable » sous Linux, macOS, Windows.
Correction de l'incident du kit SDK avec les résultats de reconnaissance vocale de longue durée sur certains chemins de code comme cet exemple.
Correction de l'erreur de déploiement du kit SDK dans l'environnement d'application web Azure pour résoudre le problème de ce client.
Correction d'une erreur TTS pendant l'utilisation de plusieurs balises <voice> ou <audio> pour résoudre <voice>.
Correction d'une erreur TTS 401 qui se déclarait pendant la récupération du kit SDK à la suite d'une interruption.
JavaScript : correction d'une importation circulaire de données audio grâce à une contribution d'Euirim.
JavaScript : ajout de la prise en charge de la définition de propriétés de service (ajoutée dans la version 1.7).
JavaScript : résolution d'un problème où une erreur de connexion pouvait entraîner des tentatives de reconnexion WebSocket continues et infructueuses.

Exemples

Ajout de l'exemple de reconnaissance de mot clé pour Android ici.
Ajout de l'exemple TTS pour le scénario de serveur ici.
Ajout de démarrages rapides pour les conversations multi-appareils pour C# et C++ ici.

Autres modifications

Taille de la bibliothèque principale du kit SDK optimisée sur Android.
Le kit SDK de la version 1.9.0 et ultérieures prend en charge les types int et string dans le champ de version de la signature vocale du transcripteur de conversation.

SDK Speech 1.8.0 : Version de novembre 2019

Nouvelles fonctionnalités

Ajout d’une API FromHost(), pour faciliter l’utilisation avec des conteneurs locaux et des clouds souverains.
Ajout de l’identification de la langue source pour la reconnaissance vocale (en Java et C++)
Ajout de l'objet SourceLanguageConfig pour la reconnaissance vocale, utilisé pour spécifier les langues sources attendues (en Java et C++)
Ajout de la prise en charge de KeywordRecognizer sur Windows (UWP), Android et iOS via les packages NuGet et Unity
Ajout de l'API Java de conversation à distance pour effectuer une transcription de conversation dans des lots asynchrones.

Dernières modifications

Les fonctionnalités du transcripteur de conversation sont déplacées sous l'espace de noms Microsoft.CognitiveServices.Speech.Transcription.
Certaines parties des méthodes du transcripteur de conversation sont déplacées vers la nouvelle classe Conversation.
Suppression de la prise en charge d'iOS 32 bits (ARMv7 et x86)

Résolution des bogues

Correction de l'incident si le KeywordRecognizer local est utilisé sans clé d'abonnement valide au service Speech

Exemples

Exemple Xamarin pour KeywordRecognizer
Exemple Unity pour KeywordRecognizer
Exemples C++ et Java pour l’identification de la langue source automatique.

SDK Speech 1.7.0 : version de septembre 2019

Nouvelles fonctionnalités

Ajout de la prise en charge de la version bêta pour Xamarin sur la plateforme Windows universelle (UWP), Android et iOS
Ajout de la prise en charge d'iOS pour Unity
Ajout de la prise en charge des entrées Compressed pour ALaw, Mulaw et FLAC sous Android, iOS et Linux
Ajout de SendMessageAsync dans la classe Connection pour l'envoi d'un message au service
Ajout de SetMessageProperty dans la classe Connection pour la propriété de définition d'un message
Ajout de liaisons TTS pour Java (JRE et Android), Python, Swift et Objective-C
Ajout de la prise en charge de la lecture TTS pour macOS, iOS et Android
Ajout d'informations sur la « limite de mot » pour TTS

Résolution des bogues

Correction d'un problème de build IL2CPP sur Unity 2019 pour Android
Correction d'un problème lié à des en-têtes incorrects entraînant le mauvais traitement de l'entrée d'un fichier WAV
Correction d'un problème lié à la multiplicité des UUID dans certaines propriétés de connexion
Correction de quelques avertissements sur les spécificateurs de possibilité de valeur null dans les liaisons Swift (ce qui peut nécessiter de petites modifications de code)
Correction d'un bogue provoquant la fermeture anormale des connexions WebSocket sous une charge réseau
Correction d'un problème sur Android pouvant entraîner des ID d'impression en double utilisés par DialogServiceConnector
Améliorations apportées à la stabilité des connexions entre les interactions multitours et au signalement des défaillances (par le biais d’événements Canceled) quand elles se produisent avec DialogServiceConnector
Les démarrages de session DialogServiceConnector permettent désormais de fournir correctement les événements, y compris lors de l’appel de ListenOnceAsync() pendant une activité StartKeywordRecognitionAsync()
Résolution d’un incident associé aux activités DialogServiceConnector reçues

Exemples

Guide de démarrage rapide pour Xamarin
Mise à jour du guide de démarrage rapide CPP avec des informations ARM64 Linux
Mise à jour du guide de démarrage rapide Unity avec des informations iOS

Kit de développement logiciel (SDK) Speech 1.6.0 : version de juin 2019

Exemples

Exemples de guide de démarrage rapide pour Synthèse vocale sur UWP et Unity
Exemple de guide de démarrage rapide pour Swift sur iOS
Exemples Unity supplémentaires pour Speech ainsi que la reconnaissance de l’intention et la traduction
Exemples de démarrage rapide pour DialogServiceConnector

Améliorations/Modifications

Espace de noms de boîte de dialogue :
- SpeechBotConnector a été renommé en DialogServiceConnector
- BotConfig a été renommé en DialogServiceConfig
- BotConfig::FromChannelSecret() a été remappé à DialogServiceConfig::FromBotSecret()
- Tous les clients existants de Direct Line Speech seront toujours pris en charge après le changement de nom
Mise à jour de l’adaptateur TTS REST offrant la prise en charge des proxys et de la connexion permanente
Amélioration du message d’erreur en cas de transmission d’une région non valide
Swift/Objective-C :
- Amélioration du signalement des erreurs : Les méthodes susceptibles de provoquer une erreur existent désormais en deux versions : La première expose un objet NSError pour la gestion des erreurs, l’autre émet une exception. La première est exposée à Swift. Cette modification doit être adaptée au code Swift existant.
- Amélioration de la gestion des événements

Résolution des bogues

Correctif pour TTS : où le futur SpeakTextAsync est retourné sans attendre que le rendu audio soit terminé
Correctif pour le marshaling des chaînes dans C# pour activer la prise en charge complète des langages
Correction d’un problème d’application .NET Core relatif au chargement de la bibliothèque principale avec la version cible de .Net Framework net461 dans les exemples
Correction de problèmes occasionnels pour déployer des bibliothèques natives dans le dossier de sortie dans les exemples
Correctif pour fermer le socket web de façon fiable
Correction des blocages éventuels lors de l’ouverture d’une connexion avec des charges lourdes sur Linux
Correction des métadonnées manquantes dans le bundle de framework pour macOS
Correctif pour les problèmes de pip install --user sur Windows

Kit de développement logiciel (SDK) de reconnaissance vocale 1.5.1

Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.

Résolution des bogues

Correction de FromSubscription si utilisé avec la transcription de conversation.
Correction d’un bogue dans la détection de mot clé des assistants vocaux.

Kit de développement logiciel (SDK) Speech 1.5.0 : version de mai 2019

Nouvelles fonctionnalités

La détection de mot clé (KWS) est désormais disponible sur Windows et Linux. La fonctionnalité KWS peut fonctionner avec n'importe quel type de microphone, mais la prise en charge officielle de KWS est actuellement limitée aux réseaux de microphones présents dans le matériel Azure Kinect DK ou dans le Kit de développement logiciel (SDK) Speech Devices.
La fonctionnalité d’indication de phrase est disponible via le Kit de développement logiciel (SDK). Vous pourrez trouver plus d’informations ici.
La fonctionnalité de transcription de conversation est disponible via le Kit de développement logiciel (SDK).
Ajoutez la prise en charge des assistants vocaux en utilisant le canal Direct Line Speech.

Exemples

Ajout d’exemples pour les nouvelles fonctionnalités ou les nouveaux services pris en charge par le Kit de développement logiciel (SDK).

Améliorations/Modifications

Ajout de plusieurs propriétés au module de reconnaissance pour ajuster le comportement du service ou les résultats du service (par exemple, le masquage des termes grossiers, entre autres).
Vous pouvez maintenant configurer le module de reconnaissance via les propriétés de configuration standard, même si vous avez créé le module de reconnaissance FromEndpoint.
Objective-C : la propriété OutputFormat a été ajoutée à SPXSpeechConfiguration.
Le Kit de développement logiciel (SDK) prend désormais en charge la distribution Linux Debian 9.

Résolution des bogues

Correction d’un problème de destruction de la ressource de l’intervenant trop tôt dans la synthèse vocale.

Kit de développement logiciel (SDK) Speech 1.4.2

Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.

Kit de développement logiciel (SDK) Speech 1.4.1

Il s’agit d’une version JavaScript uniquement. Aucune fonctionnalité n’a été ajoutée. Les correctifs suivants ont été appliqués :

Empêcher le pack web de charger https-proxy-agent.

Kit de développement logiciel (SDK) Speech 1.4.0 : version d’avril 2019

Nouvelles fonctionnalités

Le SDK prend désormais en charge le service de synthèse vocale en version bêta. Il est pris en charge sur Windows et Linux Desktop à partir de C++ et de C#. Pour plus d’informations, consultez la vue d’ensemble de la synthèse vocale.
Le SDK prend désormais en charge les formats audio MP3 et Opus/Ogg comme fichiers d’entrée de flux. Cette fonctionnalité est uniquement disponible sur Linux à partir de C++ et C#, et est actuellement en version bêta (plus de détails ici).
Le SDK Speech pour Java, .NET Core, C++ et Objective-C prend désormais en charge macOS. La prise en charge d'Objective-C pour macOS est actuellement en version bêta.
iOS : Le SDK Speech pour iOS (Objective-C) est désormais également publié en tant que CocoaPod.
JavaScript : Prise en charge d’un microphone non défini par défaut comme périphérique d’entrée.
JavaScript : Prise en charge de proxy pour Node.js.

Exemples

Des exemples d’utilisation du SDK Speech avec C++ et Objective-C sur macOS ont été ajoutés.
Des exemples montrant l’utilisation du service de synthèse vocale ont été ajoutés.

Améliorations/Modifications

Python : Les propriétés supplémentaires des résultats de reconnaissance sont désormais exposées via la propriété properties.
Pour une prise en charge supplémentaire du développement et du débogage, vous pouvez rediriger les informations de journalisation et de diagnostics du SDK vers un fichier journal (plus de détails ici).
JavaScript : Améliorer les performances de traitement audio.

Résolution des bogues

Mac/iOS : correction d’un bogue qui entraînait une longue attente lorsqu’une connexion au service Speech ne pouvait pas être établie.
Python : améliorer la gestion des erreurs pour les arguments dans les rappels Python.
JavaScript : Correction d’un rapport d’état incorrect pour une reconnaissance vocale terminée sur RequestSession.

Kit de développement logiciel (SDK) Speech 1.3.1 : Actualisation de février 2019

Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.

Résolution de bogue

Correction d’une fuite de mémoire lors de l’utilisation d’une entrée de microphone. N’affecte pas es entrées basées sur un flux ou les entrées de fichier.

Kit de développement logiciel (SDK) de reconnaissance vocale 1.3.0 : Version de février 2019

Nouvelles fonctionnalités

Le SDK Speech prend en charge la sélection du microphone d’entrée via la classe AudioConfig. Cela vous permet de diffuser en streaming des données audio vers le service Speech à partir d’un microphone qui n’est pas le microphone par défaut. Pour plus d’informations, consultez la documentation décrivant la sélection du périphérique d’entrée audio. JavaScript ne propose pas encore cette fonctionnalité.
Le SDK Speech prend désormais en charge Unity dans une version bêta. Envoyez des commentaires via la section problèmes dans le dépôt d’exemples GitHub. Cette version prend en charge Unity sur Windows x86 et x64 (applications de bureau autonome ou plateforme Windows universelle) et Android (ARM32/64, x86). Des informations supplémentaires sont disponibles dans notre Démarrage rapide Unity.
Le fichier Microsoft.CognitiveServices.Speech.csharp.bindings.dll (fourni dans les versions précédentes) n’est plus nécessaire. La fonctionnalité est désormais intégrée au kit SDK principal.

Exemples

Le nouveau contenu suivant est disponible dans notre dépôt d’exemples :

Exemples supplémentaires pour AudioConfig.FromMicrophoneInput.
Exemples Python supplémentaires pour la reconnaissance de l’intention et la traduction.
Exemples supplémentaires pour l’utilisation de l’objet Connection dans iOS.
Exemples Java supplémentaires pour la traduction avec une sortie audio.
Nouvel exemple pour l’utilisation de l’API REST de transcription Batch.

Améliorations/Modifications

Python
- Vérification de paramètres améliorée et messages d’erreur dans SpeechConfig.
- Ajoutez une prise en charge de l’objet Connection.
- Prise en charge de Python 32 bits (x86) sur Windows.
- Le SDK Speech pour Python n’est plus en version bêta.
iOS
- Le SDK est désormais basé sur le SDK iOS version 12.1.
- Le SDK prend désormais en charge iOS 9.2 et versions ultérieures.
- Améliorer la documentation de référence et corriger plusieurs noms de propriété.
JavaScript
- Ajoutez une prise en charge de l’objet Connection.
- Ajouter des fichiers de définition de type pour JavaScript en offre groupée
- Prise en charge initiale et implémentation des conseils.
- Retourne la collection de propriétés avec le service JSON dans le cadre de la reconnaissance
Les DLL Windows contiennent à présent une vraie ressource de version.
Si vous créez un module de reconnaissance FromEndpoint, vous pouvez ajouter des paramètres directement à l’URL du point de terminaison. FromEndpoint ne vous permet pas de configurer le module de reconnaissance via les propriétés de configuration standard.

Résolution des bogues

Un nom d’utilisateur et un mot de passe de proxy vides n’étaient pas traités correctement. Avec cette version, si vous définissez un nom d’utilisateur et un mot de passe proxy en tant que chaîne vide, ils ne seront pas soumis lors de la connexion au proxy.
Les ID de session (SessionId) créés par le SDK n’étaient pas toujours vraiment aléatoires pour certains langages/environnements. L’ajout de l’initialisation du générateur aléatoire a permis de corriger ce problème.
Amélioration de la gestion du jeton d’autorisation. Si vous souhaitez utiliser un jeton d’autorisation, spécifiez-le dans le SpeechConfig et ne renseignez pas la clé d’abonnement. Créez ensuite le module de reconnaissance comme d’habitude.
Dans certains cas, l’objet Connection n’était pas libéré correctement. Ce problème est à présent résolu.
L’exemple JavaScript a été corrigé de façon à prendre en charge la sortie audio pour la synthèse de traduction également dans Safari.

Kit de développement logiciel (SDK) Speech 1.2.1

Il s’agit d’une version JavaScript uniquement. Aucune fonctionnalité n’a été ajoutée. Les correctifs suivants ont été appliqués :

Déclenchement du fin de flux au niveau de turn.end, et non pas de speech.end.
Correction d’un bogue dans la pompe audio qui ne planifiait pas le prochain envoi si l’envoi en cours échouait.
Correction de la reconnaissance continue avec le jeton d’authentification.
Correction de bogue pour un module de reconnaissance / des points de terminaison différents.
Améliorations de la documentation.

SDK Speech 1.2.0 : Version de décembre 2018

Nouvelles fonctionnalités

Python
- La version bêta de la prise en charge de Python (3.5 et au-delà) est disponible avec cette version. Vous pourrez trouver plus d’informations ici](../../quickstart-python.md).
JavaScript
- Le SDK Speech pour JavaScript est open source. Le code source est disponible sur GitHub.
- Nous prenons désormais en charge Node.js. Pour plus d’informations, consultez cette page.
- La restriction sur la longueur des sessions audio a été supprimée. La reconnexion se produit automatiquement à l’arrière-plan.
l'objet Connection
- À partir de la Recognizer, vous pouvez accéder à un objet Connection. Cet objet vous permet de lancer explicitement la connexion au service et de vous abonner à des événements de connexion et de déconnexion. (JavaScript et Python ne proposent pas encore cette fonctionnalité.)
Prise en charge d’Ubuntu 18.04.
Android
- Prise en charge de ProGuard activée durant la génération d’APK.

Améliorations

Améliorations apportées à l’utilisation des threads internes afin de réduire le nombre de threads, de verrous et de mutex.
Amélioration des rapports d’erreurs et des informations sur les erreurs. Dans plusieurs cas, des messages d’erreur n’ont pas été entièrement propagés.
Mise à jour des dépendances de développement dans JavaScript pour utiliser des modules à jour.

Résolution des bogues

Résolution des fuites de mémoire causés par une incompatibilité de type dans RecognizeAsync.
Dans certains cas, des exceptions étaient divulguées.
Résolution des fuites de mémoire dans les arguments d’événement de traduction.
Résolution d’un problème de verrouillage à la suite d’une reconnexion dans les sessions de longue durée.
Résolution d’un problème pouvant entraîner l’absence d’un résultat final en cas d’échec de la traduction.
C# : Si une opération async n’était pas attendue dans le thread principal, le module de reconnaissance pouvait être supprimé avant la fin de la tâche asynchrone.
Java : Résolution d’un problème entraînant un blocage de la machine virtuelle Java.
Objective-C : Résolution d’un mappage d’enum ; RecognizedIntent était retourné à la place de RecognizingIntent.
JavaScript : Définition du format de sortie par défaut « simple » dans SpeechConfig.
JavaScript : Suppression d’une incohérence au niveau des propriétés sur l’objet config entre JavaScript et d’autres langages.

Exemples

Mise à jour et résolution de plusieurs exemples (par exemple, voix de sortie pour la traduction, etc.).
Ajout d’exemples Node.js dans le dépôt d’exemples.

SDK Speech 1.1.0

Nouvelles fonctionnalités

Prise en charge d'Android x86/x64.
Prise en charge de proxy : dans l’objet SpeechConfig, vous pouvez maintenant appeler une fonction pour définir les informations de proxy (nom d’hôte, port, nom d’utilisateur et mot de passe). Cette fonctionnalité n’est pas encore disponible sur iOS.
Amélioration du code d’erreur et des messages. Si une reconnaissance a renvoyé une erreur, celle-ci a déjà défini Reason (dans l’événement annulé) ou CancellationDetails (dans le résultat de la reconnaissance) sur Error. L’événement annulé contient maintenant deux membres supplémentaires, ErrorCode et ErrorDetails. Si le serveur a renvoyé des informations d’erreur supplémentaires avec l’erreur signalée, elles sont désormais disponibles dans les nouveaux membres.

Améliorations

Ajout d'une vérification supplémentaire dans la configuration du module de reconnaissance, et ajout d'un message d’erreur supplémentaire.
Amélioration de la gestion des longs silences au milieu d’un fichier audio.
Package NuGet : pour les projets .NET Framework, il empêche toute génération avec une configuration AnyCPU.

Résolution des bogues

Correction de plusieurs exceptions détectées dans les modules de reconnaissance. En outre, les exceptions sont interceptées et converties en événement Canceled.
Correction d'une fuite de mémoire dans la gestion des propriétés.
Correction d’un bogue dans lequel un fichier d’entrée audio pouvait bloquer le module de reconnaissance.
Correction d’un bogue dans lequel des événements pouvaient être reçus après un événement d’arrêt de session.
Correction de certaines conditions de concurrence dans le thread.
Correction d’un problème de compatibilité avec iOS qui pouvait entraîner un blocage.
Améliorations de la stabilité dans la prise en charge du microphone Android.
Correction d’un bogue dans lequel un module de reconnaissance de JavaScript ignorait la langue de reconnaissance.
Correction d’un bogue qui empêchait de définir EndpointId (dans certains cas) dans JavaScript.
Modification de l'ordre des paramètres dans AddIntent dans JavaScript, et ajout de la signature AddIntent JavaScript manquante.

Exemples

Ajout d’exemples C++ et C# pour la diffusion en continu dans l’exemple de référentiel.

SDK Speech 1.0.1

Améliorations de la fiabilité et résolution des bogues :

Correction d’une erreur irrécupérable potentielle due à une condition de concurrence lors de la suppression du module de reconnaissance
Correction d’une erreur irrécupérable potentielle en cas d’annulation de propriétés.
Vérification supplémentaire des erreurs et des paramètres.
Objective-C : correction d’une erreur irrécupérable possible provoquée par le remplacement d’un nom dans une chaîne NSString.
Objective-C : réglage de la visibilité de l’API.
JavaScript : correction des événements et de leurs charges utiles.
Améliorations de la documentation.

Dans notre exemple de référentiel, un nouvel échantillon pour JavaScript a été ajouté.

Kit de développement logiciel (SDK) Azure AI Speech 1.0.0 : version de septembre 2018

Nouvelles fonctionnalités

Prise en charge d’Objective-C sur iOS. Découvrez le guide de démarrage rapide sur Objective-C pour iOS.
Prise en charge de JavaScript dans le navigateur. Découvrez le guide de démarrage rapide JavaScript.

Dernières modifications

Cette version contient plusieurs changements cassants. Pour plus d’informations, consultez cette page.

Kit de développement logiciel (SDK) Azure AI Speech 0.6.0 : version d’août 2018

Nouvelles fonctionnalités

Les applications UWP créées à partir du SDK Speech peuvent désormais passer le Kit de certification des applications Windows (WACK). Consultez le guide de démarrage rapide UWP.
Prise en charge de .NET Standard 2.0 sur Linux (Ubuntu 16.04 x64).
Expérimental : prise en charge de Java 8 sur Windows (64 bits) et Linux (Ubuntu 16.04 x64). Consultez le guide de démarrage rapide Java Runtime Environment.

Changement fonctionnel

Exposition d’informations supplémentaires sur les erreurs de connexion

Dernières modifications

Sur Java (Android), la fonction SpeechFactory.configureNativePlatformBindingWithDefaultCertificate ne requiert plus aucun paramètre de chemin d’accès. Le chemin est désormais automatiquement détecté sur toutes les plateformes prises en charge.
L’élément get-accessor de la propriété EndpointUrl dans Java et C# a été supprimé.

Résolution des bogues

Dans Java, le résultat de la synthèse audio sur le module de reconnaissance de traduction est maintenant implémenté.
Correction d’un bogue qui pouvait provoquer l’inactivité des threads et un plus grand nombre de sockets ouverts et inutilisés
Correction d’un problème qui provoquait l’arrêt d’une reconnaissance de longue durée au milieu d’une transmission
Correction d’une condition de concurrence lors de l’arrêt du module de reconnaissance.

Kit de développement logiciel (SDK) Azure AI Speech 0.5.0 : version de juillet 2018

Nouvelles fonctionnalités

Prise en charge de la plateforme Android (API 23 : Android 6.0 Marshmallow ou supérieur). Consultez le Démarrage rapide Android.
Prise en charge de .NET Standard 2.0 sous Windows. Consultez le Démarrage rapide .NET Core.
Expérimental : Prise en charge d’UWP sur Windows (version 1709 ou ultérieure).
- Consultez le guide de démarrage rapide UWP.
- Notez que les applications UWP générées avec le SDK Speech ne passent pas encore le Kit de certification des applications Windows (WACK).
Prise en charge des reconnaissances de longue durée avec la reconnexion automatique

Modifications fonctionnelles

StartContinuousRecognitionAsync() prend en charge les reconnaissances de longue durée.
Le résultat des reconnaissances contient davantage de champs. Ils sont décalés par rapport au début de l’audio et de la durée (tous les deux en cycles) du texte reconnu et des valeurs supplémentaires représentant l’état de la reconnaissance, par exemple, InitialSilenceTimeout et InitialBabbleTimeout.
Prise en charge d’AuthorizationToken pour la création d’instances Data Factory.

Dernières modifications

Événements de reconnaissance : le type d’événement NoMatch a été fusionné avec l’événement Error.
Le SpeechOutputFormat du langage C# a été renommé OutputFormat pour s’aligner sur le C++.
Le type de retour de certaines méthodes de l’interface AudioInputStream a été légèrement modifié :
- Dans Java, la méthode read retourne désormais long au lieu de int.
- Dans C#, la méthode Read retourne désormais uint au lieu de int.
- Dans C++, les méthodes Read et GetFormat retournent désormais size_t au lieu de int.
C++ : les instances de flux d’entrée audio peuvent maintenant être passées comme shared_ptr.

Résolution des bogues

Correction des valeurs de retour incorrectes dans les résultats lorsque RecognizeAsync() expire.
La dépendance aux bibliothèques Media Foundation Windows a été supprimée. Le SDK utilise désormais les API Core Audio.
Correction de la documentation : ajout de la page régions pour répertorier les régions prises en charge.

Problème connu

Le SDK Speech pour Android ne signale pas les résultats de la synthèse vocale pour la traduction. Ce problème sera corrigé dans la prochaine version.

Kit de développement logiciel (SDK) Azure AI Speech 0.4.0 : version de juin 2018

Modifications fonctionnelles

AudioInputStream

Un module de reconnaissance peut désormais consommer un flux en tant que source audio. Pour plus d’informations, consultez ce guide pratique.
Format de sortie détaillé

Lorsque vous créez un SpeechRecognizer, vous pouvez demander le format de sortie Detailed ou Simple. Le DetailedSpeechRecognitionResult contient un score de confiance, le texte reconnu, la forme lexicale brute, la forme normalisée et la forme normalisée avec les blasphèmes masqués.

Modification avec rupture

SpeechRecognitionResult.Text a été remplacé par SpeechRecognitionResult.RecognizedText pour le langage C#.

Résolution des bogues

Correction d’un problème de rappel possible dans la couche USP qui se produisait lors de l’arrêt.
Si un module de reconnaissance a utilisé un fichier d’entrée audio, il a été placé sur le descripteur de fichier plus longtemps que nécessaire.
Suppression de plusieurs blocages entre la pompe de messages et le module de reconnaissance.
Expiration du délai de déclenchement d’un résultat NoMatch lors de la réponse du service.
Les bibliothèques Media Foundation Windows sont chargées en différé. Cette bibliothèque est nécessaire uniquement pour l’entrée du microphone.
La vitesse de chargement de données audio est limitée à environ deux fois la vitesse audio d’origine.
Désormais, les noms d’assemblys C# .NET dans Windows sont forts.
Correction de la documentation : Region est obligatoire pour créer un module de reconnaissance.

D’autres exemples ont été ajoutés et sont constamment mis à jour. Pour obtenir la dernière série d’exemples, accédez au dépôt GitHub d’exemples pour le SDK Speech.

Kit de développement logiciel (SDK) Azure AI Speech 0.2.12733 : version de mai 2018

Cette version est la première préversion publique du SDK d’Azure AI Speech.

Speech CLI 1.40.0 : version d’août 2024

Mis à jour pour utiliser le SDK Speech 1.40.0

Nouvelles fonctionnalités

Aucune

Résolution des bogues

Aucune

Interface CLI Speech 1.38.0 : parution de juin 2024

Mis à jour pour utiliser le kit de développement logiciel (SDK) Speech 1.38.0

Nouvelles fonctionnalités

Aucune

Résolution des bogues

Aucune

Interface CLI Speech 1.37.0 : version d’avril 2024

Mis à jour pour utiliser le kit de développement logiciel (SDK) Speech 1.37.0

Nouvelles fonctionnalités

Aucune

Résolution des bogues

Aucune

Speech CLI 1.36.0 : version de mars 2024

Mis à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.36.0

Nouvelles fonctionnalités

Aucune

Résolution des bogues

Aucune

CLI Speech 1.35.0 : version de février 2024

Mis à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.35.0

Nouvelles fonctionnalités

Aucune

Résolution des bogues

Mettre à jour la dépendance JMESPath vers la dernière version

Interface CLI Speech 1.34.0 : version de novembre 2023

Mis à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.34.0

Interface de ligne de commande Speech 1.33.0 : version d’octobre 2023

Mis à jour pour utiliser le SDK Speech 1.33.0

Speech CLI 1.31.0 : version d’août 2023

Mise à jour pour utiliser le kit de développement logiciel (SDK) Speech 1.31.0

Interface CLI Speech 1.30.0 : version de juillet 2023

Mise à jour pour utiliser le kit de développement logiciel (SDK) Speech 1.30.0

Interface CLI Speech 1.29.0 : parution de juin 2023

Mise à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.29.0

Interface CLI Speech 1.28.0 : version de mai 2023

Mise à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.28.0

Interface CLI Speech 1.27.0 : version d’avril 2023

Mises à jour

Mise à jour pour utiliser le Kit de développement logiciel (SDK) Speech 1.27.0
Mettez à jour le point de terminaison par défaut pour utiliser les API REST v3.1 pour la reconnaissance Custom Speech et la reconnaissance vocale par lots.

Résolution des bogues

Correctifs liés à la façon dont les paramètres de requête sont analysés/configurés.

Speech CLI 1.26.0 : version de mars 2023

Mise à jour pour utiliser le SDK Speech 1.26.0.

Speech CLI 1.25.0 : version de janvier 2023

Mise à jour pour utiliser le SDK Speech 1.25.0.

Interface de ligne de commande Speech 1.24.0 : version d’octobre 2022

Utilise le Kit de développement logiciel (SDK) Speech 1.24.0.

Nouvelles fonctionnalités

Extension de « vérification spx » pour prendre en charge les requêtes JMESPath sur tous les événements spx

Résolution des bogues

Différentes améliorations apportées à la robustesse des évaluations des requêtes JMESPath
Correctif pour les troncations dans les écritures de fichiers qui peuvent se produire sur des machines contraintes de ressources

Interface CLI Speech 1.23.0 : version de juillet 2022

Utilise le Kit de développement logiciel (SDK) Speech 1.23.0.

Nouvelles fonctionnalités

Meilleure légende (--output vtt et --output srt) fractionnement de résultats volumineux (37 caractères max, 3 lignes)
Options documentées spx synthesize --format (voir spx help synthesize format)
La plupart des commandes/options spx csr documentée (voir spx help csr)
Ajout de la commande spx csr model copy (voir spx help csr model copy)
Ajout --check result d’une option à l’aide de requêtes JMES (voir spx help check result)
Amélioration des messages d’erreur lors de la spécification d’options de commande non valides
Déplacé de .NET Core 3.1 vers .NET 6.0. Pour exécuter l’interface CLI Speech, vous devez installer le runtime .NET 6.0 (ou version ultérieure).

Résolution des bogues

Mise à jour de toutes les URL pour supprimer la langue (par exemple, « en-US »)
Correction des informations de version pour signaler correctement dans tous les cas (auparavant, il affichait parfois un vide)

Interface CLI Speech 1.22.0 : version de juin 2022

Utilise le Kit de développement logiciel (SDK) Speech 1.22.0.

Nouvelles fonctionnalités

Ajout de la commande spx init pour guider les utilisateurs dans la création de la clé de ressource Speech sans passer par le portail web Azure.
Les conteneurs Docker Speech incluent désormais Azure CLI, de sorte que la commande spx init est directement prête à l’emploi.
Ajout de timestamp en tant qu’option de sortie d’événement pour rendre SPX plus utile lors du calcul de latences.

Interface CLI Speech 1.21.0 : version d’avril 2022

Utilise le SDK Speech 1.21.0.

Nouvelles fonctionnalités

Génération de légende WEBVTT
- Ajout de la prise en charge de --output vtt pour spx translate
- Prend en charge --output vtt file FILENAME pour remplacer le NOM DE FICHIER VTT par défaut
- Prend en charge --output vtt file - pour écrire dans la sortie standard
- Des fichiers VTT individuels sont créés pour chaque langue cible (par exemple --target en;de;fr)
Génération de légende SRT
- Ajout de la prise en charge de --output srt à spx recognize, spx intent et spx translate
- Prend en charge --output srt file FILENAME pour remplacer le NOM DE FICHIER SRT par défaut
- Prend en charge --output srt file - pour écrire dans la sortie standard
- Pour spx translate, des fichiers SRT individuels sont créés pour chaque langue cible (par exemple --target en;de;fr)

Résolution des bogues

Correction de la sortie d’intervalle de temps WEBVTT pour utiliser correctement le format hh:mm:ss.fff

Interface CLI Speech 1.20.0 : version de janvier 2022

Nouvelles fonctionnalités

Reconnaissance de l’orateur
- spx profile enroll et spx speaker [identify/verify] prennent désormais en charge l’entrée de microphone
Reconnaissance de l’intention (spx intent)
- --keyword FILE.table
- --pattern et --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous (continuous est désormais la valeur par défaut)
- --output all/each connection EVENT
- --output all/each connection message (par exemple, text, path)
Vérification/création des attentes de sortie de la console CLI :
- Prise en charge de --expect PATTERN et de --not expect PATTERN sur toutes les commandes
- --auto expect pour faciliter la création de modèles attendus
Vérification/création des attentes de sortie de la journalisation du SDK
- Prise en charge de --log expect PATTERN et de --not log expect PATTERN sur toutes les commandes
- Prise en charge de --log auto expect [FILTER] sur toutes les commandes
- Prise en charge de --log FILE sur spx profile et spx speaker
Entrée de fichier audio
- Prise en charge de --format ANY sur toutes les commandes
- Prise en charge de --file - (lecture à partir des entrées standard, de qui permet des scénarios de canal)
Sortie de fichier audio
- --audio output - Écriture dans la sortie standard, ce qui permet des scénarios de canal
Fichiers de sortie
- --output all/each file - Écrire dans la sortie standard
- --output batch file - Écrire dans la sortie standard
- --output vtt file - Écrire dans la sortie standard
- --output json file - Écrire dans la sortie standard, pour les commandes spx csr et spx batch
Propriétés des sorties
- --output […] result XXX property (PropertyId ou string)
- --output […] connection message received XXX property (PropertyId ou string)
- --output […] recognizer XXX property (PropertyId ou string)
Intégration d’une tâche web Azure (WebJob)
- spx webjob suit maintenant le modèle de sous-commande
- Mise à jour de l’aide WebJob pour refléter le modèle de sous-commande (consultez spx help webjob)

Résolution des bogues

Correction du bogue quand --output vtt FILE et --output batch FILE sont utilisés en même temps
spx [...] --zip ZIPFILENAME comprend désormais tous les fichiers binaires requis pour tous les scénarios (le cas échéant)
Les commandes spx profile et spx speaker retournent désormais des informations d’erreur détaillées sur l’annulation

Version de mai 2021

Nouvelles fonctionnalités

Ajout de la prise en charge du profil, de l’ID de l’orateur et la vérification de l’orateur : Essayez spx profile et spx speaker à partir de la ligne de commande.
Nous avons aussi ajouté la prise en charge des boîtes de dialogue : Essayez spx dialog à partir de la ligne de commande.
Amélioration de l’aide de spx. Faites-nous part de vos commentaires sur la façon dont cela fonctionne pour vous en ouvrant un problème GitHub.
Nous avons réduit la taille de l’installation de l’outil .NET.

Test raccourci COVID-19

Étant donné que la pandémie oblige toujours nos ingénieurs à travailler à distance, les scripts de vérification manuelle créés avant la pandémie ont été considérablement réduits. Nous testons un nombre réduit d’appareils avec moins de configurations, et la probabilité que des bogues spécifiques à un environnement passent entre les mailles du filet a peut-être augmentée. Nous effectuons toujours une validation rigoureusement avec un grand ensemble d’automatisation. Dans le cas peu probable où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !

Version de mars 2021

Nouvelles fonctionnalités

Commande spx intent ajoutée pour la reconnaissance de l’intention, en remplaçant spx recognize intent.
Reconnaissance et intention peut désormais utiliser des fonctions Azure pour calculer le taux d’erreur Word à l’aide de spx recognize --wer url <URL>.
La reconnaissance peut désormais sortir des résultats comme des fichiers VTT à l’aide de spx recognize --output vtt file <FILENAME>.
Les informations de clés sensibles sont désormais masquées dans la sortie de débogage/commentaires.
Ajout de la vérification d’URL et du message d’erreur pour le champ de contenu dans la création de la transcription de lots.

Test raccourci COVID-19

version de janvier 2021

Nouvelles fonctionnalités

L’interface CLI Speech est désormais disponible en tant que package NuGet et peut être installée via l’interface CLI .NET en tant qu’outil global .NET que vous pouvez appeler à partir de la ligne de commande/de l’interpréteur de commandes.
Le modèle de référentiel Custom Speech DevOps a été mis à jour pour utiliser l’interface CLI Speech pour ses flux de travail Custom Speech.

Test raccourci COVID-19

version d’octobre 2020

SPX est l’interface de ligne de commande pour utiliser le service Speech sans écrire de code. Téléchargez la dernière version ici.

Nouvelles fonctionnalités

spx csr dataset upload --kind audio|language|acoustic : créez des jeux de données à partir de données locales, et non uniquement à partir d’URL.
spx csr evaluation create|status|list|update|delete : comparez les nouveaux modèles par rapport à la vérité de référence ou à d’autres modèles.
spx * list : prend en charge l’expérience non paginée (ne nécessite pas --top X --skip X).
spx * --http header A=B : prend en charge les en-têtes personnalisés (ajoutés pour Office pour l’authentification personnalisée).
spx help : amélioration du codage couleur du texte et des accents graves (bleu).

version de juin 2020

Ajout des fonctionnalités de recherche d’aide dans l’interface CLI :
- spx help find --text TEXT
- spx help find --topic NAME
Mise à jour pour fonctionner avec les API Batch et Custom Speech v3.0 nouvellement déployées :
- spx help batch examples
- spx help csr examples

Test raccourci COVID-19

Interface CLI Speech (également appelée SPX) : version de mai 2020

SPX est un nouvel outil en ligne de commande qui vous permet d’effectuer des tâches de reconnaissance, de synthèse, de traduction, de transcription par lot et de gestion vocale personnalisée à partir de la ligne de commande. Utilisez-le pour tester le service Speech ou générer un script pour les tâches du service Speech que vous devez accomplir. Téléchargez l’outil et lisez la documentation ici.

Version d’octobre 2024

Voix neurale prédéfinie

Introduction de la version 4 Turbo des voix Azure OpenAI en préversion publique : en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural et en-US-ShimmerTurboMultilingualNeural. La version turbo des voix Azure OpenAI propose un personnage vocal similaire à celui des voix Azure OpenAI, mais prend en charge des fonctionnalités supplémentaires. Les voix turbo prennent en charge l’ensemble complet d’éléments SSML et d’autres fonctionnalités comme la limite de mots, tout comme d’autres voix Azure AI Speech. Pour plus d’informations, consultez la liste des langues et des voix.

Ces voix sont désormais en disponibilité générale :

Paramètres régionaux (BCP-47)	Nom de la voix
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Voix neuronale haute définition (HD) prédéfinie

Les voix haute définition (HD) Azure AI Speech sont disponibles dans la préversion publique. Les voix haute définition peuvent comprendre le contenu, automatiquement détecter des émotions dans le texte d’entrée et ajuster le ton d’élocution en temps réel pour le faire correspondre au sentiment. Les voix haute définition maintiennent un personnage vocal cohérent à partir de leurs contreparties neuronales (et non HD) et fournissent davantage de valeur via les fonctionnalités améliorées. Pour découvrir plus d’informations, consultez Que sont les voix haute définition (HD) d’Azure AI Speech ?.

Voix neuronale personnalisée

Précédemment, certains paramètres régionaux étaient uniquement pris en charge avec V3 pour la recette d’apprentissage. Ces paramètres régionaux prennent désormais en charge V9, ce qui permet des fonctionnalités étendues et une qualité d’apprentissage améliorée. Pour ces paramètres régionaux, consultez le tableau suivant :

Paramètres régionaux (BCP-47)	Langage
`ar-EG`	Arabe (Égypte)
`ar-SA`	Arabe (Arabie saoudite)
`ca-ES`	Catalan
`cs-CZ`	Tchèque (République tchèque)
`da-DK`	Danois (Danemark)
`de-AT`	Allemand (Autriche)
`de-CH`	Allemand (Suisse)
`el-GR`	Grec (Grèce)
`en-IN`	Anglais (Inde)
`fi-FI`	Finnois (Finlande)
`fr-CH`	Français (Suisse)
`he-IL`	Hébreu (Israël)
`hi-IN`	Hindi (Inde)
`hu-HU`	Hongrois (Hongrie)
`ms-MY`	Malais (Malaisie)
`nb-NO`	Norvégien, Bokmål (Norvège)
`nl-NL`	Néerlandais (Pays-Bas)
`pl-PL`	Polonais (Pologne)
`pt-PT`	Portugais (Portugal)
`ro-RO`	Roumain (Roumanie)
`ru-RU`	Russe (Russie)
`sk-SK`	Slovaque (Slovaquie)
`sv-SE`	Suédois (Suède)
`th-TH`	Thaï (Thaïlande)
`r-TR`	Turc (Turquie)
`vi-VN`	Vietnamien (Vietnam)
`zh-HK`	Chinois (cantonais, traditionnel)
`zh-TW`	Chinois (mandarin taïwanais, traditionnel)

Le type Voix neuronale personnalisée Pro prend désormais en charge les nouveaux paramètres régionaux suivants :
- en-NZ : Anglais (Nouvelle-Zélande)
- es-CL : Espagnol (Chili)
- es-US : Espagnol (États-Unis)
- ta-MY : Tamoul (Malaisie)
Consultez la liste des langues pour la voix neuronale personnalisée afin d’obtenir la liste complète des paramètres régionaux pris en charge.

La fonctionnalité multilingue prend désormais en charge les nouveaux paramètres régionaux suivants comme paramètres régionaux locaux :

Paramètres régionaux (BCP-47)	Langage
`da-DK`	Danois (Danemark)
`de-AT`	Allemand (Autriche)
`de-CH`	Allemand (Suisse)
`de-DE`	Allemand (Allemagne)
`en-CA`	Anglais (Canada)
`fi-FI`	Finnois (Finlande)
`fr-CH`	Français (Suisse)
`hu-HU`	Hongrois (Hongrie)
`ms-MY`	Malais (Malaisie)
`nb-NO`	Norvégien, Bokmål (Norvège)
`pt-PT`	Portugais (Portugal)
`sv-SE`	Suédois (Suède)
`tr-TR`	Turc (Turquie)
`ta-IN`	Tamoul (Inde)
`zh-HK`	Chinois (cantonais, traditionnel)

Consultez la liste des langues pour la voix neuronale personnalisée afin d’obtenir la liste complète des paramètres régionaux pris en charge.

La fonctionnalité vocale multi-style prend désormais en charge les nouveaux paramètres régionaux suivants :

Paramètres régionaux (BCP-47)	Langage
`ar-EG`	Arabe (Égypte)
`ar-SA`	Arabe (Arabie saoudite)
`ca-ES`	Catalan
`cs-CZ`	Tchèque (République tchèque)
`da-DK`	Danois (Danemark)
`de-AT`	Allemand (Autriche)
`de-CH`	Allemand (Suisse)
`de-DE`	Allemand (Allemagne)
`el-GR`	Grec (Grèce)
`en-AU`	Anglais (Australie)
`en-CA`	Anglais (Canada)
`en-GB`	Anglais (Royaume-Uni)
`en-IN`	Anglais (Inde)
`es-ES`	Espagnol (Espagne)
`es-MX`	Espagnol (Mexique)
`fi-FI`	Finnois (Finlande)
`fr-CA`	Français (Canada)
`fr-CH`	Français (Suisse)
`fr-FR`	Français (France)
`he-IL`	Hébreu (Israël)
`hi-IN`	Hindi (Inde)
`hu-HU`	Hongrois (Hongrie)
`it-IT`	Italien (Italie)
`ko-KR`	Coréen (Corée)
`ms-MY`	Malais (Malaisie)
`nb-NO`	Norvégien, Bokmål (Norvège)
`nl-BE`	Néerlandais (Belgique)
`nl-NL`	Néerlandais (Pays-Bas)
`pl-PL`	Polonais (Pologne)
`pt-BR`	Portugais (Brésil)
`pt-PT`	Portugais (Portugal)
`ro-RO`	Roumain (Roumanie)
`ru-RU`	Russe (Russie)
`sk-SK`	Slovaque (Slovaquie)
`sv-SE`	Suédois (Suède)
`th-TH`	Thaï (Thaïlande)
`tr-TR`	Turc (Turquie)
`vi-VN`	Vietnamien (Vietnam)
`zh-HK`	Chinois (cantonais, traditionnel)
`zh-TW`	Chinois (mandarin taïwanais, traditionnel)

Consultez la liste des langues pour la voix neuronale personnalisée afin d’obtenir la liste complète des paramètres régionaux pris en charge.

Version de septembre 2024

Voix neurale prédéfinie

Ajout de la prise en charge et de la disponibilité générale des nouvelles voix dans les paramètres régionaux suivants :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`as-IN`	Assamais (Inde)	`as-IN-YashicaNeural` (Femme) `as-IN-PriyomNeural` (Homme)
`or-IN`	Odia (Inde)	`or-IN-SubhasiniNeural` (Femme) `or-IN-SukantNeural` (Homme)
`pa-IN`	Pendjabi (Inde)	`pa-IN-OjasNeural` (Homme) `pa-IN-VaaniNeural` (Femme)

La seule voix dans ce tableau qui est en disponibilité générale et prend uniquement en charge le paramètre régional « en-IN ».

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-IN`	Anglais (Inde)	`en-IN-AashiNeural` (Femme)

Les cinq voix de ce tableau sont en disponibilité générale et prennent en charge les paramètres régionaux « en-IN » et « hi-IN ».

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-IN`	Anglais (Inde)	`en-IN-AaravNeural` (Homme) `en-IN-AnanyaNeural` (Femme) `en-IN-KavyaNeural` (Femme) `en-IN-KunalNeural` (Homme) `en-IN-RehaanNeural` (Homme)
`hi-IN`	Hindi (Inde)	`hi-IN-AaravNeural` (Homme) `hi-IN-AnanyaNeural` (Femme) `hi-IN-KavyaNeural` (Femme) `hi-IN-KunalNeural` (Homme) `hi-IN-RehaanNeural` (Homme)

Styles et rôles vocaux

Ajout de la prise en charge des styles newscast, cheerful et empathetic pour les voix en-IN-NeerjaNeural et hi-IN-SwaraNeural.

Ajout de nouveaux styles pour les voix suivantes :

es-MX-DaliaNeural : whispering, sad, cheerful
fr-FR-DeniseNeural: whispering, sad et excited
it-IT-IsabellaNeural: whispering, sad, excited, cheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excited, cheerful
fr-FR-HenriNeural: whispering, sad et excited
it-IT-DiegoNeural: sad, excited et cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

Pour plus d’informations, consultez les styles et rôles vocaux.

Version d’août 2024

Voix neurale prédéfinie

Introduisez de nouvelles voix multilingues en préversion publique. Pour plus d’informations, consultez la liste des langues et des voix.

De nouvelles voix multilingues

Paramètres régionaux	Langage	Sexe	Nom de la voix
fr-FR	Anglais (États-Unis)	Male	en-US-AdamMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-AmandaMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-DerekMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-LewisMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-LolaMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-PhoebeMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-SamuelMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-SerenaMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-DustinMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-EvelynMultilingualNeural
es-ES	Espagnol (Espagne)	Male	es-ES-TristanMultilingualNeural
fr-FR	Français (France)	Male	fr-FR-LucienMultilingualNeural
pt-br	Portugais (Brésil)	Male	pt-BR-MacerioMultilingualNeural
zh-CN	Chinois (mandarin, simplifié)	Male	zh-CN-YunfanMultilingualNeural
zh-CN	Chinois (mandarin, simplifié)	Male	zh-CN-YunxiaoMultilingualNeural
zh-CN	Chinois (mandarin, simplifié)	Male	zh-CN-YunyiMultilingualNeural

modèles monolingues mis à jour vers des voix multilingues avec des améliorations de la naturalité

Paramètres régionaux	Langage	Sexe	Nom de la voix
fr-FR	Anglais (États-Unis)	Female	en-US-NancyMultilinguelNeural
fr-FR	Anglais (États-Unis)	Male	en-US-BrandonMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-ChristopherMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-CoraMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-DavisMultilingualNeural
fr-FR	Anglais (États-Unis)	Male	en-US-SteffanMultilingualNeural
es-ES	Espagnol (Espagne)	Female	es-ES-XimenaMultilingualNeural
it-IT	Italien (Italie)	Male	it-IT-GiuseppeMultilingualNeural
ko-KR	Coréen (Corée)	Male	ko-KR-HyunsuMultilingualNeural

Améliorez les voix multilingues actuelles suivantes avec une meilleure qualité.

Paramètres régionaux Langage Sexe Nom de la voix

fr-FR Anglais (États-Unis) Male en-US-AndrewMultilingualNeural

fr-FR Anglais (États-Unis) Female en-US-AvaMultilingualNeural
Trois voix multilingues prennent désormais en charge les styles. Pour plus d’informations, consultez les styles et rôles vocaux.
- en-US-SerenaMultilingualNeural : empathetic, excited, friendly, shy, serious, relieved et sad.
- en-US-AndrewMultilingualNeural : empathetic et relieved.
- zh-CN-XiaoxiaoMultilingualNeural : affectionate, cheerful, empathetic, excited, poetry-reading, sorry et story.

Paramètres régionaux	Langage	Sexe	Nom de la voix
fr-FR	Anglais (États-Unis)	Male	en-US-AndrewMultilingualNeural
fr-FR	Anglais (États-Unis)	Female	en-US-AvaMultilingualNeural

Version de juillet 2024

Avatar de synthèse vocale (Disponibilité générale)

L’avatar de synthèse vocale est désormais en disponibilité générale. Pour plus d’informations, consultez Avatar de synthèse vocale.

Voix neurale prédéfinie

Introduisez 2 versions turbo des voix Azure OpenAI en préversion publique : en-US-AlloyTurboMultilingualNeural et en-US-NovaTurboMultilingualNeural. La version turbo des voix Azure OpenAI propose un personnage vocal similaire à celui des voix Azure OpenAI, mais prend en charge des fonctionnalités supplémentaires. Les voix turbo prennent en charge l’ensemble complet d’éléments SSML et d’autres fonctionnalités comme la limite de mots, tout comme d’autres voix Azure AI Speech. Pour plus d’informations, consultez la liste des langues et des voix.
Introduisez 2 nouvelles voix multilingues en prévisualisation publique : zh-CN-YunfanMultilingualNeural et zh-CN-YunxiaoMultilingualNeural. Pour plus d’informations, consultez la liste des langues et des voix.

Voix neuronale incorporée

La voix en-US-JennyMultilingual est publiée en production, prenant en charge jusqu’à 24 paramètres régionaux pour l’expérience sur appareil. Pour connaître les paramètres régionaux pris en charge, consultez le tableau ci-dessous.

Paramètres régionaux	Langage
`da-DK`	Danois (Danemark)
`de-DE`	Allemand (Allemagne)
`en-AU`	Anglais (Australie)
`en-GB`	Anglais (Royaume-Uni)
`en-IN`	Anglais (Inde)
`en-US`	Anglais (États-Unis)
`es-ES`	Espagnol (Espagne)
`es-MX`	Espagnol (Mexique)
`fr-CA`	Français (Canada)
`fr-FR`	Français (France)
`he-IL`	Hébreu (Israël)
`it-IT`	Italien (Italie)
`ja-JP`	Japonais (Japon)
`ko-KR`	Coréen (Corée)
`nb-NO`	Norvégien, Bokmål (Norvège)
`nl-NL`	Néerlandais (Pays-Bas)
`pl-PL`	Polonais (Pologne)
`pt-PT`	Portugais (Portugal)
`sv-SE`	Suédois (Suède)
`th-TH`	Thaï (Thaïlande)
`tr-TR`	Turc (Turquie)
`zh-CN`	Chinois (mandarin, simplifié)
`zh-HK`	Chinois (cantonais, traditionnel)
`zh-TW`	Chinois (mandarin taïwanais, traditionnel)

Version de juin 2024

Voix neurale prédéfinie

Présentation de 6 nouvelles voix en préversion publique disponibles dans des régions spécifiques : Asie Est, Asie Sud-Est, USA Est, USA Ouest et Inde Centre.

Paramètres régionaux	Langage	Voix de synthèse vocale
`or-IN`	Odia (Inde)	`or-IN-SubhasiniNeural` (Femme)
`or-IN`	Odia (Inde)	`or-IN-SukantNeural` (Homme)
`pa-IN`	Pendjabi (Inde)	`pa-IN-VaaniNeural` (Femme)
`pa-IN`	Pendjabi (Inde)	`pa-IN-OjasNeural` (Homme)
`as-IN`	Assamais (Inde)	`as-IN-YashicaNeural` (Femme)
`as-IN`	Assamais (Inde)	`as-IN-PriyomNeural` (Homme)

Pour plus d’informations, consultez la liste des langues et des voix.

Avatar de synthèse vocale

L’avatar de synthèse vocale prend désormais en charge les régions suivantes : Asie Sud-Est, Europe Nord, Europe Ouest, Suède Centre, USA Centre Sud et USA Ouest 2. Pour plus d’informations, consultez Régions du service Speech.

Version de mai 2024

Voix personnelle (disponibilité générale)

La voix personnelle est désormais en disponibilité générale. La voix personnelle vous permet d’obtenir la réplication de votre voix (ou celle des utilisateurs de votre application) générée par l’IA en quelques secondes. Fournissez un exemple de reconnaissance vocale d’une minute en tant qu’invite audio, puis utilisez-le pour générer un message dans l’une des plus de 90 langues prises en charge sur plus de 100 paramètres régionaux. Pour plus d’informations, consultez la Présentation de la voix personnelle.

Voix neurale prédéfinie

Introduire 8 nouvelles voix multilingues en prévisualisation publique : en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural et pt-BR-ThalitaMultilingualNeural. Pour plus d’informations, consultez la liste des langues et des voix.
Introduisez 2 nouvelles voix en-US optimisées pour le scénario du Centre d’appels en préversion publique : en-US-LunaNeural et en-US-KaiNeural. Pour plus d’informations, consultez la liste des langues et des voix.

Version d’avril 2024

Avatar de synthèse vocale

Vous pouvez maintenant définir une image d’arrière-plan statique pour vos avatars. Pour utiliser cette fonctionnalité, utilisez simplement la propriété avatarConfig.backgroundImage et spécifiez une URL pointant vers l’image souhaitée. Pour les détails, reportez-vous à Comment modifier l’arrière-plan.

Version de mars 2024

Voix neurale prédéfinie

9 voix multilingues sont généralement disponibles dans toutes les régions : en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural et zh-CN-XiaoxiaoMultilingualNeural. Pour plus d’informations, consultez la liste des langues et des voix.
Présentation de nouvelles voix multilingues pour la préversion publique : ja-JP-MasaruMultilingualNeural. Pour plus d’informations, consultez la liste des langues et des voix.
Mises à jour supplémentaires :
- en-US-RyanMultilingualNeural est généralement disponible dans toutes les régions.
- en-US-JennyMultilingualV2Neural est généralement disponible dans toutes les régions, fusionné avec en-US-JennyMultilingualNeural.
- Préversion disponible pour les langues en-IN-NeerjaNeural et hi-IN-SwaraNeural mises à jour avec 3 nouveaux styles dans les régions USA Est, Europe Ouest et Asie Sud-Est.
- Préversion disponible pour les nouvelles voix féminines en Inde Centre : en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural et hi-IN-AnanyaNeural.

Avatar de synthèse vocale

Suppression de la dépendance sur AZURE Communication Services (ACS) TURN pour un avatar en temps réel. L’exemple de code a été mis à jour en conséquence pour refléter cette modification.
Tarification des avatars de synthèse vocale publiée. Pour plus d’informations, consultez la page de tarification. Notez que la tarification des avatars ne sera visible que pour les régions de service où la fonctionnalité est disponible.

Version de février 2024

Voix OpenAI

Le service Azure AI Speech prend en charge les synthèses vocales OpenAI dans les régions suivantes : USA Centre Nord et Suède Centre. Comme les voix Azure AI Speech, les voix de synthèse vocale OpenAI offrent une synthèse vocale de haute qualité pour convertir un texte écrit en un son naturel. Cela ouvre un large éventail de possibilités d’expériences immersives et interactives pour l’utilisateur. Pour plus d’informations, consultez Que sont les voix de synthèse vocale OpenAI ?.

Remarque

Les voix de synthèse vocale OpenAI sont également disponibles dans Azure OpenAI Service.
Avec cette mise à jour, nous avons ajusté la tarification des voix neuronales prédéfinies avec Azure AI Speech. Consultez la tarification mise à jour ici.

Voix personnelle

La fonctionnalité de voix personnelle prend désormais en charge les modèles DragonLatestNeural et PhoenixLatestNeural. Ces nouveaux modèles améliorent la nature des voix synthétisées, ressemblant davantage aux caractéristiques vocales de la voix dans l’invite. Pour plus d’informations, reportez-vous à Intégrer la voix personnelle dans votre application.

Version de décembre 2023

API Voix personnalisée

L’API de voix personnalisée est disponible pour créer et gérer des modèles vocaux neuraux personnalisés professionnels et personnels.

Voix neuronale personnalisée

Les modèles vocaux dont l’apprentissage a été nouvellement effectué prennent désormais en charge un taux d’échantillonnage de 48 kHz, quelle que soit la version du modèle. Pour les modèles vocaux dont l’apprentissage a été effectué préalablement, il est nécessaire de mettre à jour la version du moteur à la version minimale 2023.11.13.0 pour améliorer le taux d’échantillonnage à 48 kHz.

Voix neurale prédéfinie

Présentation de nouvelles voix multilingues pour la préversion publique :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`de-DE`	Allemand (Allemagne)	`de-DE-FlorianMultilingualNeural` (Homme)
`de-DE`	Allemand (Allemagne)	`de-DE-SeraphinaMultilingualNeural` (Femme)
`en-US`	Anglais (États-Unis)	`en-US-AvaMultilingualNeural` (Femme)
`en-US`	Anglais (États-Unis)	`en-US-EmmaMultilingualNeural` (Femme)
`fr-FR`	Français (France)	`fr-FR-RemyMultilingualNeural` (Homme)
`en-US`	Anglais (États-Unis)	`en-US-BrianMultilingualNeural` (Homme)
`en-US`	Anglais (États-Unis)	`en-US-AndrewMultilingualNeural` (Homme)
`fr-FR`	Français (France)	`fr-FR-VivienneMultilingualNeural` (Femme)
`zh-CN`	Chinois (mandarin, simplifié)	`zh-CN-XiaoxiaoMultilingualNeural` (Femme)
`zh-CN`	Chinois (mandarin, simplifié)	`zh-CN-XiaochenMultilingualNeural` (Femme)
`zh-CN`	Chinois (mandarin, simplifié)	`zh-CN-YunyiMultilingualNeural` (Homme)

Présentation de nouvelles voix zh-CN-XiaoxiaoDialectsNeural pour la préversion publique qui prennent en charge plusieurs dialectes et accents chinois :

Voicename	Langue secondaire	Dialecte/Accent
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chinois (Zhongyuan Mandarin Shaanxi, simplifié)
	`zh-CN-sichuan`	Chinois (mandarin du sud-ouest, simplifié)
	`zh-CN-shanxi`	Chinois (Mandarin accent Shanxi, simplifié)
	`nan-CN`	Chinois (Min méridional, simplifié)
	`zh-CN-anhui`	Chinois (Mandarin Jianghuai Anhui, simplifié)
	`zh-CN-hunan`	Chinois (Mandarin accent Hunan, simplifié)
	`zh-CN-gansu`	Chinois (Mandarin Lanyin Gansu, simplifié)
	`zh-CN-shandong`	Chinois (Mandarin, simplifié)
	`zh-CN-henan`	Chinois (Zhongyuan Mandarin Henan, simplifié)
	`zh-CN-liaoning`	Chinois (Mandarin du Nord-Est, Simplifié)
	`zh-TW`	Chinois (mandarin taïwanais, traditionnel)

Version de novembre 2023

Voix personnelle

La voix personnelle est disponible en préversion dans les régions suivantes : Europe Ouest, USA Est et Asie Sud-Est. Avec la voix personnelle (préversion), vous pouvez obtenir la réplication de votre voix (ou celle des utilisateurs de votre application) générée par l’IA en quelques secondes. Fournissez un échantillon vocal comme invite audio, puis générez un message dans une autre langue (plus de 90 langues sont prises en charge, couvrant plus de 100 paramètres régionaux).

Pour plus d’informations, consultez cet article sur la voix personnelle.

Avatar de synthèse vocale

L’avatar de synthèse vocale est disponible uniquement dans les régions suivantes : USA Ouest 2, Europe Ouest et Asie Sud-Est.

L’avatar de synthèse vocale convertit du texte en vidéo numérique d’un humain photoréaliste (soit un avatar préconçu, soit un avatar de synthèse vocale personnalisé) qui parle avec une voix naturelle. La vidéo de l’avatar de synthèse vocale peut être synthétisée de manière asynchrone ou en temps réel. Les développeurs peuvent créer des applications intégrées à l’avatar de synthèse vocale via une API ou utiliser un outil de création de contenu sur Speech Studio pour créer du contenu vidéo sans coder.

Pour plus d’informations, consultez l’avatar de synthèse vocale, les notes de transparence et les informations visant les artistes vocaux et les artistes participant à la création d’avatars.

Voix neuronale personnalisée

Ajout de la prise en charge des 24 nouveaux paramètres régionaux pour la voix multilingue. Pour plus d’informations, consultez la liste des langues.

Voix neurale prédéfinie

Présentation de nouvelles voix pour la préversion publique :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`de-DE`	Allemand (Allemagne)	`SeraphinaNeural` (Femme)
`es-ES`	Espagnol (Espagne)	`XimenaNeural` (Femme)
`fr-CA`	Français (Canada)	`ThierryNeural` (Homme)
`fr-FR`	Français (France)	`VivienneNeural` (Femme)
`it-IT`	Italien (Italie)	`GiuseppeNeural` (Homme)
`ko-KR`	Coréen (Corée)	`HyunsuNeural` (Homme)
`pt-BR`	Portugais (Brésil)	`ThalitaNeural` (Femme)

Modèles mis à jour avec correction des bogues et amélioration de la qualité :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`es-ES`	Espagnol (Espagne)	`AlvaroNeural` (Homme)
`en-GB`	Anglais (Royaume-Uni)	`RyanNeural` (Homme)
`ko-KR`	Coréen (Corée)	`InjoonNeural` (Homme)

Pour plus d’informations, consultez la liste des langues et des voix.

Version d’octobre 2023

Voix neuronale personnalisée

Ajout de la prise en charge de 12 nouvelles langues par la voix neurale personnalisée Pro. Pour plus d’informations, consultez la liste des langues.

Version de septembre 2023

Voix neurale prédéfinie

Présentation de nouvelles voix pour la préversion publique :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-US`	Anglais (États-Unis)	`en-US-EmmaNeural` (Femme)
`en-US`	Anglais (États-Unis)	`en-US-AndrewNeural` (Homme)
`en-US`	Anglais (États-Unis)	`en-US-BrianNeural` (Homme)

Pour plus d’informations, consultez la liste des langues et des voix.

Voix neuronale incorporée

Tous les 147 paramètres régionaux ici (à l’exception de fa-IR, Persan (Iran)) sont disponibles immédiatement avec 1 voix féminine et/ou 1 voix masculine sélectionnées.

Version d’août 2023

Voix neuronale personnalisée

La dernière version de la recette d’apprentissage CNV Lite est maintenant publiée. Cette version apporte plusieurs améliorations sur la qualité de vos modèles de langage. Essayez Speech Studio.

Version de juillet 2023

Voix neuronale personnalisée

La voix multi-style est en disponibilité générale.
Ajout de deux nouveaux paramètres régionaux en préversion publique pour la voix multi-style : ja-JP et zh-CN. Pour plus d’informations, consultez la liste des langues et des voix. Reportez-vous à la liste des styles prédéfinis pour les différentes langues.
La voix multilingue est en disponibilité générale.
Ajout de deux nouveaux paramètres régionaux pour la voix multilingue : id-ID et nl-NL. Pour plus d’informations, consultez la liste des langues et des voix.

Voix de synthèse vocale neuronale prédéfinie

Présentation de la nouvelle voix non genrée en-US pour la préversion publique :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-US`	Anglais (États-Unis)	`en-US-BlueNeural` (Neutre)

Présentation de nouvelles voix multilingues pour la préversion publique :

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-US`	Anglais (États-Unis)	`en-US-JennyMultilingualV2Neural` (Femme)
`en-US`	Anglais (États-Unis)	`en-US-RyanMultilingualNeural` (Homme)

Les voix multilingues en-US-JennyMultilingualV2Neural et en-US-RyanMultilingualNeural détectent automatiquement la langue du texte d’entrée. Toutefois, vous pouvez toujours utiliser l’élément <lang> pour ajuster la langue orale de ces voix.

Ces nouvelles voix multilingues peuvent parler en 41 langues et accents : Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional) et Chinese (Taiwanese Mandarin, Traditional).

Ces voix multilingues ne prennent pas entièrement en charge certains éléments SSML, tels que l’arrêt, l’accentuation, le silence et le sub.

Important

La voix en-US-JennyMultilingualV2Neural est fournie temporairement en préversion publique à des fins d’évaluation uniquement. Elle sera supprimée ultérieurement.

Pour parler dans une autre langue que l’anglais, l’implémentation actuelle de la voix en-US-JennyMultilingualNeural nécessite que vous définissiez l’élément <lang xml:lang>. Nous prévoyons qu’au cours du 4e trimestre 2023, la voix en-US-JennyMultilingualNeural sera mise à jour pour parler dans la langue du texte d’entrée sans l’élément <lang xml:lang>. Ce sera en parité avec la voix en-US-JennyMultilingualV2Neural.

Présentation de nouvelles fonctionnalités en préversion publique pour les voix ci-dessous :

Ajout de l’entrée latine pour les voix serbes (Serbie) sr-RS : sr-latn-RS-SophieNeural et sr-latn-RS-NicholasNeural.
Ajout de la prise en charge de la prononciation anglaise pour les voix albanaises (Albanie) sq-AL : sq-AL-AnilaNeural et sq-AL-IlirNeural.

Version de mai 2023

Création de contenu audio

Toutes les voix prédéfinies avec des styles de parole et des voix personnalisées multi-stylées prennent en charge l’ajustement du degré de style.
Vous pouvez désormais corriger la prononciation d’un mot en le prononçant et en l’enregistrant. Les phonèmes peuvent être reconnus automatiquement à partir de votre enregistrement. La fonctionnalité Reconnaître en parlant est désormais en préversion publique.

Version d’avril 2023

Voix de synthèse vocale neuronale prédéfinie

Les fonctionnalités suivantes de ces voix sont passées de la préversion publique à la disponibilité générale :

Style	Voix de synthèse vocale
style="conversation"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` et `it-IT-IsabellaNeural`
style="joyeux"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` et `it-IT-IsabellaNeural`
style="triste"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` et `fr-FR-HenriNeural`

Améliorer la prononciation anglaise pour les voix hi-IN, ta-IN et te-IN est maintenant déployée en mode Flighting dans les régions en préversion publique

Pour plus d’informations, consultez la liste des langues et des voix.

Version de mars 2023

Nouvelles fonctionnalités

Le langage SSML (Speech Synthesis Markup Language) est mis à jour pour prendre en charge des éléments du processeur d’effets audio qui optimisent la qualité de la sortie vocale synthétisée pour des scénarios spécifiques sur des appareils. Apprenez-en davantage sur le balisage de synthèse vocale.

Voix neuronale personnalisée

Ajout de la prise en charge de la langue nl-BE par la voix neurale personnalisée Pro. Pour plus d’informations, consultez la liste des langues et des voix.

Voix de synthèse vocale neuronale prédéfinie

Les voix suivantes sont désormais en disponibilité générale. Pour plus d’informations, consultez la liste des langues et des voix.

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-AU`	Anglais (Australie)	`en-AU-AnnetteNeural` (Femme) `en-AU-CarlyNeural` (Femme) `en-AU-DarrenNeural` (Homme) `en-AU-DuncanNeural` (Homme) `en-AU-ElsieNeural` (Femme) `en-AU-FreyaNeural` (Femme) `en-AU-JoanneNeural` (Femme) `en-AU-KenNeural` (Homme) `en-AU-KimNeural` (Femme) `en-AU-NeilNeural` (Homme) `en-AU-TimNeural` (Homme) `en-AU-TinaNeural` (Femme) `en-AU-WilliamNeural` (Homme)
`en-GB`	Anglais (Royaume-Uni)	`en-GB-RyanNeural` (Homme) `en-GB-SoniaNeural` (Femme)
`es-ES`	Espagnol (Espagne)	`es-ES-AbrilNeural` (Femme) `es-ES-ArnauNeural` (Homme) `es-ES-DarioNeural` (Homme) `es-ES-EliasNeural` (Homme) `es-ES-EstrellaNeural` (Femme) `es-ES-IreneNeural` (Femme) `es-ES-LaiaNeural` (Femme) `es-ES-LiaNeural` (Femme) `es-ES-NilNeural` (Homme) `es-ES-SaulNeural` (Homme) `es-ES-TeoNeural` (Homme) `es-ES-TrianaNeural` (Femme) `es-ES-VeraNeural` (Femme)
`es-MX`	Espagnol (Mexique)	`es-MX-JorgeNeural` (Homme)
`fr-FR`	Français (France)	`fr-FR-HenriNeural` (Homme)
`it-IT`	Italien (Italie)	`it-IT-IsabellaNeural` (Femme)
`ja-JP`	Japonais (Japon)	`ja-JP-AoiNeural` (Femme) `ja-JP-DaichiNeural` (Homme) `ja-JP-MayuNeural` (Femme) `ja-JP-NaokiNeural` (Homme) `ja-JP-ShioriNeural` (Femme)

Ajout de la prise en charge du style cheerful avec la voix de-DE-ConradNeural.

Version de février 2023

Voix de synthèse vocale neuronale prédéfinie

Les voix suivantes sont désormais en disponibilité générale. Pour plus d’informations, consultez la liste des langues et des voix.

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`zh-CN`	Chinois (mandarin, simplifié)	`zh-CN-XiaomengNeural` (Femme) `zh-CN-XiaoyiNeural` (Femme) `zh-CN-XiaozhenNeural` (Femme) `zh-CN-YunfengNeural` (Homme) `zh-CN-YunhaoNeural` (Homme) `zh-CN-YunjianNeural` (Homme) `zh-CN-YunxiaNeural` (Homme) `zh-CN-YunzeNeural` (Homme)
`zh-CN-henan`	Chinois (Zhongyuan Mandarin Henan, simplifié)	`zh-CN-henan-YundengNeural` (Homme)

Version de décembre 2022

API REST de la synthèse par lots (préversion)

L’API Synthèse par lots est actuellement en préversion publique. Quand cette API sera en disponibilité générale, l’API Audio long sera dépréciée. Pour plus d’informations, consultez Migrer vers l’API Synthèse par lots.

Version de novembre 2022

Voix de synthèse vocale neuronale prédéfinie (GA)

Les voix suivantes sont désormais en disponibilité générale. Pour plus d’informations, consultez la liste des langues et des voix.

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`es-MX`	Espagnol (Mexique)	`es-MX-BeatrizNeural` (Femme) `es-MX-CandelaNeural` (Femme) `es-MX-CarlotaNeural` (Femme) `es-MX-CecilioNeural` (Homme) `es-MX-GerardoNeural` (Homme) `es-MX-LarissaNeural` (Femme) `es-MX-LibertoNeural` (Homme) `es-MX-LucianoNeural` (Homme) `es-MX-MarinaNeural` (Femme) `es-MX-NuriaNeural` (Femme) `es-MX-PelayoNeural` (Homme) `es-MX-RenataNeural` (Femme) `es-MX-YagoNeural` (Homme)
`it-IT`	Italien (Italie)	`it-IT-BenignoNeural` (Homme) `it-IT-CalimeroNeural` (Homme) `it-IT-CataldoNeural` (Homme) `it-IT-FabiolaNeural` (Femme) `it-IT-FiammaNeural` (Femme) `it-IT-GianniNeural` (Homme) `it-IT-ImeldaNeural` (Femme) `it-IT-IrmaNeural` (Femme) `it-IT-LisandroNeural` (Homme) `it-IT-PalmiraNeural` (Femme) `it-IT-PierinaNeural` (Femme) `it-IT-RinaldoNeural` (Homme)
`pt-BR`	Portugais (Brésil)	`pt-BR-BrendaNeural` (Femme) `pt-BR-DonatoNeural` (Homme) `pt-BR-ElzaNeural` (Femme) `pt-BR-FabioNeural` (Homme) `pt-BR-GiovannaNeural` (Femme) `pt-BR-HumbertoNeural` (Homme) `pt-BR-JulioNeural` (Homme) `pt-BR-LeilaNeural` (Femme) `pt-BR-LeticiaNeural` (Femme) `pt-BR-ManuelaNeural` (Femme) `pt-BR-NicolauNeural` (Homme) `pt-BR-ValerioNeural` (Homme) `pt-BR-YaraNeural` (Femme)

Voix neuronale personnalisée

La prise en charge de la langue suivante est ajoutée à la voix neurale personnalisée. Pour plus d’informations, consultez la liste des langues et des voix.

Ajout de la prise en charge de la langue fr-BE par la voix neurale personnalisée Pro.
Ajout de la prise en charge de la langue es-ES par voix neurale personnalisée Lite.

Version d’octobre 2022

Voix de synthèse vocale neuronale prédéfinie (GA)

Les voix suivantes sont désormais en disponibilité générale. Pour plus d’informations, consultez la liste des langues et des voix.

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`eu-ES`	Basque	`eu-ES-AinhoaNeural` (Femme) `eu-ES-AnderNeural` (Homme)
`hy-AM`	Arménien (Arménie)	`hy-AM-AnahitNeural` (Femme) `hy-AM-HaykNeural` (Homme)

Voix TTS neuronales prédéfinies (préversion)

Les voix suivantes sont disponibles dans la préversion publique. Pour plus d’informations, consultez la liste des langues et des voix.

Paramètres régionaux (BCP-47)	Langage	Voix de synthèse vocale
`en-AU`	Anglais (Australie)	`en-AU-AnnetteNeural`(Femme) `en-AU-CarlyNeural`(Femme) `en-AU-DarrenNeural`(Homme) `en-AU-DuncanNeural`(Homme) `en-AU-ElsieNeural`(Femme) `en-AU-FreyaNeural`(Femme) `en-AU-JoanneNeural`(Femme) `en-AU-KenNeural`(Homme) `en-AU-KimNeural`(Femme) `en-AU-NeilNeural`(Homme) `en-AU-TimNeural`(Homme) `en-AU-TinaNeural`(Femme)
`es-ES`	Espagnol (Espagne)	`es-ES-AbrilNeural`(Femme) `es-ES-AlvaroNeural`(Homme) `es-ES-ArnauNeural`(Homme) `es-ES-DarioNeural`(Homme) `es-ES-EliasNeural`(Homme) `es-ES-EstrellaNeural`(Femme) `es-ES-IreneNeural`(Femme) `es-ES-LaiaNeural`(Femme) `es-ES-LiaNeural`(Femme) `es-ES-NilNeural`(Homme) `es-ES-SaulNeural`(Homme) `es-ES-TeoNeural`(Homme) `es-ES-TrianaNeural`(Femme) `es-ES-VeraNeural`(Femme)
`ja-JP`	Japonais (Japon)	`ja-JP-AoiNeural`(Femme) `ja-JP-DaichiNeural`(Homme) `ja-JP-MayuNeural`(Femme) `ja-JP-NaokiNeural`(Homme) `ja-JP-ShioriNeural`(Femme)
`ko-KR`	Coréen (Corée)	`ko-KR-BongJinNeural`(Homme) `ko-KR-GookMinNeural`(Homme) `ko-KR-JiMinNeural`(Femme) `ko-KR-SeoHyeonNeural`(Femme) `ko-KR-SoonBokNeural`(Femme) `ko-KR-YuJinNeural`(Femme)
`wuu-CN`	Chinois (Wu, simplifié)	`wuu-CN-XiaotongNeural` (Femme) `wuu-CN-YunzheNeural` (Homme)
`yue-CN`	Chinois (cantonais, simplifié)	`yue-CN-XiaoMinNeural` (Femme) `yue-CN-YunSongNeural` (Homme)

Mises à jour générales des voix de synthèse vocale

Amélioration de la qualité pour les voix fil-PH-AngeloNeural et fil-PH-BlessicaNeural.
Les règles de normalisation du texte sont mises à jour pour les voix avec les paramètres régionaux es-CL Espagnol (Chili) et uz-UZ Ouzbek (Ouzbékistan).
Ajout des lettres anglaises pour les voix avec les paramètres régionaux sq-AL Albanais (Albanie) et az-AZ Azerbaïdjanais (Azerbaïdjan).
Amélioration de la prononciation anglaise pour la voix zh-HK-WanLungNeural.
Amélioration du ton de question pour les voix nl-NL-MaartenNeural et pt-BR-AntonioNeural.
Ajout de la prise en charge de la balise <lang ="en-US"> pour une meilleure prononciation de l’anglais avec les voix suivantes : de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural et it-IT-IsabellaNeural.
Ajout de la prise en charge de la balise style="chat" avec les voix suivantes : en-GB-RyanNeural, es-MX-JorgeNeural et it-IT-IsabellaNeural.
Ajout de la prise en charge de la balise style="cheerful" avec les voix suivantes : en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural et it-IT-IsabellaNeural.
Ajout de la prise en charge de la balise style="sad" avec les voix suivantes : en-GB-SoniaNeural, fr-FR-DeniseNeural et fr-FR-HenriNeural.

Version de septembre 2022

Voix de synthèse vocale neuronale prédéfinie

Toutes les voix neuronales prédéfinies ont été mises à niveau vers des voix haute fidélité avec un taux d’échantillonnage de 48 kHz.

Version d’août 2022

Voix de synthèse vocale neuronale prédéfinie

Publication de nouvelles voix en préversion publique :

Voix pour l’anglais (États-Unis) : en-US-AIGenerate1Neural et en-US-AIGenerate2Neural.
Voix pour des langues régionales chinoises : zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural et zh-CN-shandong-YunxiangNeural.

Pour plus d’informations, consultez la liste des langues et des voix.

Version de juillet 2022

Voix de synthèse vocale neuronale prédéfinie

Ajout de 5 nouvelles voix de zh-CN chinois (mandarin, simplifié) et 1 nouvelle voix d’anglais en-US (États-Unis) en préversion publique. Consultez la liste complète des langues et des voix.

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Chinois (mandarin, simplifié)	`zh-CN`	Female	`zh-CN-XiaomengNeural` ^Nouveau	Général, plusieurs styles disponibles à l’aide de SSML
Chinois (mandarin, simplifié)	`zh-CN`	Female	`zh-CN-XiaoyiNeural` ^Nouveau	Général, plusieurs styles disponibles à l’aide de SSML
Chinois (mandarin, simplifié)	`zh-CN`	Female	`zh-CN-XiaozhenNeural` ^Nouveau	Général, plusieurs styles disponibles à l’aide de SSML
Chinois (mandarin, simplifié)	`zh-CN`	Male	`zh-CN-YunxiaNeural` ^Nouveau	Général, plusieurs styles disponibles à l’aide de SSML
Chinois (mandarin, simplifié)	`zh-CN`	Male	`zh-CN-YunzeNeural` ^Nouveau	Général, plusieurs styles disponibles à l’aide de SSML
Anglais (États-Unis)	`en-US`	Male	`en-US-RogerNeural` ^Nouveau	Général

Styles et rôles pris en charge pour les voix neuronales ajoutées.

Voix	Styles	Degré de style	Rôles
zh-CN-XiaomengNeural ^{Préversion publique}	`chat`	Pris en charge
zh-CN-XiaoyiNeural ^{Préversion publique}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	Pris en charge
zh-CN-XiaozhenNeural ^{Préversion publique}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Pris en charge
zh-CN-YunxiaNeural ^{Préversion publique}	`angry`, `calm`, `cheerful`, `fearful`, `sad`	Prise en charge
zh-CN-YunzeNeural ^{Préversion publique}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	Pris en charge	Prise en charge

Obtenir une position faciale avec viseme

Ajout de la prise en charge de la combinaison de formes pour conduire les mouvements du visage d’un caractère 3D que vous avez conçu. Apprenez-en davantage sur la façon d’obtenir une position faciale avec viseme.
SSML mis à jour pour prendre en charge l’élément viseme. Voir balisage de synthèse vocale.

Version de juin 2022

Voix de synthèse vocale neuronale prédéfinie

Ajout de 9 nouvelles langues et variantes pour la synthèse vocale neuronale :

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Arabe (Liban)	`ar-LB`	Femme	`ar-LB-LaylaNeural` ^Nouveau	Général
Arabe (Liban)	`ar-LB`	Male	`ar-LB-RamiNeural` ^Nouveau	Général
Arabe (Oman)	`ar-OM`	Femme	`ar-OM-AyshaNeural` ^Nouveau	Général
Arabe (Oman)	`ar-OM`	Male	`ar-OM-AbdullahNeural` ^Nouveau	Général
Azerbaïdjanais (Azerbaïdjan)	`az-AZ`	Femme	`az-AZ-BabekNeural` ^Nouveau	Général
Azerbaïdjanais (Azerbaïdjan)	`az-AZ`	Male	`az-AZ-BanuNeural` ^Nouveau	Général
Bosniaque (Bosnie-Herzégovine)	`bs-BA`	Femme	`bs-BA-VesnaNeural` ^Nouveau	Général
Bosniaque (Bosnie-Herzégovine)	`bs-BA`	Male	`bs-BA-GoranNeural` ^Nouveau	Général
Géorgien (Géorgie)	`ka-GE`	Femme	`ka-GE-EkaNeural` ^Nouveau	Général
Géorgien (Géorgie)	`ka-GE`	Male	`ka-GE-GiorgiNeural` ^Nouveau	Général
Mongol (Mongolie)	`mn-MN`	Femme	`mn-MN-YesuiNeural` ^Nouveau	Général
Mongol (Mongolie)	`mn-MN`	Male	`mn-MN-BataaNeural` ^Nouveau	Général
Népalais (Népal)	`ne-NP`	Femme	`ne-NP-HemkalaNeural` ^Nouveau	Général
Népalais (Népal)	`ne-NP`	Male	`ne-NP-SagarNeural` ^Nouveau	Général
Albanais (Albanie)	`sq-AL`	Femme	`sq-AL-AnilaNeural` ^Nouveau	Général
Albanais (Albanie)	`sq-AL`	Male	`sq-AL-IlirNeural` ^Nouveau	Général
Tamoul (Malaisie)	`ta-MY`	Femme	`ta-MY-KaniNeural` ^Nouveau	Général
Tamoul (Malaisie)	`ta-MY`	Male	`ta-MY-SuryaNeural` ^Nouveau	Général

Voix GA 36 de la préversion publique pour en-GB l’anglais (Royaume-Uni), fr-FR le français (France) et de-DE l’allemand (Allemagne) :

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-AbbiNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-BellaNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-HollieNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-MaisieNeural`	Général, voix d’enfant
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-OliviaNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-SoniaNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-AlfieNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-ElliotNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-EthanNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-NoahNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-OliverNeural`	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-ThomasNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-BrigitteNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-CelesteNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-CoralieNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-EloiseNeural`	Général, voix d’enfant
Français (France)	`fr-FR`	Female	`fr-FR-JacquelineNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-JosephineNeural`	Général
Français (France)	`fr-FR`	Female	`fr-FR-YvetteNeural`	Général
Français (France)	`fr-FR`	Male	`fr-FR-AlainNeural`	Général
Français (France)	`fr-FR`	Male	`fr-FR-ClaudeNeural`	Général
Français (France)	`fr-FR`	Male	`fr-FR-JeromeNeural`	Général
Français (France)	`fr-FR`	Male	`fr-FR-MauriceNeural`	Général
Français (France)	`fr-FR`	Male	`fr-FR-YvesNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-AmalaNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-ElkeNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-GiselaNeural`	Général, voix d’enfant
Allemand (Allemagne)	`de-DE`	Female	`de-DE-KlarissaNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-LouisaNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-MajaNeural`	Général
Allemand (Allemagne)	`de-DE`	Female	`de-DE-TanjaNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-BerndNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-ChristophNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KasperNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KillianNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KlausNeural`	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-RalfNeural`	Général

Ajout de 40 nouvelles voix : es-MX espagnol (Mexique), it-IT italien (Italie), pt-BR portugais (Brésil) et 2 accents pour zh-CN le chinois (mandarin, simplifié) en préversion publique :

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Espagnol (Mexique)	`es-MX`	Female	`es-MX-BeatrizNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-CarlotaNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-NuriaNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-RenataNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-LarissaNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-CandelaNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Female	`es-MX-MarinaNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-FiammaNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-IrmaNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-FabiolaNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-PalmiraNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-ImeldaNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Femme	`it-IT-PierinaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-ElzaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-ManuelaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-BrendaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-LeilaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-YaraNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-GiovannaNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Female	`pt-BR-LeticiaNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-CecilioNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-LibertoNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-LucianoNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-PelayoNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-YagoNeural` ^Nouveau	Général
Espagnol (Mexique)	`es-MX`	Male	`es-MX-GerardoNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-BenignoNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-CataldoNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-LisandroNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-CalimeroNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-RinaldoNeural` ^Nouveau	Général
Italien (Italie)	`it-IT`	Male	`it-IT-GianniNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-DonatoNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-HumbertoNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-FabioNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-JulioNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-ValerioNeural` ^Nouveau	Général
Portugais (Brésil)	`pt-BR`	Male	`pt-BR-NicolauNeural` ^Nouveau	Général
Chinois (mandarin, simplifié)	`zh-CN-sichuan`	Male	`zh-CN-sichuan-YunxiSichuanNeural` ^Nouveau	Général, accent sichuan
Chinois (mandarin, simplifié)	`zh-CN-liaoning`	Female	`zh-CN-liaoning-XiaobeiNeural` ^Nouveau	Général, Accent liaoning

Amélioration de la qualité pour en-SG-LunaNeural et en-SG-WayneNeural
Prise en charge de la sortie 48 kHz pour la préversion publique avec en-US-JennyNeural, en-US-AriaNeural et zh-CN-XiaoxiaoNeural

Voix neuronale personnalisée

Activée pour corriger des problèmes de données en ligne. Découvrez comment résoudre les problèmes de données dans Speech Studio.
Ajout d’une version de recette d’apprentissage. Apprenez-en davantage sur la sélection de la version de recette d’apprentissage pour votre modèle vocal.

Outil Création de contenu audio

Pagination prise en charge.
Activée pour trier globalement par nom, type de fichier et heure de mise à jour sur la page de fichier de travail.

Version de mai 2022

Voix de synthèse vocale neuronale prédéfinie

Publication de 5 nouvelles voix en préversion publique avec plusieurs styles pour enrichir la variété en anglais américain. Consultez la liste complète des langues et des voix.
Prendre en charge ces nouveaux stylesAngry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified et Whispering en préversion publique pour en-US-AriaNeural.
Prendre en charge ces nouveaux stylesAngry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified et Whispering en préversion publique pour en-US-GuyNeural, en-US-JennyNeural.
Prendre en charge ces nouveaux stylesExcited, Friendly, Hopeful, Shouting, Unfriendly, Terrified et Whispering en préversion publique pour en-US-SaraNeural. Consultez Styles et rôles vocaux.
Publication de nouvelles voix zh-CN-YunjianNeural, zh-CN-YunhaoNeuralet zh-CN-YunfengNeural en préversion publique. Consultez la liste complète des langues et des voix.
Prise en charge de 2 nouveaux styles, sports-commentary et sports-commentary-excited, en préversion publique pour zh-CN-YunjianNeural. Consultez Styles et rôles vocaux.
Prise en charge de 1 nouveau style, advertisement-upbeat, en préversion publique pour zh-CN-YunhaoNeural. Consultez Styles et rôles vocaux.
Les styles cheerful et sad pour fr-FR-DeniseNeural sont généralement disponibles dans toutes les régions.
Mise à jour de SSML jour pour prendre en charge les éléments MathML pour les voix en-US et en-AU. Apprenez-en davantage sur le balisage de synthèse vocale.

Voix neuronale personnalisée

Activée pour annuler l’apprentissage du modèle vocal. Apprenez-en davantage sur l’l’annulation d’apprentissage.
Activée pour cloner un modèle (renommer un modèle vocal). Apprenez-en davantage sur le changement de nom de votre modèle vocal.
Activée pour tester votre modèle vocal en ajoutant votre propre script de test. Apprenez-en davantage sur le chargement de votre script de test.
Activée pour mettre à jour la version du moteur pour votre modèle vocal. Apprenez-en davantage sur la mise à jour de la version du moteur du modèle.
Prise en charge d’autres régions d’apprentissage. Consultez Prise en charge des régions.
Prise en charge de 10 langues par la voix neurale personnalisée Lite (préversion). Consultez Prise en charge des langues.

Outil Création de contenu audio

Activée pour essayer l’outil Création de contenu audio sans se connecter.
Amélioration de la disposition pour l’ajustement des phonèmes.
Amélioration de performance : spécification du nombre maximal (200) de fichiers à charger à la fois.
Amélioration de performance : spécification du niveau de profondeur maximale de répertoire (5 niveaux).

Version de mars 2022

Voix de synthèse vocale neuronale prédéfinie

Ajout de la prise en charge dans la préversion publique des styles Cheerful et Sad avec fr-FR-DeniseNeural. Consultez Styles et rôles vocaux.
Publication de conteneurs déconnectés pour les voix de synthèse vocale neuronales prédéfinies dans la préversion publique. Consultez Utiliser des conteneurs Docker dans des environnements déconnectés.

Voix neuronale personnalisée

Prise en charge du contrôle d’accès en fonction du rôle. Découvrez plus en détail le contrôle d’accès en fonction du rôle Azure dans Speech Studio.
Prise en charge des points de terminaison privés et des points de terminaison de service de réseau virtuel. Découvrez-en plus sur la façon d’utiliser des points de terminaison privés avec le service Speech.

Outil Création de contenu audio

Mise à jour de la taille de fichier et de la limite de concurrence pour les ressources de niveau gratuit (F0) afin de rendre l’expérience cohérente avec le kit SDK et les API Speech. Consultez Quotas et limites du service Batch.

Version de février 2022

Voix neuronale personnalisée

Publication de la voix neurale personnalisée Lite en préversion publique. En savoir plus sur ce qu’est une voix neurale personnalisée Lite.
Prise en charge linguistique étendue à 49 paramètres régionaux. Consultez Prise en charge des langues.
Prise en charge de régions/centres de données supplémentaires. Consultez Prise en charge des régions.

Outil Création de contenu audio

Suppression de la limite de longueur de sortie pour le téléchargement de données audio.

Version de janvier 2022

Nouvelles langues et voix

Ajout de 10 nouvelles langues et variantes pour la synthèse vocale neuronale :

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Bengali (India)	`bn-IN`	Femme	`bn-IN-TanishaaNeural` ^Nouveau	Général
Bengali (India)	`bn-IN`	Male	`bn-IN-BashkarNeural` ^Nouveau	Général
Islandais (Islande)	`is-IS`	Femme	`is-IS-GudrunNeural` ^Nouveau	Général
Islandais (Islande)	`is-IS`	Male	`is-IS-GunnarNeural` ^Nouveau	Général
Kannada (Inde)	`kn-IN`	Femme	`kn-IN-SapnaNeural` ^Nouveau	Général
Kannada (Inde)	`kn-IN`	Male	`kn-IN-GaganNeural` ^Nouveau	Général
Kazakh (Kazakhstan)	`kk-KZ`	Femme	`kk-KZ-AigulNeural` ^Nouveau	Général
Kazakh (Kazakhstan)	`kk-KZ`	Male	`kk-KZ-DauletNeural` ^Nouveau	Général
Lao (Laos)	`lo-LA`	Femme	`lo-LA-KeomanyNeural` ^Nouveau	Général
Lao (Laos)	`lo-LA`	Male	`lo-LA-ChanthavongNeural` ^Nouveau	Général
Macédonien (République de Macédoine du Nord)	`mk-MK`	Femme	`mk-MK-MarijaNeural` ^Nouveau	Général
Macédonien (République de Macédoine du Nord)	`mk-MK`	Male	`mk-MK-AleksandarNeural` ^Nouveau	Général
Malayalam (Inde)	`ml-IN`	Femme	`ml-IN-SobhanaNeural` ^Nouveau	Général
Malayalam (Inde)	`ml-IN`	Male	`ml-IN-MidhunNeural` ^Nouveau	Général
Pachtou (Afghanistan)	`ps-AF`	Femme	`ps-AF-LatifaNeural` ^Nouveau	Général
Pachtou (Afghanistan)	`ps-AF`	Male	`ps-AF-GulNawazNeural` ^Nouveau	Général
Serbe (Serbie, cyrillique)	`sr-RS`	Femme	`sr-RS-SophieNeural` ^Nouveau	Général
Serbe (Serbie, cyrillique)	`sr-RS`	Male	`sr-RS-NicholasNeural` ^Nouveau	Général
Cingalais (Sri Lanka)	`si-LK`	Femme	`si-LK-ThiliniNeural` ^Nouveau	Général
Cingalais (Sri Lanka)	`si-LK`	Male	`si-LK-SameeraNeural` ^Nouveau	Général

Pour obtenir la liste complète des voix disponibles, consultez Prise en charge linguistique.

Nouvelles voix en préversion

Ajout de nouvelles voix pour les langues en-GB, fr-FR et de-DE en préversion :

Langage	Paramètres régionaux	Sexe	Nom de la voix	Prise en charge du style
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-AbbiNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-BellaNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-HollieNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Female	`en-GB-OliviaNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Fille	`en-GB-MaisieNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-AlfieNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-ElliotNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-EthanNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-NoahNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-OliverNeural` ^Nouveau	Général
Anglais (Royaume-Uni)	`en-GB`	Male	`en-GB-ThomasNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-BrigitteNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-CelesteNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-CoralieNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-JacquelineNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-JosephineNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Femme	`fr-FR-YvetteNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Fille	`fr-FR-EloiseNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Male	`fr-FR-AlainNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Male	`fr-FR-ClaudeNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Male	`fr-FR-JeromeNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Male	`fr-FR-MauriceNeural` ^Nouveau	Général
Français (France)	`fr-FR`	Male	`fr-FR-YvesNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-AmalaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-ElkeNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-KlarissaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-LouisaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-MajaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Femme	`de-DE-TanjaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Fille	`de-DE-GiselaNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-BerndNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-ChristophNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KasperNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KillianNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-KlausNeural` ^Nouveau	Général
Allemand (Allemagne)	`de-DE`	Male	`de-DE-RalfNeural` ^Nouveau	Général

Pour obtenir la liste complète des voix disponibles, consultez Prise en charge linguistique.

Précision de la prononciation

Amélioration de la prononciation des mots anglais pour toutes les voix he-IL.
Amélioration de la précision de la prononciation des mots pour cs-CZ et da-DK.
Amélioration des signes diacritiques arabes et de la gestion des diacritiques en hébreu.
Amélioration de la lecture d’entités pour ja-JP

Speech Studio

Voix neurale personnalisée : activation d’un test de modèle supplémentaire à l’aide de l’API Batch (API audio longue)
Création de contenu audio : plus de formats de sortie activés

Version d’octobre 2021

Nouvelles langues et voix

Ajout de 49 nouvelles langues et de 98 voix pour la synthèse vocale neuronale :

Adri en afrikaans af-ZA (Afrique du Sud), Willem en afrikaans af-ZA (Afrique du Sud), Mekdes en amharique am-ET (Éthiopie), Ameha en amharique am-ET (Éthiopie), Fatima en arabe ar-AE (Émirats Arabes Unis), Hamdan en arabe ar-AE (Émirats arabes unis), Laila en arabe ar-BH (Bahreïn), Ali en arabe ar-BH (Bahreïn), Amina en arabe ar-DZ (Algérie), Ismaël en arabe ar-DZ (Algérie), Rana en arabe ar-IQ (Irak), Bassel en arabe ar-IQ (Irak), Sana en arabe ar-JO (Jordanie), Taim en arabe ar-JO (Jordanie), Noura en arabe ar-KW (Koweït), Fahed en arabe ar-KW (Koweït), Iman en arabe ar-LY (Libye), Omar en arabe ar-LY (Libye), Mouna en arabe ar-MA (Maroc), Jamal en arabe ar-MA (Maroc), Amal en arabe ar-QA (Qatar), Moaz en arabe ar-QA (Qatar), Amany en arabe ar-SY (Syrie), Laith en arabe ar-SY (Syrie), Reem en arabe ar-TN (Tunisie), Hedi en arabe ar-TN (Tunisie), Maryam en arabe ar-YE (Yémen), Saleh en arabe ar-YE (Yémen), Nabanita en bengali bn-BD (Bangladesh), Pradeep en bengali bn-BD (Bangladesh), Asilia en anglais en-KE (Kenya), Chilemba en anglais en-KE (Kenya), Ezinne en anglais en-NG (Nigeria), Abeo en anglais en-NG (Nigeria), Imani en anglais en-TZ (Tanzanie), Elimu en anglais en-TZ (Tanzanie), Sofia en espagnol es-BO (Bolivie), Marcelo en espagnol es-BO (Bolivie), Catalina en espagnol es-CL (Chili), Lorenzo en espagnol es-CL (Chili), Maria en espagnol es-CR (Costa Rica), Juan en espagnol es-CR (Costa Rica), Belkys en espagnol es-CU (Cuba), Manuel en espagnol es-CU (Cuba), Ramona en espagnol es-DO (République dominicaine), Emilio en espagnol es-DO (République dominicaine), Andrea en espagnol es-EC (Équateur), Luis en espagnol es-EC (Équateur), Teresa en espagnol es-GQ (Guinée équatoriale), Javier en espagnol es-GQ (Guinée équatoriale), Marta en espagnol es-GT (Guatemala), Andres en espagnol es-GT (Guatemala), Karla en espagnol es-HN (Honduras), Carlos en espagnol es-HN (Honduras), Yolanda en espagnol es-NI (Nicaragua), Federico en espagnol es-NI (Nicaragua), Margarita en espagnol es-PA (Panama), Roberto en espagnol es-PA (Panama), Camila en espagnol es-PE (Pérou), Alex en espagnol es-PE (Pérou), Karina en espagnol es-PR (Porto Rico), Victor en espagnol es-PR (Porto Rico), Tania en espagnol es-PY (Paraguay), Mario en espagnol es-PY (Paraguay), Lorena en espagnol es-SV (El Salvador), Rodrigo en espagnol es-SV (El Salvador), Valentina en espagnol es-UY (Uruguay), Mateo en espagnol es-UY (Uruguay), Paola en espagnol es-VE (Venezuela), Sebastian en espagnol es-VE (Venezuela), Dilara en persan fa-IR (Iran), Farid en persan fa-IR (Iran), Blessica en philippin fil-PH (Philippines), Angelo en philippin fil-PH (Philippines), Sabela en galicien gl-ES (Espagne), Roi en galicien gl-ES (Espagne), Siti en javanais jv-ID (Indonésie), Dimas en javanais jv-ID (Indonésie), Sreymom en khmer km-KH (Cambodge), Piseth en khmer km-KH (Cambodge), Nilar en birman my-MM (Myanmar), Thiha en birman my-MM (Myanmar), Ubax en somali so-SO (Somalie), Muuse en somali so-SO (Somalie), Tuti en sundanais su-ID (Indonésie), Jajang en sundanais su-ID (Indonésie), Rehema en swahili sw-TZ (Tanzanie), Daudi en swahili sw-TZ (Tanzanie), Saranya en tamoul ta-LK (Sri Lanka), Kumar en tamoul ta-LK (Sri Lanka), Venba en tamoul ta-SG (Singapour), Anbu en tamoul ta-SG (Singapour), Gul en ourdou ur-IN (Inde), Salman en ourdou ur-IN (Inde), Madina en ouzbek uz-UZ (Ouzbékistan), Sardor en ouzbek uz-UZ (Ouzbékistan), Thando en zoulou zu-ZA (Afrique du Sud), Themba en zoulou zu-ZA (Afrique du Sud).

Version de septembre 2021

Nouvelle voix de chatbot dans la culture en-US Anglais (US) : Sara représente une jeune femme adulte qui parle de manière plus décontractée et qui convient parfaitement aux scénarios de chatbot.
Ajout de nouveaux styles pour la voix de Nanami en japonais ja-JP : trois nouveaux styles sont désormais disponibles avec Nanami : chat, service clientèle et enthousiaste.
Amélioration générale de la prononciation : Ardi en id-ID, Premwadee en th-TH, Christel en da-DK, HoaiMy et NamMinh en vi-VN.
Deux nouvelles voix dans la culture zh-CN Chinois (mandarin) en préversion : Xiaochen et Xiaoyan, optimisées pour les scénarios de discours spontané et de service client.

Version de juillet 2021

Mises à jour de la synthèse vocale neuronale

Réduction des erreurs de prononciation de 20 % pour l’hébreu.

Mises à jour de Speech Studio

Voix neurale personnalisée : mise à jour du pipeline d’apprentissage en UniTTSv3 avec laquelle la qualité du modèle est améliorée, tandis que le temps d’apprentissage est réduit de 50 % pour les modèles acoustiques.
Création de contenu audio : correction du problème de performances « exportation » et du bogue sur la sélection de la voix neuronale personnalisée.

Version de juin 2021

Mises à jour de Speech Studio

Voix neurale personnalisée : apprentissage étendu de la voix neurale personnalisée pour une prise en charge de l’Asie Sud-Est. Nouvelles fonctionnalités publiées pour prendre en charge la vérification de l’état du chargement des données.
Création de contenu audio : publication d’une nouvelle fonctionnalité pour prendre en charge le lexique personnalisé. Grâce à cette fonctionnalité, les utilisateurs peuvent facilement créer leurs fichiers de lexique et définir la prononciation personnalisée de leur sortie audio.

Version de mai 2021

Nouvelles langues et voix ajoutées pour la synthèse vocale neuronale

Dix nouvelles langues ont été introduites : 20 nouvelles voix dans 10 nouveaux paramètres régionaux sont ajoutées à la liste des langues de synthèse vocale neuronale : Yan en en-HK anglais (Hong Kong), Sam en en-HK anglais (Hong Kong), Molly en en-NZ anglais (Nouvelle-Zélande), Mitchell en en-NZ anglais (Nouvelle-Zélande), Luna en en-SG anglais (Singapour), Wayne en en-SG anglais (Singapour), Leah en en-ZA anglais (Afrique du Sud), Luke en anglais ( en-ZA Afrique du Sud), Dhwani en gu-IN gujarati (Inde), Niranjan en gu-IN gujarati (Inde), Aarohi en mr-IN marathi (Inde), Manohar en mr-IN marathi (Inde), Elena en es-AR espagnol (Argentine), Tomas en es-AR espagnol (Argentine), Salome en es-CO espagnol (Colombie), Gonzalo en es-CO espagnol (Colombie), Paloma en es-US espagnol (États-Unis), Alonso en es-US espagnol (États-Unis), Zuri en sw-KE swahili (Kenya), Rafiki en sw-KE swahili (Kenya).
Onze nouvelles voix en-US en préversion : 11 nouvelles voix en-US en préversion sont ajoutées à l’anglais américain, il s’agit d’Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Cinq voix chinoises zh-CN (mandarin simplifié) sont en disponibilité générale : 5 voix chinoises (mandarin simplifié) passent de la préversion à la disponibilité générale. Il s’agit de Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. À présent, ces voix sont disponibles dans toutes les régions. Yunxi est ajouté avec un nouveau style « assistant », adapté au bot conversationnel et à l’agent vocal. Les styles vocaux de Xiaomo sont affinés pour être plus naturels et plus pertinents.

Version d’avril 2021

La synthèse vocale neuronale est disponible dans 21 régions

Ajout de douze nouvelles régions - La synthèse vocale neuronale est désormais disponible dans les 12 nouvelles régions suivantes : Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US, West US 2. Pour obtenir la liste complète des 21 régions prises en charge, consultez cette page.

Version de mars 2021

Nouvelles langues et voix ajoutées pour la synthèse vocale neuronale

Six nouvelles langues ont été introduites - 12 nouvelles voix dans six nouveaux paramètres régionaux ont été ajoutées à la liste des langues de synthèse vocale neuronale : Nia en cy-GB Gallois (Royaume-Uni), Aled en cy-GB Gallois (Royaume-Uni), Rosa en en-PH Anglais (Philippines), James en en-PH Anglais (Philippines), Charline en fr-BE Français (Belgique), Gérard en fr-BE Français (Belgique), Dena en nl-BE Néerlandais (Belgique), Arnaud en nl-BE Néerlandais (Belgique), Polina en uk-UA Ukrainien (Ukraine), Ostap en uk-UA Ukrainien (Ukraine), Uzma en ur-PK Ourdou (Pakistan), Asad en ur-PK Ourdou (Pakistan).
Cinq langues sont passées de la préversion à la disponibilité générale : 10 voix dans cinq paramètres régionaux introduits en novembre sont désormais en disponibilité générale : Kert en et-EE estonien (Estonie), Colm en ga-IE irlandais (Irlande), Nils en lv-LV letton (Lettonie), Leonas en lt-LT lituanien (Lituanie), Joseph en mt-MT maltais (Malte).
Nouvelle voix masculine ajoutée pour le Français (Canada) - Une nouvelle voix, Antoine, est disponible pour fr-CA Français (Canada).
Amélioration de la qualité - Réduction du taux d’erreur de prononciation en hu-HU H Hongrois - 48,17 %, nb-NO Norvégien - 52,76 %, nl-NL Néerlandais (Pays-bas) - 22,11 %.

Avec cette version, nous proposons désormais un total de 142 voix dans 60 langues/paramètres régionaux. En outre, plus de 70 voix standard sont disponibles dans 49 langues/paramètres régionaux. Pour obtenir la liste complète, consultez Prise en charge linguistique.

Obtenir des événements de pose faciale pour animer des personnages

La synthèse vocale neuronale intègre désormais l’événement de visème. Les événements de visème permettent aux utilisateurs d’obtenir une séquence de poses de visage et de parole synthétisée. Viseme peut être utilisé pour contrôler le déplacement de modèles d’avatars 2D et 3D, avec correspondance entre les mouvements de la bouche et la parole synthétisée. Les événements de visème sont uniquement disponibles pour la voix en-US-AriaNeural pour l’instant.

Ajouter l’élément bookmark en langage SSML (Speech Synthesis Markup Language)

L’élément bookmark vous permet d’insérer des marqueurs personnalisés en SSML pour récupérer le décalage de chaque marqueur dans le flux audio. Il peut être utilisé pour référencer un emplacement spécifique dans le texte ou la séquence de balises.

Version de février 2021

Disponibilité générale de la voix neurale personnalisée

La voix neurale personnalisée sera en disponibilité générale en février dans 13 langues : chinois (mandarin, simplifié), anglais (Australie), anglais (Inde), anglais (Royaume-Uni), anglais (États-Unis), français (Canada), français (France), allemand (Allemagne), italien (Italie), japonais (Japon), coréen (Corée), portugais (Brésil), espagnol (Mexique) et espagnol (Espagne). En savoir plus sur ce qu’est la voix neurale personnalisée et comment l’utiliser de manière responsable. La fonctionnalité de voix neurale personnalisée nécessite une inscription dont Microsoft peut limiter l’accès en fonction de ses critères d’éligibilité. Apprenez-en davantage sur l’accès limité.

Version de décembre 2020

Nouvelles voix neuronales en disponibilité générale et en préversion

Publication de 51 nouvelles voix pour un total de 129 voix neuronales dans 54 langues/paramètres régionaux :

46 nouvelles voix dans les paramètres régionaux en disponibilité générale : Shakir en ar-EG arabe (Égypte), Hamed en ar-SA arabe (Arabie saoudite), Borislav en bg-BG bulgare (Bulgarie), Joana en ca-ES catalan (Espagne), Antonin en cs-CZ tchèque (République tchèque), Jeppe en da-DK danois (Danemark), Jonas en de-AT allemand (Autriche), Jan en de-CH allemand (Suisse), Nestoras en el-GR grec (Grèce), Liam en en-CA anglais (Canada), Connor en en-IE anglais (Irlande), Madhur en en-IN hindi (Inde), Mohan en en-IN télougou (Inde), Prabhat en en-IN anglais (Inde), Valluvar en en-IN tamoul (Inde), Enric en es-ES catalan (Espagne), Kert en et-EE estonien (Estonie), Harri en fi-FI finnois (Finlande), Selma en fi-FI finnois (Finlande), Fabrice en fr-CH français (Suisse), Colm en ga-IE irlandais (Irlande), Avri en he-IL hébreu (Israël), Srecko en hr-HR croate (Croatie), Tamas en hu-HU hongrois (Hongrie), Gadis en id-ID indonésien (Indonésie), Leonas en lt-LT lituanien (Lituanie), Nils en lv-LV letton (Lettonie), Osman en ms-MY malais (Malaisie), Joseph en mt-MT maltais (Malte), Finn en nb-NO norvégien, Bokmål (Norvège), Pernille en nb-NO norvégien, Bokmål (Norvège), Fenna en nl-NL néerlandais (Pays-Bas), Maarten en nl-NL néerlandais (Pays-Bas), Agnieszka en pl-PL polonais (Pologne), Marek en pl-PL polonais (Pologne), Duarte en pt-BR portugais (Brésil), Raquel en pt-PT portugais (Potugal), Emil en ro-RO roumain (Roumanie), Dmitry en ru-RU russe (Russie), Svetlana en ru-RU russe (Russie), Lukas en sk-SK slovaque (Slovaquie), Rok en sl-SI slovène (Slovénie), Mattias en sv-SE suédois (Suède), Sofie en sv-SE suédois (Suède), Niwat en th-TH thaï (Thaïlande), Ahmet en tr-TR turc (Turquie), NamMinh en vi-VN vietnamien (Vietnam), HsiaoChen en zh-TW mandarin taïwanais (Taïwan), YunJhe en zh-TW mandarin taïwanais (Taïwan), HiuMaan en zh-HK chinois cantonais (Région administrative spéciale de Hong Kong), WanLung en zh-HK chinois cantonais (RAS de Hong Kong).
5 nouvelles voix dans les paramètres régionaux en préversion : Kert en estonien et-EE (Estonie), Colm en irlandais ga-IE (Irlande), Nils en letton lv-LV (Lettonie), Leonas en lituanien lt-LT (Lituanie), Joseph en maltais mt-MT (Malte).

Avec cette version, nous proposons désormais un total de 129 voix dans 54 langues/paramètres régionaux. En outre, plus de 70 voix standard sont disponibles dans 49 langues/paramètres régionaux. Pour obtenir la liste complète, consultez Prise en charge linguistique.

Mises à jour pour la création de contenu audio

Interface utilisateur améliorée de sélection de la voix avec des catégories de voix et des descriptions de voix détaillées.
Activation du paramétrage de l’intonation pour toutes les voix neuronales dans différentes langues.
Automatisation de la localisation de l’interface utilisateur en fonction de la langue du navigateur.
Activation des contrôles StyleDegree pour toutes les voix neuronales zh-CN. Visitez l’outil de création de contenu audio pour découvrir les nouvelles fonctionnalités.

Mises à jour pour les voix zh-CN

Mise à jour de toutes les voix neuronales zh-CN pour prendre en charge l’anglais.
Activation de toutes les voix neuronales zh-CN pour prendre en charge le réglage de l’intonation. Possibilité d’utiliser SSML ou l’outil de création de contenu audio pour régler la meilleure intonation.
Mise à jour de toutes les voix neuronales zh-CN disponibles dans plusieurs styles pour la prise en charge du contrôle StyleDegree. L’intensité de l’émotion (douce ou forte) est réglable.
Mise à jour de zh-CN-YunyeNeural pour prendre en charge plusieurs styles pouvant refléter différentes émotions.

Version de novembre 2020

Nouveaux paramètres régionaux et voix en préversion

Cinq nouvelles voix et langues sont introduites dans le portefeuille de la synthèse vocale neuronale. Il s'agit de : Grâce en maltais (Malte), Ona en lituanien (Lituanie), Anu en estonien (Estonie), Orla en irlandais (Irlande) et Everita en letton (Lettonie).
Cinq nouvelles voix zh-CN avec plusieurs styles et rôles prennent en charge : Xiaohan, Xiaomo, Xiaorui, Xiaoxuan et Yunxi.

Ces voix sont disponibles en préversion publique da,s trois régions Azure : Eastus, southeastasia et westeurope.

Disponibilité générale du conteneur de synthèse vocale neuronale

Avec le conteneur de synthèse vocale neuronale, les développeurs peuvent effectuer une synthèse vocale avec les voix numériques les plus naturelles dans leur propre environnement pour des besoins spécifiques en matière de sécurité et de gouvernance des données. Découvrez comment installer les conteneurs Speech.

Nouvelles fonctionnalités

Voix personnalisée : possibilité pour les utilisateurs de copier un modèle vocal d’une région vers une autre ; prise en charge de l’interruption et de la reprise de point de terminaison. Accédez au Portail Azure ici.
Prise en charge de la balise de silence SSML.
Améliorations générales de la qualité de la synthèse vocale : Amélioration de la précision de la prononciation des mots dans 5 langues. Réduction de 53 % des erreurs de prononciation.

Pour plus d’informations, consultez ce blog sur les technologies.

Version d’octobre 2020

Nouvelles fonctionnalités

Jenny prend en charge un nouveau style de newscast. Consultez Comment utiliser les styles oraux dans SSML.
Voix neuronales mises à niveau vers le vocodeur HiFiNet, avec une fidélité audio supérieure et une vitesse de synthèse plus rapide. Cela présente des avantages pour les clients dont le scénario repose sur l’audio hi-fi ou de longues interactions, notamment la traduction vidéo, les livres audio ou le matériel pédagogique en ligne. En savoir plus et écouter les échantillons vocaux sur notre blog Tech Community
Custom Voice et Studio Création de contenu audio localisés en 17 langues. Les utilisateurs peuvent facilement changer la langue de l’IU pour une expérience plus conviviale.
Création de contenu audio : Ajout du contrôle de degré de style pour XiaoxiaoNeural ; amélioration de la fonctionnalité d’arrêt personnalisé pour inclure des arrêts incrémentiels de 50 ms.

Améliorations générales de la qualité de la voix TTS

Amélioration de la justesse de la prononciation au niveau des mots en pl-PL (réduction du taux d’erreur : 51 %) et fi-FI (réduction du taux d’erreur : 58 %)
Amélioration de la lecture d’un seul mot en ja-JP pour le scénario de dictionnaire. Réduction des erreurs de prononciation de 80 %.
zh-CN-XiaoxiaoNeural : Amélioration de la qualité vocale du style sentiment/CustomerService/Newscast/Cheerful/Angry.
zh-CN : Amélioration de la prononciation Erhua, de la légèreté de ton et de la prosodie spatiale, ce qui améliore considérablement l’intelligibilité.

Version de septembre 2020

Nouvelles fonctionnalités

Synthèse vocale neuronale
- Extension de la prise en charge à 18 nouvelles langues/nouveaux paramètres régionaux. Il s’agit du bulgare, du tchèque, de l’allemand (Autriche), de l’allemand (Suisse), du grec, de l’anglais (Irlande), du français (Suisse), de l’hébreu, du croate, du hongrois, de l’indonésien, du malais, du roumain, du slovaque, du slovène, du tamoul, du télougou et du vietnamien.
- 14 nouvelles voix disponibles pour enrichir la variété des langues existantes. Consultez la liste complète des langues et des voix.
- Nouveaux styles de parole pour les voix en-US et zh-CN. Jenny, la nouvelle voix en anglais (États-Unis), prend en charge les styles du chatbot, du service clientèle et de l’assistant. 10 nouveaux styles de parole sont disponibles avec notre voix zh-CN, XiaoXiao. En outre, la voix neuronale XiaoXiao prend en charge le réglage de StyleDegree. Consultez Comment utiliser les styles oraux dans SSML.
Conteneurs : conteneur de synthèse vocale neuronale publié en préversion publique avec 16 voix disponibles en 14 langues. En savoir plus sur le déploiement des conteneurs Speech pour la synthèse vocale neuronale

Lisez l’annonce complète des mises à jour de la synthèse vocale (TTS) pour Ignite 2020

Version d’août 2020

Nouvelles fonctionnalités

Synthèse vocale neuronale : nouveau style d’élocution pour la voix Aria en-US. AriaNeural peut ressembler à un présentateur de journal télévisé. Le style « newscast-formal » est plus sérieux, tandis que le style « newscast-casual » est plus décontracté et informel. Consultez Comment utiliser les styles oraux dans SSML.
Voix personnalisée : une nouvelle fonctionnalité est mise en production pour vérifier automatiquement la qualité des données d’apprentissage. Lorsque vous chargez vos données, le système examine divers aspects de vos données audio et de transcription, et corrige ou filtre automatiquement les problèmes pour améliorer la qualité du modèle vocal. Cela couvre le volume de votre audio, le niveau de bruit, la précision de la prononciation, l’alignement du texte prononcé avec le texte normalisé, le silence dans l’audio, en plus du format audio et de script.
Création de contenu audio : un ensemble de nouvelles fonctionnalités pour activer des fonctionnalités de gestion audio et de réglage vocal plus puissantes
- Prononciation : La fonctionnalité de paramétrage de la prononciation a été mise à jour avec le dernier jeu de phonèmes. Vous pouvez choisir l’élément phonème approprié dans la bibliothèque et affiner la prononciation des mots que vous avez sélectionnés.
- Télécharger : La fonctionnalité audio « Télécharger / Exporter » a été améliorée pour prendre en charge la génération d’audio par paragraphe. Vous pouvez modifier le contenu d’un même fichier/SSML tout en générant plusieurs sorties audio. La structure de fichiers du dossier « Download » a également été affinée. Vous pouvez maintenant obtenir facilement tous les fichiers audio dans un même dossier.
- État de la tâche : L’expérience d’exportation de plusieurs fichiers a été améliorée. Auparavant, lorsque vous exportiez plusieurs fichiers, si l'un des fichiers échouait, toute la tâche échouait. Mais maintenant, tous les autres fichiers seront exportés avec succès. Le rapport de tâche contient des informations plus détaillées et structurées. Ce rapport vous permet maintenant de consulter les journaux de tous les fichiers et phrases ayant échoué.
- Documentation SSML : liée au document SSML pour vous aider à vérifier les règles d’utilisation de toutes les fonctionnalités de paramétrage.
L’API Voice List a été mise à jour pour inclure un nom complet convivial ainsi que les styles oraux pris en charge pour les voix neurales.

Améliorations générales de la qualité de la voix TTS

Réduction du pourcentage d’erreurs de prononciation au niveau du mot pour ru-RU (erreurs réduites de 56 %) et sv-SE (erreurs réduites de 49 %)
Amélioration de 40 % de la lecture des mots polyphoniques pour les voix neuronales en-US. Exemples de mots polyphoniques : « read », « live », « content », « record », « object », etc.
Amélioration de la tonalité naturelle des questions en fr-FR. Gain MOS (Mean Opinion Score) : +0.28
Mise à jour des vocodeurs pour les voix suivantes, avec amélioration de la fidélité et accélération des performances globales de 40 %.

Paramètres régionaux Voix

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Paramètres régionaux	Voix
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Résolution des bogues

Correction de plusieurs bogues liés à l’outil de création de contenu audio
- Correction d’un problème lié à l’actualisation automatique.
- Correction de problèmes liés aux styles vocaux en zh-CN dans la région Asie Sud-Est.
- Correction d’un problème de stabilité, notamment une erreur d’exportation avec la balise « break », et d’autres erreurs de ponctuation.

Version de novembre 2024

API REST de reconnaissance vocale version 2024-11-15

L’API REST de reconnaissance vocale version 2024-11-15 est mise en production en disponibilité générale. Pour découvrir plus d’informations, consultez la documentation de référence API REST de reconnaissance vocale et le guide de l’API REST de reconnaissance vocale.

Remarque

L’API REST de reconnaissance vocale version 2024-05-15-preview est déconseillée.

Transcription rapide (GA)

L’API Transcription rapide est désormais en disponibilité générale via lAPI REST de reconnaissance vocale version 2024-11-15. La transcription rapide vous permet de transcrire le fichier audio vers du texte avec précision et de manière synchronisé, avec un facteur de haute vitesse. Elle peut transcrire l’audio beaucoup plus rapidement que la durée de l’audio réelle. Pour plus d’informations, consultez le guide de l’API de transcription rapide.

Version d’octobre 2024

Traduction vidéo (Préversion)

L’API de traduction vidéo est désormais disponible en préversion publique. Pour découvrir plus d’informations, consultez la Comment utiliser la traduction vidéo.

Version de septembre 2024

Reconnaissance vocale en temps réel

Reconnaissance vocale en temps réel a publié de nouveaux modèles, avec une meilleure qualité, pour les langues suivantes.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Transcription rapide (préversion)

La transcription rapide prend désormais en charge la séparation des locuteurs pour reconnaître et séparer plusieurs locuteurs dans un fichier audio monocanal. Pour plus d’informations, consultez le Guide de l’API de transcription rapide.

Version d’août 2024

Apprentissage d’une langue (préversion)

L’apprentissage d’une langue est désormais disponible en préversion publique. L’apprentissage interactif d’une langue peut rendre votre expérience d’apprentissage plus attrayante et plus efficace. Pour plus d’informations, consultez Apprentissage interactif d’une langue avec évaluation de la prononciation.

Évaluation de la prononciation

L’évaluation de la prononciation vocale prend désormais en charge 33 langues en disponibilité générale et chaque langue est disponible dans toutes les régions de la reconnaissance vocale. Pour découvrir plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.

Langage	Paramètres régionaux (BCP-47)
Arabe (Égypte)	`ar-EG`
Arabe (Arabie saoudite)	`ar-SA`
Catalan	`ca-ES`
Chinois (cantonais, traditionnel)	`zh-HK`
Chinois (mandarin, simplifié)	`zh-CN`
Chinois (mandarin taïwanais, traditionnel)	`zh-TW`
Danois (Danemark)	`da-DK`
Néerlandais (Pays-Bas)	`nl-NL`
Anglais (Australie)	`en-AU`
Anglais (Canada)	`en-CA`
Anglais (Inde)	`en-IN`
Anglais (Royaume-Uni)	`en-GB`
Anglais (États-Unis)	`en-US`
Finnois (Finlande)	`fi-FI`
Français (Canada)	`fr-CA`
Français (France)	`fr-FR`
Allemand (Allemagne)	`de-DE`
Hindi (Inde)	`hi-IN`
Italien (Italie)	`it-IT`
Japonais (Japon)	`ja-JP`
Coréen (Corée)	`ko-KR`
Malais (Malaisie)	`ms-MY`
Norvégien, Bokmål (Norvège)	`nb-NO`
Polonais (Pologne)	`pl-PL`
Portugais (Brésil)	`pt-BR`
Portugais (Portugal)	`pt-PT`
Russe (Russie)	`ru-RU`
Espagnol (Mexique)	`es-MX`
Espagnol (Espagne)	`es-ES`
Suédois (Suède)	`sv-SE`
Tamoul (Inde)	`ta-IN`
Thaï (Thaïlande)	`th-TH`
Vietnamien (Vietnam)	`vi-VN`

Version de juillet 2024

API de transcription rapide (préversion)

La traduction rapide est désormais disponible en préversion publique. La transcription rapide vous permet de transcrire le fichier audio vers du texte avec précision et de manière synchronisé, avec un facteur de haute vitesse. Elle peut transcrire l’audio beaucoup plus rapidement que la durée de l’audio réelle. Pour plus d’informations, consultez le guide de l’API de transcription rapide.

Conseil

Essayez une transcription rapide dans Azure AI Studio.

Version de juin 2024

Disponibilité générale de l’API REST de conversion de parole en texte v3.2

L’API REST de reconnaissance vocale version 3.2 est maintenant en disponibilité générale. Pour plus d’informations sur la reconnaissance vocale vers l’API REST v3.2, consultez la documentation de référence Speech to text API v3.2 et le guide de l’API REST de conversion de parole en texte .

Remarque

Les versions préliminaires 3.2-preview.1 et 3.2-preview.2 sont mises hors service à compter de 2024.

L’API REST de reconnaissance vocale v3.1 sera supprimée à une date qui sera annoncée ultérieurement. L’API REST de reconnaissance vocale v3.0 sera mise hors service le 1er avril 2026. Pour plus d’informations sur la mise à niveau, consultez les guides de migration de l’API REST Speech to Text v3.0 vers v3.1 et v3.1 vers v3.2.

Version de mai 2024

Traduction vidéo (Préversion)

La traduction vidéo est désormais disponible en préversion publique. La traduction vidéo est une fonctionnalité d’Azure AI Speech qui vous permet de traduire et de générer automatiquement et en toute transparence des vidéos dans plusieurs langues. Cette fonctionnalité est conçue pour vous aider à localiser votre contenu vidéo pour répondre à diverses audiences dans le monde entier. Vous pouvez créer efficacement des vidéos immersives localisées dans différents cas d’usage tels que les vlogs, l’éducation, les actualités, la formation d’entreprise, la publicité, le film, les émissions de télévision, etc. Pour plus d’informations, consultez la Présentation de la traduction vidéo.

Évaluation de la prononciation

L’évaluation de la prononciation Speech prend désormais en charge 24 langues en disponibilité générale (avec 1 nouvelle langue ajoutée), avec 7 autres langues disponibles en préversion publique. Pour plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.

Version d’avril 2024

Traduction vocale multilingue automatique (préversion)

La traduction vocale multilingue automatique est disponible en préversion publique. Cette fonctionnalité innovante révolutionne la façon dont les barrières linguistiques sont surmontées, offrant des fonctionnalités inégalées pour la communication transparente entre différents paysages linguistiques.

Principaux points saillants

Langue d’entrée non spécifiée : La traduction vocale multilingue peut recevoir des données audio dans un large éventail de langues, et il n’est pas nécessaire de spécifier la langue d’entrée attendue. Il en fait une fonctionnalité inestimable pour comprendre et collaborer dans des contextes globaux sans avoir besoin de prédéfinis.
Changement de langue : la traduction vocale multilingue permet de parler plusieurs langues au cours d’une même session et de les traduire toutes dans la même langue cible. Il n’est pas nécessaire de redémarrer une session lorsque le langage d’entrée change ou d’autres actions par vous.

Fonctionnement

Interprète de voyage : la traduction vocale multilingue peut améliorer l’expérience des touristes visitant des destinations étrangères en leur fournissant des informations et une assistance dans leur langue préférée. Les services de conciergerie des hôtels, les visites guidées et les centres d’accueil des visiteurs peuvent utiliser cette technologie pour répondre à des besoins linguistiques divers.
Conférences internationales : la traduction vocale multilingue peut faciliter la communication entre les participants de différentes régions qui peuvent parler différentes langues en utilisant des sous-titres traduits en direct. Les participants peuvent parler dans leurs langues natives sans avoir à les spécifier, ce qui garantit une compréhension et une collaboration transparentes.
Réunions éducatives : Dans les salles de classe multiculturelles ou les environnements d’apprentissage en ligne, la traduction vocale multilingue peut favoriser la diversité linguistique des étudiants et des enseignants. Cela permet une communication et une participation transparentes sans avoir à spécifier la langue de chaque étudiant ou instructeur.

Procédure accès

Pour une présentation détaillée, visitez vue d’ensemble de la traduction vocale. En outre, vous pouvez faire référence aux exemples de code à comment traduire desvocales. Cette nouvelle fonctionnalité est entièrement prise en charge par toutes les versions du SDK à partir de la version 1.37.0.

Reconnaissance vocale en temps réel avec diarisation (Disponibilité générale)

La reconnaissance vocale en temps réel avec diarisation est désormais en disponibilité générale.

Vous pouvez créer des applications de reconnaissance vocale qui utilisent la diarisation pour distinguer les différents locuteurs qui participent à la conversation. Pour plus d’informations sur la diarisation en temps réel, consultez le guide de démarrage rapide de diarisation en temps réel .

Mise à jour du modèle de reconnaissance vocale

La reconnaissance vocale en temps réel a publié de nouveaux modèles avec des fonctionnalités bilingues. Le modèle en-IN prend désormais en charge les scénarios bilingues anglais et hindi et offre une meilleure précision. Les paramètres régionaux arabes (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) sont désormais équipés d’une prise en charge bilingue pour l’anglais, la précision améliorée et le support du centre d’appels.

La transcription par lot fournit des modèles avec une nouvelle architecture pour ces paramètres régionaux : es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, et zh-CN. Ces modèles améliorent considérablement la lisibilité et la reconnaissance des entités.

Version de mars 2024

Disponibilité générale (GA) de Whisper

Le modèle de reconnaissance vocale chuchoteur avec Azure AI Speech est désormais en disponibilité générale.

Découvrez Qu'est-ce que le modèle Whisper ? pour en savoir plus sur quand utiliser Azure AI Speech par rapport à Azure OpenAI Service.

Version de février 2024

Évaluation de la prononciation

L’évaluation de la prononciation Speech prend désormais en charge 23 langues en disponibilité générale (avec cinq nouveaux langages ajoutés), avec trois langues supplémentaires disponibles en préversion publique. Pour plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.

Liste d’expressions

Ajout de la prise en charge de la liste d’expressions pour les paramètres régionaux suivants : ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Version de novembre 2023

Présentation de la modélisation vocale bilingue.

Nous sommes ravis de dévoiler un ajout révolutionnaire à notre modélisation de la parole en temps réel : la modélisation vocale bilingue. Cette amélioration significative permet à notre modèle vocal de prendre en charge facilement des paires de langues, telles que l’anglais et l’espagnol, ainsi que l’anglais et le français. Cette fonctionnalité permet aux utilisateurs de changer de langue sans effort lors d’interactions en temps réel, ce qui marque un tournant dans notre engagement à améliorer les expériences de communication.

Principaux points forts :

Prise en charge bilingue : Avec notre dernière version, les utilisateurs peuvent passer facilement de l’anglais à l’espagnol ou de l’anglais au français pendant les interactions vocales en temps réel. Cette fonctionnalité est adaptée aux locuteurs bilingues qui passent fréquemment d’une langue à l’autre.
Amélioration de l’expérience utilisateur : Les interlocuteurs bilingues, que ce soit au travail, à la maison ou dans divers contextes sociaux, trouveront cette fonctionnalité extrêmement bénéfique. La capacité du modèle à comprendre l’anglais et l’espagnol et à y répondre en temps réel ouvre de nouvelles perspectives pour une communication efficace et fluide.

Utilisation :

Choisissez es-US (espagnol et anglais) ou fr-CA (français et anglais) lorsque vous appelez l’API Speech Service ou que vous l’essayez sur Speech Studio. N’hésitez pas à parler l’une ou l’autre langue ou à les mélanger : le modèle est conçu pour s’adapter dynamiquement et fournir des réponses précises et adaptées au contexte dans les deux langues.

Il est temps d’améliorer votre communication grâce à notre dernière version de fonctionnalités : une communication multilingue fluide au bout des doigts !

Mise à jour des modèles de reconnaissance vocale

Nous sommes heureux de présenter une mise à jour significative de nos modèles vocaux afin d’offrir une précision accrue, une lisibilité améliorée et une reconnaissance d’entités affinée. Cette mise à niveau s’accompagne d’une nouvelle structure robuste, renforcée par un jeu de données de formation étendu, assurant une nette amélioration des performances globales. Les nouveaux modèles publiés sont les suivants : en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE et he-IL.

Points forts :

Précision accrue grâce à la nouvelle structure de modèle : la structure de modèle redéfinie, associée à un jeu de données de formation plus riche, élève les niveaux de précision et promet une sortie vocale plus précise.
Meilleure lisibilité : notre dernier modèle améliore sensiblement la lisibilité, ce qui se traduit par de meilleurs résultats en termes de cohérence et de clarté du contenu parlé.
Reconnaissance d’entités avancée : la reconnaissance d’entités a fait l’objet d’une mise à niveau substantielle qui permet d’obtenir des résultats plus précis et nuancés.

Impacts potentiels : malgré ces progrès, il est essentiel de tenir compte des impacts potentiels :

Fonctionnalité de délai d’expiration de silence personnalisé : les utilisateurs qui utilisent un délai d’expiration de silence personnalisé, en particulier avec des paramètres faibles, risquent de rencontrer une segmentation excessive et des omissions potentielles de phrases contenant un seul mot.
Le nouveau modèle peut présenter des problèmes de compatibilité avec la fonctionnalité de préfixe de mot clé, et il est conseillé aux utilisateurs d’évaluer ses performances dans leurs applications spécifiques.
Réduction des marques de disfluence : les utilisateurs peuvent constater une réduction des marques de disfluence comme « ah » ou « euh » dans la sortie vocale.
Inexactitudes dans la durée de timestamp d’un mot : la durée de timestamp de certaines marques de disfluence peut être incorrecte. Il est donc nécessaire d’en tenir compte dans les applications qui reposent sur un timing précis.
Variance de la distribution des scores de confiance : les utilisateurs qui s’appuient sur les scores de confiance et les seuils associés doivent tenir compte de variations potentielles de la distribution et apporter les ajustements nécessaires pour obtenir des performances optimales.
L’amélioration de la précision de la caractéristique de liste d’expressions peut être affectée par la mauvaise reconnaissance de certaines expressions.

Nous vous encourageons à explorer ces améliorations et à prendre en considération les problèmes potentiels pour assurer une transition fluide. Comme toujours, vos commentaires sont essentiels pour affiner et faire progresser nos services.

Évaluation de la prononciation

L’évaluation de la prononciation vocale prend désormais en charge 18 langues en disponibilité générale, avec six langues supplémentaires disponibles en préversion publique. Pour plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.
Nous sommes heureux d’annoncer que l’évaluation de la prononciation introduit de nouvelles fonctionnalités à partir du 1er novembre 2023 : Prosodie, Grammaire, Vocabulaire et Rubrique. Ces améliorations visent à offrir une expérience d’apprentissage linguistique encore plus complète pour les évaluations de lecture et de parole. Effectuez une mise à niveau vers le kit de développement logiciel (SDK) version 1.35.0 ou ultérieure pour obtenir plus d’informations dans les articles Comment utiliser l’évaluation de la prononciation et Évaluation de la prononciation dans Speech Studio.

Version de septembre 2023

Préversion publique de Whisper

Azure AI Speech prend désormais en charge le modèle Whisper d’OpenAI via l’API de transcription par lots. Pour plus d’informations, consultez le guide Créer une transcription par lots.

Remarque

Azure OpenAI Service prend également en charge le modèle Whisper d’OpenAI pour la reconnaissance vocale avec une API REST synchrone. Pour en savoir plus, consultez le guide de démarrage rapide.

Découvrez Qu'est-ce que le modèle Whisper ? pour en savoir plus sur quand utiliser Azure AI Speech par rapport à Azure OpenAI Service.

API REST v3.2 de reconnaissance vocale – préversion publique

L’API REST de reconnaissance vocale v3.2 est en préversion. L’API REST de reconnaissance vocale v3.1 est en disponibilité générale. L’API REST de reconnaissance vocale v3.0 sera mise hors service le 1er avril 2026. Pour plus d’informations, consultez les guides de migration de l’API REST reconnaissance vocale v3.0 vers v3.1 et v3.1 vers v3.2.

Version d’août 2023

Nouveaux paramètres régionaux de reconnaissance vocale :

La reconnaissance vocale prend en charge deux nouveaux paramètres régionaux, comme indiqué dans le tableau suivant. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Language
`pa-IN`	Pendjabi (Inde)
`ur-IN`	Ourdou (Inde)

Évaluation de la prononciation

L’évaluation de la prononciation vocale prend désormais en charge 3 langues supplémentaires en disponibilité générale en anglais (Canada), anglais (Inde) et français (Canada), avec 3 langues supplémentaires disponibles en préversion. Pour plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.

Version de mai 2023

Évaluation de la prononciation

L’évaluation de la prononciation vocale prend désormais en charge 3 langues supplémentaires généralement disponibles en allemand (Allemagne), japonais (Japon) et espagnol (Mexique), avec 4 langues supplémentaires disponibles en préversion. Pour plus d’informations, consultez la liste complète des langues pour l’évaluation de la prononciation.
Vous pouvez désormais utiliser le niveau d’engagement Reconnaissance vocale standard pour l’évaluation de la prononciation sur toutes les régions publiques. Si vous achetez un niveau d’engagement pour la reconnaissance vocale standard, les dépenses d’évaluation de la prononciation sont destinées à respecter l’engagement. Consultez Tarification du niveau d’engagement.

Version de février 2023

Évaluation de la prononciation

L’évaluation de la prononciation Speech prend désormais en charge 5 langues supplémentaires généralement disponibles en anglais (Royaume-Uni), anglais (Australie), Français (France), espagnol (Espagne) et chinois (mandarin, simplifié), avec d’autres langues disponibles en préversion.
Ajout d’exemple de code montrant comment utiliser l’évaluation de la prononciation en mode de diffusion en continu dans votre propre application.
- C# : Consultez cet exemple de code.
- C++ : Consultez cet exemple de code.
- Java : Consultez cet exemple de code.
- javascript : Consultez l’exemple de code.
- Objective-C : Consultez cet exemple de code.
- Python : Consultez cet exemple de code.
- Swift : Consultez cet exemple de code.

Reconnaissance vocale personnalisée

La prise en charge de la transcription audio + marquée comme humaine est ajoutée pour les de-AT paramètres régionaux.

Version de janvier 2023

Reconnaissance vocale personnalisée

La prise en charge de la transcription audio + marquée comme humaine est ajoutée pour les paramètres régionaux supplémentaires : ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE et ja-JP.

La prise en charge de l’adaptation de texte structuré est ajoutée au paramètre régional de-AT.

Version de décembre 2022

API REST de reconnaissance vocale

L’API REST de reconnaissance vocale version 3.1 est en disponibilité générale. La version 3.0 de l’API REST de reconnaissance vocale va être mise hors service. Pour plus d’informations sur comment migrer, consultez le guide.

Version d’octobre 2022

Nouveaux paramètres régionaux de reconnaissance vocale

Ajout de la prise en charge de Malayalam (Inde) avec les paramètres régionaux ml-IN. Cliquez ici pour consulter la liste de toutes les langues.

Version de juillet 2022

Nouveaux paramètres régionaux de reconnaissance vocale :

Ajout de 7 nouveaux paramètres régionaux, comme indiqué dans le tableau suivant. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`bs-BA`	Bosniaque (Bosnie-Herzégovine)
`yue-CN`	Chinois (cantonais, simplifié)
`zh-CN-sichuan`	Chinois (mandarin du sud-ouest, simplifié)
`wuu-CN`	Chinois (Wu, simplifié)
`ps-AF`	Pachtou (Afghanistan)
`so-SO`	Somali (Somalie)
`cy-GB`	Gallois (Royaume-Uni)

Version de juin 2022

Nouveaux paramètres régionaux de reconnaissance vocale :

Ajout de 10 nouveaux paramètres régionaux, comme indiqué dans le tableau suivant. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`sq-AL`	Albanais (Albanie)
`hy-AM`	Arménien (Arménie)
`az-AZ`	Azerbaïdjanais (Azerbaïdjan)
`eu-ES`	Basque
`gl-ES`	Galicien
`ka-GE`	Géorgien (Géorgie)
`it-CH`	Italien (Suisse)
`kk-KZ`	Kazakh (Kazakhstan)
`mn-MN`	Mongol (Mongolie)
`ne-NP`	Népalais (Népal)

Version d’avril 2022

Nouveaux paramètres régionaux de reconnaissance vocale :

Vous trouverez ci-dessous une liste des nouvelles langues. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`bn-IN`	Bengali (India)

Version de janvier 2022

Nouveaux paramètres régionaux de reconnaissance vocale :

Vous trouverez ci-dessous une liste des nouvelles langues. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`af-ZA`	Afrikaans (Afrique du Sud)
`am-ET`	Amharique (Éthiopie)
`de-CH`	Allemand (Suisse)
`fr-BE`	Français (Belgique)
`is-IS`	Islandais (Islande)
`jv-ID`	Javanais (Indonésie)
`km-KH`	Khmer (Cambodge)
`kn-IN`	Kannada (Inde)
`lo-LA`	Lao (Laos)
`mk-MK`	Macédonien (Macédoine du Nord)
`my-MM`	Birman (Birmanie)
`nl-BE`	Néerlandais (Belgique)
`si-LK`	Cingalais (Sri Lanka)
`sr-RS`	Serbe (Serbie)
`sw-TZ`	Swahili (Tanzanie)
`uk-UA`	Ukrainien (Ukraine)
`uz-UZ`	Ouzbek (Ouzbékistan)
`zu-ZA`	Zoulou (Afrique du Sud)

Version de juillet 2021

Nouveaux paramètres régionaux de reconnaissance vocale :

Vous trouverez ci-dessous une liste des nouvelles langues. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`ar-DZ`	Arabe (Algérie)
`ar-LY`	Arabe (Libye)
`ar-MA`	Arabe (Maroc)
`ar-TN`	Arabe (Tunisie)
`ar-YE`	Arabe (Yémen)
`bg-BG`	Bulgare (Bulgarie)
`el-GR`	Grec (Grèce)
`et-EE`	Estonien (Estonie)
`fa-IR`	Persan (Iran)
`ga-IE`	Irlandais (Irlande)
`hr-HR`	Croate (Croatie)
`lt-LT`	Lituanien (Lituanie)
`lv-LV`	Letton (Lettonie)
`mt-MT`	Maltais (Malte)
`ro-RO`	Roumain (Roumanie)
`sk-SK`	Slovaque (Slovaquie)
`sl-SI`	Slovène (Slovénie)
`sw-KE`	Swahili (Kenya)

Version de janvier 2021

Nouveaux paramètres régionaux de reconnaissance vocale :

Vous trouverez ci-dessous une liste des nouvelles langues. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`ar-AE`	Arabe (Émirats arabes unis)
`ar-IL`	Arabe (Israël)
`ar-IQ`	Arabe (Irak)
`ar-OM`	Arabe (Oman)
`ar-PS`	Arabe (Autorité palestinienne)
`de-AT`	Allemand (Autriche)
`en-GH`	Anglais (Ghana)
`en-KE`	Anglais (Kenya)
`en-NG`	Anglais (Nigeria)
`en-TZ`	Anglais (Tanzanie)
`es-GQ`	Espagnol (Guinée équatoriale)
`fil-PH`	Filipino (Philippines)
`fr-CH`	Français (Suisse)
`he-IL`	Hébreu (Israël)
`id-ID`	Indonésien (Indonésie)
`ms-MY`	Malais (Malaisie)
`vi-VN`	Vietnamien (Vietnam)

Version d’août 2020

Nouveaux paramètres régionaux de reconnaissance vocale :

Reconnaissance vocale pour 26 nouveaux paramètres régionaux en août : 2 langues européennes (cs-CZ et hu-HU), 5 langues anglophones, et 19 langues hispaniques couvrant la plupart des pays/régions d’Amérique du Sud. Vous trouverez ci-dessous une liste des nouvelles langues. Cliquez ici pour consulter la liste de toutes les langues.

Paramètres régionaux	Langage
`cs-CZ`	Tchèque (République tchèque)
`en-HK`	Anglais (Région administrative spéciale de Hong Kong)
`en-IE`	Anglais (Irlande)
`en-PH`	Anglais (Philippines)
`en-SG`	Anglais (Singapour)
`en-ZA`	Anglais (Afrique du Sud)
`es-AR`	Espagnol (Argentine)
`es-BO`	Espagnol (Bolivie)
`es-CL`	Espagnol (Chili)
`es-CO`	Espagnol (Colombie)
`es-CR`	Espagnol (Costa Rica)
`es-CU`	Espagnol (Cuba)
`es-DO`	Espagnol (République dominicaine)
`es-EC`	Espagnol (Équateur)
`es-GT`	Espagnol (Guatemala)
`es-HN`	Espagnol (Honduras)
`es-NI`	Espagnol (Nicaragua)
`es-PA`	Espagnol (Panama)
`es-PE`	Espagnol (Pérou)
`es-PR`	Espagnol (Porto Rico)
`es-PY`	Espagnol (Paraguay)
`es-SV`	Espagnol (Salvador)
`es-US`	Espagnol (États-Unis)
`es-UY`	Espagnol (Uruguay)
`es-VE`	Espagnol (Venezuela)
`hu-HU`	Hongrois (Hongrie)

Version d’octobre 2024

Ajout de la prise en charge des dernières versions du modèle :

Identification de la langue parlée 1.16.0
Synthèse vocale neuronale 3.5.0
- Introduction de en-us-ariacpuneural comme alias pour en-us-jessacpuneural
- Mise à jour de la version du moteur back-end de synthèse vocale
Reconnaissance vocale 4.10.0
- Prise en charge de la restauration des paramètres régionaux uk-UA
- Correction des paramètres de silence pour le fonctionnement avec de longues périodes de silence dans l’audio
- Remplacement des modèles déconseillés : cs-CZ, da-DK, en-GB, fr-CA, hu-HU, it-CH, tr-TR, zh-CN-sichuan
Reconnaissance vocale personnalisée 4.10.0

Version de septembre 2024

Ajout de la prise en charge des dernières versions du modèle :

Identification de la langue parlée 1.15.0
- Atténuer des vulnérabilités
Synthèse vocale neuronale 3.4.0
- Nouvelles voix : en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- Atténuer des vulnérabilités
Reconnaissance vocale 4.9.0
- Nouveaux paramètres régionaux : ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- Atténuer des vulnérabilités
- Mise à jour de modèles déconseillés
Reconnaissance vocale personnalisée 4.9.0
- Atténuer des vulnérabilités

Version d’août 2024

Ajout de la prise en charge des dernières versions du modèle :

Identification de langue parlée 1.14.0
- Mise à niveau .NET 8.0
- Atténuer des vulnérabilités
Synthèse vocale neuronale 3.3.0
- Mise à niveau .NET 8.0
- Atténuer des vulnérabilités
Reconnaissance vocale 4.8.0
- Mise à niveau .NET 8.0
- Atténuer des vulnérabilités
- Mise à niveau du moteur de reconnaissance
- Corriger l’erreur où PropertyId.Speech_SegmentationSilenceTimeoutMs a été ignoré.
- Mise à jour de modèles déconseillés
- Supprimer les paramètres régionaux uk-UA

Version de février 2024

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 4.6.0
Reconnaissance vocale 4.6.0
Synthèse vocale neuronale 3.1.0

Passez les composants de reconnaissance vocale à la version la plus récente. Passez tous les modèles de paramètres régionaux es à la version la plus récente. Augmentez la mémoire tampon de transformation média pour les cas d'usage de reconnaissance vocale.

Version 2023-Novembre

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 4.5.0
Reconnaissance vocale 4.5.0
Synthèse vocale neuronale 2.19.0

Version d’octobre 2023

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 4.4.0
Reconnaissance vocale 4.4.0
Synthèse vocale neuronale 2.18.0

Corrigez un ensemble de problèmes de vulnérabilité à haut risque.

Supprimez les journaux redondants dans les conteneurs.

Mettez à niveau le composant multimédia interne vers la dernière version.

Ajout de la prise en charge de la voixen-IN-NeerjaNeural.

Version septembre 2023

Ajout de la prise en charge des dernières versions du modèle :

Identification de la langue parlée 1.12.0
Reconnaissance vocale personnalisée 4.3.0
Reconnaissance vocale 4.3.0
Synthèse vocale neuronale 2.17.0

Mettez à niveau la reconnaissance vocale personnalisée et la reconnaissance vocale vers la dernière infrastructure.

Correction des problèmes de vulnérabilité.

Ajout de la prise en charge de la voixar-AE-FatimaNeural.

version de juillet 2023

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 4.1.0
Reconnaissance vocale 4.1.0
Synthèse vocale neuronale 2.15.0

Correction du problème d’exécution d’un conteneur de reconnaissance vocale par le biais d’options de montage docker avec des fichiers de modèle personnalisés locaux.

Correction du problème, dans certains cas, de non-affichage de l’événement RECOGNIZING en réponse par le biais du Kit de développement logiciel (SDK) Speech.

Correction des problèmes de vulnérabilité.

Version de juin 2023

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 4.0.0
Reconnaissance vocale 4.0.0
Synthèse vocale neuronale 2.14.0

Mise à niveau des images de reconnaissance vocale locales vers .NET 6.0

Mise à niveau des modèles d'affichage pour les paramètres régionaux comprenant en-us, ar-eg, ar-bh, ja-jp, ko-kr et davantage.

Mettez à niveau le composant conteneur de reconnaissance vocale pour résoudre les problèmes de vulnérabilité.

Ajout de la prise en charge des voix des paramètres régionaux de-DE-AmalaNeural,de-AT-IngridNeural,de-AT-JonasNeural, et en-US-JennyMultilingualNeural

Version de mai 2023

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.14.0
Reconnaissance vocale 3.14.0
Synthèse vocale neuronale 2.13.0

Correction du problème de ponctuation he-IL

Correction des problèmes de vulnérabilité

Ajouter de nouvelles voix de paramètres régionaux en-US-MichelleNeural et es-MX-CandelaNeural

Version d’avril 2023

Mises à jour de sécurité

Correction des problèmes de vulnérabilité

Version de mars 2023

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.12.0
Reconnaissance vocale 3.12.0
Identification de la langue parlée 1.11.0
Synthèse vocale neuronale 2.11.0

Correction des problèmes de vulnérabilité

Correction du problème de mise en majuscules de tr-TR

Mise à niveau des modèles d’affichage de reconnaissance vocale en-US

Ajout de la prise en charge de la voix des paramètres régionaux de synthèse vocale neuronale prédéfinie ar-AE-HamdanNeural

Version de février 2023

Nouvelles versions de conteneur

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.11.0
Reconnaissance vocale 3.11.0
Synthèse vocale neuronale 2.10.0

Correction des problèmes de vulnérabilité

Mise à niveau régulière pour les modèles vocaux

Ajoutez de nouveaux paramètres régionaux Abraic :

ar-IL
ar-PS

Mettre à niveau les modèles d’affichage hébreu et turc

Version de janvier 2023

Nouvelles versions de conteneur

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.10.0
Reconnaissance vocale 3.10.0
Synthèse vocale neuronale 2.9.0

Résoudre le problème du mode Hypothèse

Résoudre le problème de proxy HTTP

Mode déconnecté du conteneur de reconnaissance vocale personnalisée

Ajouter la prise en charge des conteneurs CNV déconnectés à TTS Frontend

Ajoutez la prise en charge de ces voix régionales :

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Version de décembre 2022

Nouvelles versions de conteneur

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.9.0
Reconnaissance vocale 3.9.0
Synthèse vocale neuronale 2.8.0

Correction du problème ipv4/ipv6

Correction du problème de vulnérabilité

Version de novembre 2022

Nouvelles versions de conteneur

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.8.0
Reconnaissance vocale 3.8.0
Synthèse vocale neuronale 2.7.0

Version d’octobre 2022

Nouvelles versions de conteneur

Ajout de la prise en charge des dernières versions du modèle :

Reconnaissance vocale personnalisée 3.7.0
Reconnaissance vocale 3.7.0
Synthèse vocale neuronale 2.6.0

Version septembre 2022

Reconnaissance vocale 3.6.0-amd64

Ajouter la charge des dernières versions du modèle.

Ajoutez la prise en charge de ces paramètres régionaux :

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
yue-cn
zh-cn-sichuan

Mises à jour mensuelles régulières, y compris les mises à niveau de sécurité et les correctifs de vulnérabilité.

Reconnaissance vocale personnalisée 3.6.0-amd64

Mises à jour mensuelles régulières, y compris les mises à niveau de sécurité et les correctifs de vulnérabilité.

Synthèse vocale neuronale v2.5.0

Ajoutez la prise en charge de ces voix neuronales prédéfinies :

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Mises à jour mensuelles régulières, y compris les mises à niveau de sécurité et les correctifs de vulnérabilité.

Version de mai 2022

Conteneur Speech-language-detection v1.9.0-amd64-preview

Correctifs de bogues pour la détection de la langue vocale.

Version de mars 2022

Conteneur de reconnaissance vocale personnalisée v3.1.0

Ajoutez de la prise en charge de l’obtention de modèles d’affichage.

Version de janvier 2022

Conteneur de reconnaissance vocale v3.0.0

Ajoutez la prise en charge de l’utilisation de conteneurs dans les environnements déconnectés.

Conteneur de reconnaissance vocale v2.18.0

Mises à jour mensuelles régulières, y compris les mises à niveau de sécurité et les correctifs de vulnérabilité.

Conteneur de synthèse vocale neuronale v1.12.0

Ajoutez la prise en charge de ces voix neuronales prédéfinies : am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural et so-so-ubaxneural.

Mises à jour mensuelles régulières, y compris les mises à niveau de sécurité et les correctifs de vulnérabilité.

Partager via

Nouveautés d’Azure AI Speech

Temps forts récents

Notes de publication

Version de novembre 2024

Kit de développement logiciel (SDK) Speech 1.41.1 : version d’octobre 2024

Nouvelles fonctionnalités

Correctifs de bogues

Dernières modifications

SDK Speech 1.40: 2024 : version 2024-August

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.38.0 : version de juin 2024

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.37.0 : version d’avril 2024

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.36.0 : version de mars 2024

Nouvelles fonctionnalités

Résolution des bogues

Exemples

SDK Speech 1.35.0 : version de février 2024

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Sdk Speech 1.34.1 : version de janvier 2024

Dernières modifications

Nouvelles fonctionnalités

Résolution des bogues

Kit de développement logiciel (SDK) Speech 1.34.0 : version de novembre 2023

Dernières modifications

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Interface CLI Speech 1.34.0 : version de novembre 2023

Nouvelles fonctionnalités

Résolution des bogues

Kit de développement logiciel (SDK) Speech 1.33.0 : version d’octobre 2023

Avis de modification cassant

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Interface de ligne de commande Speech 1.33.0 : version d’octobre 2023

Nouvelles fonctionnalités

Résolution des bogues

Kit de développement logiciel (SDK) Speech 1.32.1 : version de septembre 2023

Résolution des bogues

Exemples

SDK Speech 1.31.0 : version d’août 2023

Nouvelles fonctionnalités

Dernières modifications

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.30.0 : version de juillet 2023

Nouvelles fonctionnalités

Résolution des bogues

Autres remarques

Exemples

Kit de développement logiciel (SDK) Speech 1.29.0 : version de juin 2023

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.28.0 : version de mai 2023

Modification avec rupture

Nouvelles fonctionnalités

Résolution des bogues

Exemples

Kit de développement logiciel (SDK) Speech 1.27.0 : version d’avril 2023

Notification concernant les modifications à venir

Nouvelles fonctionnalités

Résolution des bogues

Exemples

SDK Speech 1.26.0 : version de mars 2023

Changements cassants

Nouvelles fonctionnalités

Résolution des bogues