Nouveautés d’Azure AI Speech
Azure AI Speech est mis à jour en continu. Pour vous informer des développements récents, cet article vous fournit des informations sur les nouvelles versions et fonctionnalités.
Temps forts récents
- La traduction rapide est désormais disponible en préversion publique. La transcription rapide vous permet de transcrire un fichier audio en texte avec précision et de manière synchrone, et prend en charge la séparation des locuteurs pour reconnaître et séparer plusieurs locuteurs sur l’audio monocanal. Elle peut transcrire l’audio beaucoup plus rapidement que la durée de l’audio en question. Pour plus d’informations, consultez le guide de l’API de transcription rapide.
- La traduction vidéo est désormais disponible dans le service Azure AI Speech. Pour plus d’informations, consultez Qu’est-ce que la traduction vidéo ?.
- La voix personnelle est désormais en disponibilité générale. Pour plus d’informations, consultez Qu’est-ce que la voix personnelle ?.
- Le service Azure AI Speech prend en charge les voix de synthèse vocale OpenAI. Pour plus d’informations, consultez Que sont les voix de synthèse vocale OpenAI ?.
- L’API de voix personnalisée est disponible pour créer et gérer des modèles vocaux neuraux personnalisés professionnels et personnels.
Notes de publication
Choisir un service ou une ressource
- Kit SDK
- INTERFACE DE LIGNE DE COMMANDE
- Service de synthèse vocale
- Service de reconnaissance vocale
- Containers
SDK Speech 1.40: 2024 : version 2024-August
Remarque
La version 1.39.0 du SDK Speech était une version interne et n’est pas manquante.
Nouvelles fonctionnalités
- Ajout de la prise en charge de la diffusion en continu de l’audio compressé
G.722
dans la reconnaissance vocale. - Ajout de la prise en charge des paramètres de hauteur, de débit et de volume dans la diffusion en continu de texte d’entrée dans la synthèse vocale.
- Ajout de la prise en charge de diffusion en continu de texte d’entrée de voix personnelle en introduisant
PersonalVoiceSynthesisRequest
dans la synthèse vocale. Cette API est en préversion et est susceptible de changer dans les versions ultérieures. - Ajout de la prise en charge de la diarisation des résultats intermédiaires lorsque
ConversationTranscriber
est utilisé. - Suppression de la prise en charge de CentOS/RHEL 7 en raison de la fin du service de CentOS 7 et de la fin du support de maintenance 2 de RHEL 7.
- L’utilisation de modèles vocaux incorporés nécessite désormais une licence de modèle au lieu d’une clé de modèle. Si vous êtes un client Speech incorporé existant et que vous souhaitez effectuer une mise à niveau, contactez votre support technique chez Microsoft pour plus d’informations sur les mises à jour de modèle.
Résolution des bogues
- Fichiers binaires du SDK Speech générés pour Windows avec l’indicateur _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR comme atténuation du problème de runtime Visual C++ Violation d’accès avec std::mutex::lock après la mise à niveau vers VS 2022 version 17.10.0 – Developer Community (visualstudio.com). Les applications Windows C++ utilisant le SDK Speech peuvent avoir besoin d’appliquer le même indicateur de configuration de build si leur code utilise std::mutex (voir les détails dans le problème lié).
- Correction de la détection OpenSSL 3.x qui ne fonctionnait pas sur Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Correction du problème qui se produisait lors du déploiement d’une application UWP, où les bibliothèques et le modèle du package NuGet MAS ne se copiaient pas à l’emplacement de déploiement.
- Correction d’un conflit de fournisseur de contenu dans les packages Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Correction des options de post-traitement qui ne s’appliquaient pas aux résultats de la reconnaissance vocale intermédiaire.
- Correction de l’avertissement .NET 8 concernant les identificateurs de runtime spécifiques à une distribution (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Exemples
- Mise à jour des exemples de voix incorporés pour utiliser une licence de modèle au lieu d’une clé.
Kit de développement logiciel (SDK) Speech 1.38.0 : version de juin 2024
Nouvelles fonctionnalités
- Mettre à niveau la configuration requise pour la plateforme Linux du Kit de développement logiciel (SDK) Speech :
- La nouvelle base de référence minimale est Ubuntu 20.04 LTS ou compatible avec
glibc
2.31 ou version ultérieure. - Les fichiers binaires pour Linux x86 sont supprimés conformément à la prise en charge de la plateforme Ubuntu 20.04.
- Notez que les RHEL/CentOS 7 restent pris en charge jusqu’au 30 juin (la fin de CentOS 7 et la fin du support de maintenance RHEL 7 2). Les fichiers binaires pour eux seront supprimés dans la version 1.39.0 du Kit de développement logiciel (SDK) Speech.
- La nouvelle base de référence minimale est Ubuntu 20.04 LTS ou compatible avec
- Ajoutez la prise en charge d’OpenSSL 3 sur Linux.
- Ajoutez la prise en charge du format de sortie audio g722-16khz-64kbps avec synthétiseur vocal.
- Ajoutez la prise en charge de l’envoi de messages via un objet de connexion avec synthétiseur vocal.
- Ajoutez des API Start/StopKeywordRecognition dans Objective-C et Swift.
- Ajoutez l’API pour sélectionner une catégorie de modèle de traduction personnalisée.
- Mettez à jour l’utilisation de GStreamer avec le synthétiseur vocal.
Résolution des bogues
- Correction de l’erreur « Taille du message Websocket ne peut pas dépasser 65,536 octets » pendant Start/StopKeywordRecognition.
- Corrigez une erreur de segmentation Python pendant la synthèse vocale.
Exemples
- Mettez à jour des exemples C# pour utiliser .NET 6.0 par défaut.
Kit de développement logiciel (SDK) Speech 1.37.0 : version d’avril 2024
Nouvelles fonctionnalités
- Ajoutez la prise en charge de la diffusion en continu de texte d’entrée dans la synthèse vocale.
- Modifiez la voix de synthèse vocale par défaut en-US-AvaMultilingualNeural.
- Mettez à jour les builds Android pour utiliser OpenSSL 3.x.
Résolution des bogues
- Corrigez les incidents occasionnels de JVM pendant la suppression de SpeechRecognizer lors de l’utilisation de MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Améliorez la détection des appareils audio par défaut sur Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Exemples
- Mis à jour pour les nouvelles fonctionnalités.
Kit de développement logiciel (SDK) Speech 1.36.0 : version de mars 2024
Nouvelles fonctionnalités
- Ajout de la prise en charge de l’identification de la langue dans la traduction multilingue sur les points de terminaison v2 en utilisant AutoDetectSourceLanguageConfig::FromOpenRange().
Résolution des bogues
Correction de l’événement SynthesisCanceled qui n’est pas déclenché si l’arrêt est appelé lors de l’événement SynthesisStarted.
Correction d’un problème de bruit dans la synthèse vocale incorporée.
Correction d’un incident dans la reconnaissance vocale incorporée lors de l’exécution de plusieurs modules de reconnaissance en parallèle.
Correction du paramètre du mode de détection d’expressions sur les points de terminaison v1/v2.
Corrections de différents problèmes liés à la pile audio Microsoft.
Exemples
- Mises à jour de nouvelles fonctionnalités.
SDK Speech 1.35.0 : version de février 2024
Nouvelles fonctionnalités
- Remplacement de la voix par défaut de la synthèse vocale en-US-JennyMultilinguelNeural par en-US-AvaNeural.
- Prise en charge des détails au niveau du mot dans les résultats de traduction vocale incorporés à l’aide du format de sortie détaillé.
Résolution des bogues
- Corrige l’API getter de position AudioDataStream dans Python.
- Corrige la traduction vocale à l’aide de points de terminaison v2 sans détection de langue.
- Correction d’un incident aléatoire et des événements de limite de mots en double dans la synthèse vocale incorporée.
- Retourne un code d’erreur d’annulation correct pour une erreur de serveur interne sur les connexions WebSocket.
- Corrige l’échec de chargement de la bibliothèque FPIEProcessor.dll lorsque MAS est utilisé avec C#.
Exemples
- Mises à jour de mise en forme mineures pour les exemples de reconnaissance incorporée.
Sdk Speech 1.34.1 : version de janvier 2024
Dernières modifications
- Correctifs de bogues uniquement
Nouvelles fonctionnalités
- Correctifs de bogues uniquement
Résolution des bogues
- Correction de la régression introduite dans la version 1.34.0 où l’URL du point de terminaison de service a été construite avec des informations de paramètres régionaux incorrectes pour les utilisateurs dans plusieurs régions de Chine.
Kit de développement logiciel (SDK) Speech 1.34.0 : version de novembre 2023
Dernières modifications
SpeechRecognizer
est mis à jour pour utiliser un nouveau point de terminaison par défaut (ça veut dire, lors de la non spécification explicite d’URL) qui ne prend plus en charge les paramètres de chaîne de requête pour la plupart des propriétés. Au lieu de définir des paramètres de chaîne de requête directement avec ServicePropertyChannel.UriQueryParameter, veuillez utiliser les fonctions d’API correspondantes.
Nouvelles fonctionnalités
- Compatibilité avec .NET 8 (correctif pour https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, à l’exception de l’avertissement sur centos7-x64)
- Prise en charge des mesures de performances de message incorporées qui peuvent être utilisées pour évaluer la capacité d’un appareil à exécuter un message incorporé.
- Prise en charge de l’identification de langue source dans une traduction en plusieurs langues incorporée.
- Prise en charge de la reconnaissance vocale, de la synthèse vocale et de la traduction incorporées pour iOS et Swift/Objective-C mise en production dans la préversion.
- La prise en charge incorporée est fournie dans Cocoapod MicrosoftCognitiveServicesSpeechEmbedded-iOS.
Résolution des bogues
- Correctif pour la croissance doublée de la taille binaire du Kit de développement logiciel (SDK) iOS · Problème #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correctif pour Impossible d’obtenir des timestamps au niveau du mot pour l’API de reconnaissance vocale Azure · Problème #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correctif pour la phase de destruction DialogServiceConnector pour déconnecter correctement des événements. Ce problème entraînait des incidents de manière occasionnelle.
- Correctif pour une exception pendant la création d’un module de reconnaissance quand MAS était utilisé.
- FPIEProcessor.dll du package NuGet Microsoft.CognitiveServices.Speech.Extension.MAS pour Windows UWP x64 et ARM64 avait une dépendance sur des bibliothèques de runtime VC pour C++ natif. Le problème a été rectifié en mettant à jour la dépendance vers des bibliothèques correctes de runtime VC (pour UWP).
- Correctif pour les appels périodiques [MAS] vers recognizeOnceAsync aboutit à SPXERR_ALREADY_INITIALIZED lors de l’utilisation de MAS · Problème #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Correctif pour l’incident de reconnaissance vocale incorporée quand des listes d’expressions étaient utilisées.
Exemples
- Exemples iOS incorporés pour la reconnaissance vocale, la synthèse vocale et la traduction.
Interface CLI Speech 1.34.0 : version de novembre 2023
Nouvelles fonctionnalités
- Prise en charge de la sortie des événements de limite de mot lors de la synthèse vocale.
Résolution des bogues
- Mise à jour de la dépendance JMESPath vers la version la plus récente, améliore les évaluations de chaîne
Kit de développement logiciel (SDK) Speech 1.33.0 : version d’octobre 2023
Avis de modification cassant
- Le nouveau package NuGet ajouté pour Microsoft Audio Stack (MAS) est désormais requis pour être inclus par les applications qui utilisent MAS dans leurs fichiers de configuration de package.
Nouvelles fonctionnalités
- Ajout du nouveau package NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, qui offre des performances d’annulation d’écho améliorées lors de l’utilisation de Microsoft Audio Stack
- Évaluation de la prononciation : ajout de la prise en charge de l’évaluation de la prosodie et du contenu, qui permet d’évaluer le discours parlé en termes de prosodie, de vocabulaire, de grammaire et de sujet.
Résolution des bogues
- Correction des décalages de résultat de reconnaissance de mot clé afin qu’ils correspondent correctement au flux audio d’entrée depuis le début. Le correctif s’applique à la reconnaissance de mot clé autonome et à la reconnaissance vocale déclenchée par un mot clé.
- Correction de Synthesizer stopSpeaking qui ne retournait pas immédiatement La méthode SPXSpeechSynthesizer stopSpeaking() ne peut pas retourner immédiatement sur iOS 17 : problème n° 2081
- Correction du problème d’importation de Mac Catalyst sur la prise en charge du module Swift pour Mac Catalyst avec le Apple Silicon. Problème n° 1948
- JS : Le module AudioWorkletNode charge utilise désormais une URL approuvée, avec une solution de repli pour le navigateur CDN inclut.
- JS : Les fichiers de bibliothèque empaquetés ciblent désormais ES6 JS, avec la prise en charge de ES5 JS supprimée.
- JS : les événements intermédiaires pour le scénario de traduction ciblant le point de terminaison v2 sont gérés correctement
- JS : La propriété de langue pour TranslationRecognitionEventArgs est désormais définie pour les événements translation.hypothèse.
- Synthèse vocale : l’événement SynthesisCompleted est garanti d’être émis après tous les événements de métadonnées, de sorte qu’il peut être utilisé pour indiquer la fin des événements. Comment détecter quand les visèmes sont reçus complètement ? Problème n° 2093 Azure-Samples/cognitive-services-speech-sdk
Exemples
- Ajout d’un exemple pour illustrer le streaming MULAW à l’aide de Python)
- Correctif pour l’exemple NAudio de reconnaissance vocale
Interface de ligne de commande Speech 1.33.0 : version d’octobre 2023
Nouvelles fonctionnalités
- Prise en charge de la sortie des événements de limite de mot lors de la synthèse vocale.
Résolution des bogues
- aucun(e)
Kit de développement logiciel (SDK) Speech 1.32.1 : version de septembre 2023
Résolution des bogues
- Mise à jour des packages Android avec les derniers correctifs de sécurité d’OpenSSL1.1.1v
- JS : ajout de la propriété WebWorkerLoadType pour permettre le contournement du chargement de l’URL de données pour le travailleur en délai d’attente
- JS : déconnexion de la traduction des conversations après 10 minutes
- JS : le jeton d’authentification de la traduction des conversations se propage désormais à la connexion au service de traduction
Exemples
SDK Speech 1.31.0 : version d’août 2023
Nouvelles fonctionnalités
La prise en charge de la diarisation en temps réel est disponible en préversion publique avec le SDK Speech 1.31.0. Cette fonctionnalité est disponible dans les SDK suivants : C#, C++, Java, JavaScript, Python et Objective-C/Swift.
Événements de limite de mot et de visème de synthèse vocale synchronisés avec lecture audio
Dernières modifications
- L’ancien scénario de « transcription de conversation » est renommé « transcription de réunion ». Par exemple, utilisez
MeetingTranscriber
au lieu deConversationTranscriber
, et utilisezCreateMeetingAsync
au lieu deCreateConversationAsync
. Bien que les noms des objets et méthodes du SDK aient changé, le changement de nom ne modifie pas la fonctionnalité elle-même. Utilisez des objets de transcription de réunion pour la transcription de réunions avec des profils utilisateur et des signatures vocales. Consultez Transcription de réunions pour plus d'informations. Les objets et méthodes de « traduction de conversation » ne sont pas affectés par ces modifications. Vous pouvez toujours utiliser l’objetConversationTranslator
et ses méthodes pour les scénarios de traduction de réunion.
- Pour la diarisation en temps réel, un nouvel objet
ConversationTranscriber
est introduit. Le nouveau modèle objet de « transcription de conversation » et les modèles d’appel sont similaires à la reconnaissance continue avec l’objetSpeechRecognizer
. Une différence clé est que l’objetConversationTranscriber
est conçu pour être utilisé dans un scénario de conversation où vous souhaitez différencier plusieurs orateurs (diarisation). Les profils utilisateur et les signatures vocales ne sont pas applicables. Consultez Démarrage rapide Diarisation en temps réel pour plus d’informations.
Ce tableau présente les noms d’objets précédents et nouveaux pour la diarisation en temps réel et la transcription de réunion. Le nom du scénario se trouve dans la première colonne, les noms d’objets précédents se trouvent dans la deuxième colonne et les nouveaux noms d’objets se trouvent dans la troisième colonne.
Nom du scénario | Noms d’objets précédents | Nouveaux noms d’objets |
---|---|---|
Diarisation en temps réel | N/A | ConversationTranscriber |
Transcription de réunion | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Les objets Participant
, ParticipantChangedReason
et User
s’appliquent à la fois aux scénarios de transcription de réunion et de traduction de réunion.
2 L’objet Meeting
est nouveau et est utilisé avec l’objet MeetingTranscriber
.
Résolution des bogues
- Correction de la version minimale prise en charge de macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Correction d’un bogue dans l’évaluation de la prononciation :
- Résolution du problème des scores de justesse des phonèmes, pour qu’ils reflètent désormais avec précision uniquement le phonème spécifique mal prononcé. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Résolution d’un problème où la fonctionnalité Évaluation de la prononciation identifiait de manière inexacte comme erronées des prononciations tout à fait correctes, en particulier quand les mots pouvaient avoir plusieurs prononciations valides. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Exemples
CSharp
JavaScript
Kit de développement logiciel (SDK) Speech 1.30.0 : version de juillet 2023
Nouvelles fonctionnalités
- C++, C#, Java : ajout de la prise en charge de
DisplayWords
dans le résultat détaillé de la reconnaissance vocale incorporée. - Objective-C/Swift : ajout de la prise en charge de l’événement
ConnectionMessageReceived
dans Objective-C/Swift. - Objective-C/Swift : modèles améliorés d’identification de mot clé pour iOS. Cette modification a augmenté la taille de certains packages contenant des fichiers binaires iOS (comme NuGet, XCFramework). Nous travaillons à la réduction de la taille pour les prochaines versions.
Résolution des bogues
- Correction d’une fuite de mémoire lors de l’utilisation du module de reconnaissance vocale avec PhraseListGrammar, comme signalé par un client (problème GitHub).
- Correction d’un blocage dans l’API de connexion ouverte de la synthèse vocale (TTS).
Autres remarques
- Java : certaines méthodes d’API Java
public
utilisées en interne ont été modifiées en packageinternal
,protected
ouprivate
. Cette modification ne devrait pas avoir d’effet sur les développeurs, car nous ne nous attendons pas à ce que les applications les utilisent. Noté ici pour la transparence.
Exemples
- Nouveaux exemples d’évaluation de la prononciation sur la façon de spécifier une langue d’apprentissage dans votre application
- C# : Consultez cet exemple de code.
- C++ : Consultez cet exemple de code.
- JavaScript : Consultez l’exemple de code.
- Objective-C : Consultez cet exemple de code.
- Python : Consultez cet exemple de code.
- Swift : Consultez cet exemple de code.
Kit de développement logiciel (SDK) Speech 1.29.0 : version de juin 2023
Nouvelles fonctionnalités
- C++, C#, Java : préversion des API de traduction vocale incorporée. Vous pouvez désormais effectuer une traduction vocale sans connexion cloud !
- JavaScript : LID (Continuous Language Identification) désormais activé pour la traduction vocale.
- JavaScript : contribution de la communauté pour l’ajout d’une
LocaleName
propriété à laVoiceInfo
classe. Merci à l’utilisateur GitHub shivsarthak pour la demande de tirage. - C++, C#, Java : ajout de la prise en charge du rééchantillonnage de la sortie incorporée de synthèse vocale (TTS) à un échantillonnage de 16 kHz à 48 kHz.
- Ajout de la prise en charge des
hi-IN
paramètres régionaux dans Intent Recognizer avec Simple Pattern Matching.
Résolution des bogues
- Correction d’un plantage provoqué par une condition de concurrence dans Speech Recognizer lors de la destruction d’objets, comme indiqué dans certains de nos tests Android
- Correction des interblocages possibles dans Intent Recognizer avec Simple Pattern Matcher
Exemples
- Nouveaux exemples de traduction vocale incorporée
Kit de développement logiciel (SDK) Speech 1.28.0 : version de mai 2023
Modification avec rupture
- Kit de développement logiciel (SDK) JavaScript : le protocole OCSP (Online Certificate Status Protocol) a été supprimé. Cela permet aux clients de mieux se conformer aux normes du navigateur et des nœuds pour la gestion des certificats. Les versions 1.28 et ultérieures n’incluront plus notre module OCSP personnalisé.
Nouvelles fonctionnalités
- La Reconnaissance vocale incorporée retourne désormais
NoMatchReason::EndSilenceTimeout
lorsqu’un délai d’expiration du silence se produit à la fin d’un énoncé. Cela correspond au comportement pendant une reconnaissance à l’aide du service de reconnaissance vocale en temps réel. - Kit de développement logiciel (SDK) JavaScript : définissez des propriétés sur
SpeechTranslationConfig
en tirant parti des valeurs d’énumérationPropertyId
.
Résolution des bogues
- C# sur Windows : corrigez des conditions de concurrence/interblocage éventuels dans une extension audio Windows. Dans des scénarios qui suppriment rapidement le renderer audio et utilisent également la méthode Synthesizer pour arrêter les paroles, l’événement sous-jacent n’était pas réinitialisé par arrêt et l’objet renderer pouvait en conséquence ne jamais être supprimé, tout en conservant potentiellement un verrou global pour la suppression, bloquant le thread dotnet GC.
Exemples
- Ajout d’un exemple de reconnaissance vocale incorporée pour MAUI.
- Mise à jour de l’exemple de message incorporé pour Android Java afin d’inclure la synthèse vocale.
Kit de développement logiciel (SDK) Speech 1.27.0 : version d’avril 2023
Notification concernant les modifications à venir
- Nous prévoyons de supprimer le protocole OCSP (Online Certificate Status Protocol) dans la prochaine version du Kit de développement logiciel (SDK) JavaScript. Cela permet aux clients de mieux se conformer aux normes du navigateur et des nœuds pour la gestion des certificats. La version 1.27 est la dernière version qui inclut notre module OCSP personnalisé.
Nouvelles fonctionnalités
- JavaScript : ajout de la prise en charge de l’entrée de microphone à partir du navigateur avec la vérification et l’identification de l’orateur.
- Reconnaissance vocale incorporée : mise à jour de la prise en charge du paramètre
PropertyId::Speech_SegmentationSilenceTimeoutMs
.
Résolution des bogues
- Général : mises à jour de la fiabilité dans la logique de reconnexion de service (tous les langages de programmation, à l’exception de JavaScript).
- Général : correction des conversions de chaînes faisant l’objet d’une fuite de mémoire sur Windows (tous les langages de programmation pertinents à l’exception de JavaScript).
- Reconnaissance vocale incorporée : correction des incidents dans la reconnaissance vocale en français lors de l’utilisation de certaines entrées de liste grammaticale.
- Documentation du code source : corrections apportées aux commentaires de la documentation de référence du Kit de développement logiciel (SDK) relatifs à la journalisation audio sur le service.
- Reconnaissance de l’intention : correction des priorités de la correspondance de modèle liées aux entités de liste.
Exemples
- Gérer correctement l’échec d’authentification dans l’exemple C# Transcription de conversation (CTS).
- Ajout d’un exemple d’évaluation de la prononciation dans la diffusion en continu pour Python, JavaScript, Objective-C et Swift.
SDK Speech 1.26.0 : version de mars 2023
Changements cassants
- Le Bitcode a été désactivé dans toutes les cibles iOS des packages suivants : Cocoapod avec xcframework, NuGet (pour Xamarin et MAUI) et Unity. Cette modification est due à la dépréciation d’Apple de la prise en charge de Bitcode à partir de Xcode 14 et version ultérieure. Cela signifie également que si vous utilisez la version Xcode 13 ou que vous avez explicitement activé le Bitcode sur votre application avec le SDK Speech, vous pouvez rencontrer une erreur indiquant que « le framework ne contient pas de Bitcode et vous devez le recréer ». Pour résoudre ce problème, assurez-vous que le bitcode de vos cibles est désactivé.
- La cible de déploiement iOS minimale est passée à la version 11.0 dans cette version, ce qui signifie qu’armv7 HW n’est plus pris en charge.
Nouvelles fonctionnalités
- La reconnaissance vocale incorporée (sur appareil) prend désormais en charge la fréquence d’échantillonnage audio de 8 et 16 kHz (16 bits par échantillon, PCM mono).
- La synthèse vocale signale désormais les latences de connexion, de réseau et de service dans le résultat pour faciliter l’optimisation de la latence de bout en bout.
- Nouvelles règles pour départager lors d’une reconnaissance de l’intention avec une mise en correspondance simple de modèle. Le plus grand nombre d’octets de caractères correspondants l’emporte sur les correspondances de modèle avec un nombre d’octets de caractères inférieur. Exemple : Le modèle « Sélectionnez {quelque chose} en haut à droite » l’emporte sur « Sélectionnez {quelque chose} »
Résolution des bogues
- Synthèse vocale : correction d’un bogue où l’émoji n’est pas correct dans les événements de limite de mots.
- Reconnaissance de l’intention vocale avec compréhension du langage courant (CLU) :
- Les intentions du workflow Orchestrator CLU s’affichent désormais correctement.
- Le résultat JSON est maintenant disponible via l’ID de propriété
LanguageUnderstandingServiceResponse_JsonResult
.
- Reconnaissance vocale avec activation de mot clé : correction de l’audio manquant d’environ 150 ms après une reconnaissance de mot clé.
- Correctif de la build Speech SDK NuGet iOS MAUI Release, signalé par un client (problème GitHub)
Exemples
- Correctif de l’échantillon iOS Swift, signalé par un client (problème GitHub)
Kit de développement logiciel (SDK) Speech 1.25.0 : version de janvier 2023
Changements cassants
- Les API d’identification du langage (préversion) ont été simplifiées. Si vous effectuez une mise à jour vers le Kit de développement logiciel (SDK) Speech 1.25 et que vous voyez une erreur de génération, visitez la page Identification du langage pour en savoir plus sur la nouvelle propriété
SpeechServiceConnection_LanguageIdMode
. Cette propriété unique remplace les deux précédentesSpeechServiceConnection_SingleLanguageIdPriority
etSpeechServiceConnection_ContinuousLanguageIdPriority
. La hiérarchisation entre une faible latence et une précision élevée n’est plus nécessaire suite aux améliorations récentes du modèle. Maintenant, il vous suffit de sélectionner s’il faut exécuter au début ou en continu l’identification du langage lors de la reconnaissance ou de la traduction vocale continue.
Nouvelles fonctionnalités
- C#/C++/Java : le Kit de développement logiciel (SDK) Embedded Speech est désormais publié sous préversion publique fermée. Consultez la documentation Embedded Speech (préversion). Vous pouvez désormais faire de la reconnaissance vocale et de la synthèse vocale sur l’appareil lorsque la connectivité cloud est intermittente ou indisponible. Pris en charge sur les plateformes Android, Linux, macOS et Windows
- C# MAUI : prise en charge ajoutée pour les cibles iOS et Mac Catalyst dans le Kit de développement logiciel (SDK) Speech NuGet (problème client)
- Unity : l’architecture Android x86_64 ajoutée au package Unity (problème client)
- Go :
- Ajout de la prise en charge de la diffusion en continu directe ALAW/MULAW pour la reconnaissance vocale (problème client)
- Ajout de la prise en charge de PhraseListGrammar. Merci à l’utilisateur GitHub czkoko pour la contribution à la communauté !
- C#/C++ : la reconnaissance de l’intention prend désormais en charge les modèles de compréhension du langage courant en C++ et C# avec orchestration sur le service Microsoft
Résolution des bogues
- Corriger un blocage occasionnel dans KeywordRecognizer lorsque vous essayez de l’arrêter
- Python :
- Corriger l’obtention des résultats de l’évaluation de la prononciation lorsque
PronunciationAssessmentGranularity.FullText
est défini (problème client) - Corriger la propriété de genre pour les voix masculines non récupérées, lors de l’obtention de voix de synthèse vocale
- Corriger l’obtention des résultats de l’évaluation de la prononciation lorsque
- JavaScript
- Corriger l’analyse de certains fichiers WAV enregistrés sur des appareils iOS (problème client)
- Le KIT de développement logiciel (SDK) JS est désormais généré sans utiliser npm-force-resolutions (problème client)
- Conversation Translator définit désormais correctement le point de terminaison de service lors de l’utilisation d’une instance speechConfig créée à l’aide de SpeechConfig.fromEndpoint()
Exemples
Ajout d’exemples montrant comment utiliser Embedded Speech
Ajout d’un exemple de reconnaissance vocale pour MAUI
Consultez Référentiel d’exemples du Kit de développement logiciel (SDK) Speech.
Kit de développement logiciel (SDK) Speech 1.24.2 : version de novembre 2022
Nouvelles fonctionnalités
- Aucune nouvelle fonctionnalité, juste un correctif de moteur incorporé pour prendre en charge les nouveaux fichiers de modèle.
Résolution des bogues
- Tous les langages de programmation
- Correction d’un problème lié au chiffrement des modèles de reconnaissance vocale incorporés.
SDK Speech 1.24.1 : version de novembre 2022
Nouvelles fonctionnalités
- Packages publiés pour la préversion d’Embedded Speech. Consultez la rubrique https://aka.ms/embedded-speech (éventuellement en anglais) pour plus d'informations.
Résolution des bogues
- Tous les langages de programmation
- Corriger le blocage de la synthèse vocale incorporée quand la police de la voix n’est pas prise en charge
- La correction de stopSpeaking() ne peut pas arrêter la lecture sur Linux (#1686)
- Kit de développement logiciel (SDK) JavaScript
- Correction de la régression dans la façon dont le transcripteur de conversation a contrôlé l’audio.
- Java
- Publication temporaire des fichiers POM et Javadocs mis à jour dans Maven Central pour permettre au pipeline de documents de mettre à jour les documents de référence en ligne.
- Python
- Correction de la régression quand speak_text(ssml) retourne void (Python).
Kit de développement logiciel (SDK) Speech 1.24.0 : version d’octobre 2022
Nouvelles fonctionnalités
- Tous les langages de programmation : AMR-WB (16 kHz) ajoutées à la liste des formats de sortie audio de synthèse vocale pris en charge
- Python : Package ajouté pour Linux ARM64 pour les distributions Linux prises en charge.
- C#/C++/Java/Python : ajout de la prise en charge de la diffusion en continu en direct ALAW et MULAW vers le service Speech (en plus du flux PCM existant) en utilisant
AudioStreamWaveFormat
. - C# MAUI : package NuGet mis à jour pour prendre en charge les cibles Android pour les développeurs .NET MAUI (problème client)
- Mac : Ajout de XCframework distinct pour Mac, qui ne contient pas de fichiers iOS binaires. Cela offre une option pour les développeurs qui n’ont besoin que de fichiers binaires Mac à l’aide d’un package XCframework plus petit.
- Pile audio Microsoft (MAS) :
- Lorsque des angles de formation de faisceau sont spécifiés, le son provenant de l’extérieur de la plage spécifiée sera mieux supprimé.
- Environ 70 % de réduction de la taille de
libMicrosoft.CognitiveServices.Speech.extension.mas.so
Linux ARM32 et Linux ARM64.
- Reconnaissance de l’intention à l’aide de critères spéciaux :
- Ajouter la prise en charge de l’orthographe pour les langues
fr
,de
,es
,jp
- Ajout de la prise en charge de l’entier prédéfini pour la langue
es
.
- Ajouter la prise en charge de l’orthographe pour les langues
Résolution des bogues
- iOS : corriger l’erreur de synthèse vocale sur iOS 16 causée par une défaillance de décodage de contenu audio compressée (problème client).
- JavaScript :
- Corrigez le jeton d’authentification qui ne fonctionne pas lors de l’obtention de la liste vocale de synthèse vocale (problème client).
- Utilisez l’URL de données pour le chargement du rôle de travail (problème client).
- Créez un worklet de processeur audio uniquement lorsque AudioWorklet est pris en charge dans le navigateur (Problème client). Il s’agissait d’une contribution communautaire de William Wong. Merci William !
- Corrigez le rappel reconnu lorsque la réponse LUIS
connectionMessage
est vide (Problème client). - Définissez correctement le délai d’expiration de segmentation vocale.
- Reconnaissance de l’intention à l’aide de critères spéciaux :
- Les caractères non JSON à l’intérieur des modèles sont désormais chargés correctement.
- Corrigez le problème de suspension lors de l’appel
recognizeOnceAsync(text)
lors de la reconnaissance continue.
Le Kit de développement logiciel (SDK) Speech1.23.0: version de juillet 2022
Nouvelles fonctionnalités
- C#, C++, Java : ajout de la prise en charge des langages
zh-cn
etzh-hk
de la reconnaissance d’intention avec la correspondance de modèle. - C#: Ajout de la prise en charge des
AnyCPU
builds .NET Framework
Résolution des bogues
- Android : Correction de la vulnérabilité OpenSSL CVE-2022-2068 en mettant à jour OpenSSL vers 1.1.1q
- Python : Corriger un incident lors de l’utilisation de PushAudioInputStream
- iOS : Corriger « EXC_BAD_ACCESS : tentative de déréférencement du pointeur null » comme indiqué sur iOS (problème GitHub)
Kit de développement logiciel (SDK) Speech 1.22.0 : version de juin 2022
Nouvelles fonctionnalités
- Java : ajout de l’API IntentRecognitionResult pour getEntities(), applyLanguageModels() et recognizeOnceAsync(text) pour prendre en charge le moteur de « correspondance de modèle simple ».
- Unity : ajout de la prise en charge du package Mac M1 (Apple Silicon) pour Unity (problème GitHub)
- C# : ajout de la prise en charge de x86_64 pour Xamarin Android (problème GitHub)
- C# : mise à jour de la version minimale du .NET Framework vers la version v4.6.2 pour le package C# du Kit de développement logiciel (SDK) en raison du retrait de v4.6.1 (voir Stratégie de cycle de vie de composant Microsoft .NET Framework)
- Linux : ajout de la prise en charge de Debian 11 et d’Ubuntu 22.04 LTS. Ubuntu 22.04 LTS nécessite une installation manuelle de libssl1.1 en tant que package binaire à partir d’ici (par exemple, libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb ou version ultérieure pour x64) ou en opérant une compilation à partir de sources.
Résolution des bogues
- UWP : suppression de la dépendance OpenSSL des bibliothèques UWP et remplacement par les API Websocket et HTTP WinRT pour répondre à la conformité en matière de sécurité et réduire l’empreinte binaire.
- Mac : Correction du problème « Module MicrosoftCognitiveServicesSpeech introuvable » lors de l’utilisation de projets Swift ciblant une plateforme macOS
- Windows, Mac : correction d’un problème spécifique de la plateforme où des sources audio configurées via des propriétés pour diffuser en continu à un débit en temps réel prenaient parfois du retard et finissaient par dépasser leur capacité
Exemples (GitHub)
- C# : mise à jour des exemples .NET Framework pour utiliser v4.6.2
- Unity : correction de l’exemple d’assistant virtuel pour Android et UWP
- Unity : mise à jour des exemples Unity pour le version LTS de Unity 2020
SDK Speech 1.21.0 : version d’avril 2022
Nouvelles fonctionnalités
- Java et JavaScript : ajout de la prise en charge de l’identification de la langue en continu lors de l’utilisation de l’objet SpeechRecognizer
- JavaScript : Ajout d’API Diagnostics pour activer le niveau de journalisation de la console et la journalisation des fichiers (Nœud uniquement), afin d’aider Microsoft à résoudre les problèmes signalés par le client
- Python : Ajout de la prise en charge de la transcription de conversation
- Go : Ajout de la prise en charge de Reconnaissance de l’orateur
- C++ et C# : ajout de la prise en charge d’un groupe de mots nécessaire dans le module de reconnaissance de l’intention (critères spéciaux simples). Par exemple : « (définir|démarrer|commencer) un retardateur » où « définir », « démarrer » ou « commencer » doivent être présents pour que l’intention soit reconnue.
- Tous les langages de programmation, Synthèse vocale : Ajout de la propriété de durée dans les événements de limite de mot. Ajout de la prise en charge de la limite de ponctuation et de la limite de phrase
- Objective-C/Swift/Java : Ajout de résultats au niveau du mot sur l’objet résultat de l’évaluation de la prononciation (similaire à C#). L’application n’a plus besoin d’analyser une chaîne de résultat JSON pour obtenir des informations au niveau du mot (problème GitHub)
- Plateforme iOS : Ajout de la prise en charge expérimentale de l’architecture ARMv7
Résolution des bogues
- Plateforme iOS : Correctif permettant d’autoriser une génération pour la cible « Tout appareil iOS », lors de l’utilisation de CocoaPod (problème GitHub)
- Plateforme Android : La version OpenSSL a été mise à jour vers la version 1.1.1n pour corriger la vulnérabilité de sécurité CVE-2022-0778
- JavaScript : Résolution du problème où l’en-tête wav n’était pas mis à jour avec la taille du fichier (problème GitHub)
- JavaScript : Résolution du problème de désynchonisation de l’ID de requête dans les scénarios de traduction (problème GitHub)
- JavaScript : Résolution du problème lors de l’instanciation de SpeakerAudioDestination sans flux (problème GitHub]
- C++ : Correction des en-têtes C++ pour supprimer un avertissement lors de la compilation pour C++17 ou version ultérieure
Exemples GitHub
- Nouveaux exemples Java pour la reconnaissance vocale avec identification de la langue
- Nouveaux exemples Python et Java pour la transcription de conversation
- Nouvel exemple Go pour la reconnaissance de l’orateur
- Nouvel outil C++ et C# pour Windows qui énumère tous les appareils de capture audio et de rendu, afin de trouver leur ID d’appareil. Cet ID est nécessaire pour le SDK Speech si vous envisagez de capturer de l’audio ou de rendre de l’audio sur un appareil autre que par défaut.
SDK Speech 1.20.0 : version de janvier 2022
Nouvelles fonctionnalités
- Objective-C, Swift et Python : Ajout de la prise en charge de DialogServiceConnector, utilisé pour les scénarios de l’Assistant vocal.
- Python : Ajout de la prise en charge de Python 3.10. La prise en charge de Python 3.6 a été supprimée, par la fin de vie de Python 3.6.
- Unity : Le SDK Speech est désormais pris en charge pour les applications Unity sur Linux.
- C++, C# : IntentRecognizer à l’aide de critères spéciaux est désormais pris en charge en C#. En outre, les scénarios avec des entités personnalisées, des groupes facultatifs et des rôles d’entité sont désormais pris en charge en C++ et en C#.
- C++, C# : Amélioration de la journalisation des traces de diagnostics à l’aide des nouvelles classes FileLogger, MemoryLogger et EventLogger. Les journaux du SDK sont un outil important pour permettre à Microsoft de diagnostiquer les problèmes signalés par les clients. Ces nouvelles classes facilitent l’intégration des journaux SDK Speech à leur propre système de journalisation.
- Tous les langages de programmation : PronunciationAssessmentConfig a désormais des propriétés permettant de définir l’alphabet de phonèmes souhaité (IPA ou SAPI) et le nombre des N meilleurs phonèmes (en évitant de créer un fichier JSON de configuration comme indiqué dans le problème GitHub 1284). De plus, la sortie au niveau des syllabes est désormais prise en charge.
- Android, iOS et macOS (tous les langages de programmation) : GStreamer n’est plus nécessaire pour prendre en charge les réseaux à bande passante limitée. SpeechSynthesizer utilise désormais les fonctionnalités de décodage audio du système d’exploitation pour décoder le contenu audio compressé diffusé à partir du service de synthèse vocale.
- Tous les langages de programmation : SpeechSynthesizer prend désormais en charge trois nouveaux formats Opus de sortie brute (sans conteneur), qui sont largement utilisés dans les scénarios de streaming en direct.
- JavaScript : ajout de l’API getVoicesAsync() à SpeechSynthesizer pour récupérer la liste des voix de synthèse prises en charge (problème GitHub 1350)
- JavaScript : ajout de l’API getWaveFormat() à AudioStreamFormat pour la prise en charge des formats wave non PCM (problème GitHub 452)
- JavaScript : ajout des API getter/setter and mute()/unmute() de volume à SpeakerAudioDestination (problème GitHub 463)
Résolution des bogues
- C++, C#, Java, JavaScript, Objective-C et Swift : correctif supprimant un délai de 10 secondes lors de l’arrêt d’un module de reconnaissance vocale qui utilise un PushAudioInputStream. C’est pour le cas où aucun nouvel audio n’est poussé après l’appel de StopContinuousRecognition (problèmes GitHub 1318, 331)
- Unity sur Android et UWP : les métafichiers Unity ont été corrigés pour UWP, Android Arm64 et le sous-système Windows pour Android (WSA) Arm64 (problème GitHub 1360)
- iOS : la compilation de votre application du SDK Speech sur un appareil iOS lors de l’utilisation de CocoaPods est maintenant résolue (problème GitHub 1320)
- iOS : dans quelques rares cas, lorsque SpeechSynthesizer est configuré pour la sortie audio directement vers un orateur, la lecture s’arrêtait au début. Ce problème a été résolu.
- JavaScript : utilisez le processeur de script de secours pour l’entrée de microphone si aucune interface AudioWorkLet n’est trouvée (problème GitHub 455)
- JavaScript : ajoutez un protocole à l’agent pour atténuer le bogue trouvé avec l’intégration Sentry (problème GitHub 465)
Exemples GitHub
- Exemples C++, C#, Python et Java illustrant comment obtenir des résultats détaillés de la reconnaissance. Les détails incluent des résultats de reconnaissance alternatifs, un indice de confiance, une forme lexicale, une forme normalisée, une forme normalisée masquée, avec un minutage au niveau des mots pour chaque.
- Exemple iOS ajouté à l’aide d’AVFoundation comme source audio externe.
- Exemple Java ajouté pour montrer comment obtenir le format SRT (SubRip Text) à l’aide d’un événement WordBoundary.
- Exemples Android pour l’évaluation de la prononciation.
- C++, C# montrant l’utilisation des nouvelles classes de journalisation des diagnostics.
SDK Speech 1.19.0 : version de novembre 2021
Points forts
Le service Reconnaissance de l’orateur est désormais en disponibilité générale. Les API du Kit de développement logiciel (SDK) Speech sont disponibles en C++, C#, Java et JavaScript. Avec la Reconnaissance de l’orateur, vous pouvez vérifier et identifier avec précision les orateurs d’après leurs caractéristiques vocales uniques. Pour plus d’informations à ce sujet, consultez la documentation.
Nous avons abandonné la prise en charge d’Ubuntu 16.04 conjointement avec Azure DevOps et GitHub. Ubuntu 16.04 a atteint sa fin de vie en avril 2021. Migrez vos workflows Ubuntu 16.04 vers Ubuntu 18.04 ou version ultérieure.
La liaison OpenSSL dans les binaires Linux est désormais dynamique. La taille des binaires Linux a été réduite d’environ 50 %.
Ajout de la prise en charge du silicium Mac M1 ARM.
Nouvelles fonctionnalités
C++/C#/Java : ajout de nouvelles API pour activer la prise en charge du traitement audio pour les entrées vocales avec Microsoft Audio Stack. Documentation ici.
C++ : nouvelles API pour la reconnaissance d’intention afin de faciliter les critères spéciaux plus avancés. Cela comprend des entités Liste et Entier prédéfini, ainsi que la prise en charge du regroupement des intentions et des entités en tant que modèles (la documentation, les mises à jour et les exemples sont en cours de développement et seront publiés dans un avenir proche).
Mac : Prise en charge des puces silicium ARM64 (M1) pour packages NuGet, CocoaPod, Python et Java afin de résoudre le problème GitHub 1244.
iOS/Mac : les binaires iOS et macOS sont maintenant empaquetés dans xcframework afin de résoudre le problème GitHub 919.
iOS/Mac : prise en charge de Mac Catalyst afin de résoudre le problème GitHub 1171.
Linux : nouveau package tar ajouté pour CentOS7 À propos du SDK Speech. Le package Linux .tar contient maintenant des bibliothèques spécifiques pour RHEL/CentOS 7 dans
lib/centos7-x64
. Les bibliothèques du SDK Speech dans lib/x64 sont toujours applicables à toutes les autres distributions Linux x64 prises en charge (notamment RHEL/CentOS 8) et ne fonctionneront pas sur RHEL/CentOS 7.JavaScript : les API VoiceProfile et SpeakerRecognizer sont désormais asynchrones/pouvant être attendues.
JavaScript : ajout de la prise en charge pour les régions Azure du gouvernement des États-Unis.
Windows : ajout de la prise en charge de la lecture sur la plateforme Windows universelle (UWP).
Résolution des bogues
Android : mise à jour de sécurité OpenSSL (mise à jour vers la version 1.1.1 l) pour les packages Android.
Python : résolution d’un bogue qui provoquait l’échec de la sélection du périphérique haut-parleur sur Python.
Core : reconnexion automatique en cas d’échec d’une tentative de connexion.
iOS : la compression audio est désactivée sur les packages iOS en raison d’une instabilité et de problèmes de génération bitcode lors de l’utilisation de GStreamer. Pour plus de détails, consultez le problème GitHub 1209.
Exemples GitHub
Mac/iOS : mise à jour des exemples et des guides de démarrage rapide pour utiliser le package xcframework.
.NET : mise à jour des exemples pour utiliser la version 3.1 de .NET core.
JavaScript : ajout d’un exemple pour les assistants vocaux.
Speech SDK 1.18.0:2021-version de juillet
Remarque : le démarrage avec le SDK Speech se trouve ici.
Résumé des points importants
- Ubuntu 16.04 a atteint sa fin de vie en avril 2021. Avec Azure DevOps et GitHub, nous allons supprimer la prise en charge de la version 16.04 en septembre 2021. Migrez les workflows ubuntu-16.04 vers ubuntu-18.04 ou une version ultérieure avant cette date.
Nouvelles fonctionnalités
- C++ : la mise en correspondance des modèles de langage simples avec le module de reconnaissance d’intention facilite désormais l’implémentation de scénarios de reconnaissance d’intention simples.
- C++/C#/Java : nous avons jouté une nouvelle API,
GetActivationPhrasesAsync()
, à la classeVoiceProfileClient
pour la réception d’une liste d’expressions d’activation valides dans la phase d’inscription de Reconnaissance de l’orateur pour les scénarios de reconnaissance indépendante.- Important : la fonctionnalité reconnaissance de l’orateur est en préversion. Tous les profils vocaux créés dans la préversion seront effacés 90 jours après le passage de la fonctionnalité Reconnaissance de l’orateur de la préversion à la disponibilité générale. À ce stade, les profils vocaux en préversion cessent de fonctionner.
- Python : ajout de la prise en charge de l’identification de langage continue (LID) sur les objets
SpeechRecognizer
etTranslationRecognizer
existants. - Python : ajout d’un nouvel objet Python appelé
SourceLanguageRecognizer
pour une identification de langage ponctuelle ou continue (sans reconnaissance ni traduction). - JavaScript : API
getActivationPhrasesAsync
ajoutée à la classeVoiceProfileClient
pour la réception d’une liste d’expressions d’activation valides dans la phase d’inscription de Reconnaissance de l’orateur pour les scénarios de reconnaissance indépendante. - L’API
enrollProfileAsync
deVoiceProfileClient
dans JavaScript est maintenant asynchrone. Consultez ce code d’identification indépendant pour voir un exemple d’usage.
Améliorations
- Java : prise en charge d’AutoCloseable ajoutée à de nombreux objets Java. Désormais, le modèle try-with-resources est pris en charge pour libérer des ressources. Voir cet exemple qui utilise try-with-resources. Consultez également le tutoriel de la documentation Oracle Java sur l’instruction try-with-resources pour en savoir plus sur ce modèle.
- L’encombrement sur le disque a été considérablement réduit pour de nombreuses plateformes et architectures. Exemples pour le binaire
Microsoft.CognitiveServices.Speech.core
: Linux x64 est 475 Ko plus léger (réduction de 8,0 %), ARM64 Windows UWP est 464 Ko plus léger (réduction de 11,5 %), Windows x86 est 343 Ko plus léger (réduction de 17,5 %) et x64 Windows est 451 Ko plus léger (réduction de 19,4 %).
Résolution des bogues
- Java : erreur de synthèse corrigée quand le texte de synthèse contient des caractères de substitution. Détails ici.
- JavaScript : le traitement audio du micro du navigateur utilise maintenant
AudioWorkletNode
au lieu deScriptProcessorNode
. Détails ici. - JavaScript : garde correctement les conversations actives pendant les scénarios de traduction de conversation de longue durée. Détails ici.
- JavaScript : résolution d’un problème de reconnexion du module de reconnaissance à un mediastream en reconnaissance continue. Détails ici.
- JavaScript : résolution d’un problème de reconnexion du module de reconnaissance à un pushStream en reconnaissance continue. Détails ici.
- JavaScript : calcul du décalage au niveau du mot corrigé dans les résultats détaillés de la reconnaissance. Détails ici.
Exemples
- Exemples de démarrage rapide mis à jour ici.
- Exemples de Reconnaissance de l’orateur JavaScript mis à jour pour montrer la nouvelle utilisation de
enrollProfileAsync()
. Consultez des exemples ici.
SDK Speech 1.17.0 : version de mai 2021
Notes
Prenez en main le SDK Speech ici.
Résumé des points importants
- Empreinte réduite : nous continuons à réduire l’empreinte mémoire et disque du SDK Speech et de ses composants.
- Une nouvelle API Identification de la langue autonome vous permet de reconnaître la langue parlée.
- Développez des applications de gaming et de réalité mixte avec reconnaissance vocale en utilisant Unity sur macOS.
- Vous pouvez désormais utiliser la synthèse vocale en plus de la reconnaissance vocale à partir du langage de programmation Go.
- Plusieurs correctifs de bogues pour résoudre les problèmes que VOUS, nos chers clients, ont signalé sur GitHub ! MERCI ! Continuez à nous faire part de vos commentaires.
Nouvelles fonctionnalités
- C++/C# : Nouvelle détection de langue autonome au démarrage et en continu par le biais de l’API
SourceLanguageRecognizer
. Si vous voulez uniquement détecter la ou les langues parlées dans le contenu audio, voici l’API dont vous avez besoin. Voir les détails pour C++ et C#. - C++/C# : La reconnaissance vocale et la reconnaissance de traduction prennent à présent en charge à la fois une identification de la langue au démarrage et en continu. Vous pouvez ainsi déterminer par programmation la ou les langues parlées avant de les transcrire ou traduire. Consultez la documentation disponible ici pour la reconnaissance vocale et ici pour la traduction vocale.
- C# : Ajout de la prise en charge d’Unity à macOS (x64). Cette prise en charge permet de déverrouiller les cas d’usage de la reconnaissance vocale et de la synthèse vocale pour la réalité mixte et le gaming !
- Go : nous avons ajouté la prise en charge de la synthèse vocale au langage de programmation Go pour la rendre disponible dans encore plus de cas d’usage. Consultez notre guide de démarrage rapide ou notre documentation de référence.
- C++/C#/Java/Python/Objective-C/Go : Le synthétiseur vocal prend maintenant en charge l’objet
connection
. Celui-ci vous permet de gérer et de superviser la connexion au service Speech, et s’avère particulièrement utile à la préconnexion pour réduire la latence. Consultez la documentation ici. - C++/C#/Java/Python/Objective-C/Go : Nous exposons maintenant la latence et la durée de sous-exécution dans
SpeechSynthesisResult
pour vous aider à superviser et diagnostiquer les problèmes de latence de synthèse vocale. Consultez d’autres informations pour C++, C#, Java, Python, Objective-C et Go. - C++/C#/Java/Python/Objective-C : la synthèse vocale utilise à présent des voix neuronales par défaut quand vous ne spécifiez pas de voix à utiliser. Vous obtenez ainsi une meilleure fidélité par défaut, mais le prix par défaut augmente également. Vous pouvez spécifier l’une de nos plus de 70 voix standard ou de nos plus de 130 voix neuronales pour modifier la valeur par défaut.
- C++/C++/C#/Java/Python/Objective-C/Go : Nous avons ajouté une propriété Gender aux informations de synthèse vocale pour faciliter la sélection des voix selon le sexe. Cet ajout résout le problème GitHub n° 1055.
- C++, C#, Java, JavaScript : nous prenons à présent en charge
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
etgetAllProfilesAsync()
dans la Reconnaissance de l’orateur pour faciliter la gestion des utilisateurs de tous les profils vocaux d’un compte donné. Consultez la documentation relative à C++, C#, Java et JavaScript. Cela résout le problème GitHub n° 338. - JavaScript : Nous avons ajouté une nouvelle tentative en cas d’échec de connexion pour rendre vos applications vocales JavaScript plus robustes.
Améliorations
- Les binaires du SDK Speech Linux et Android ont été mis à jour pour utiliser la dernière version d’OpenSSL (1.1.1k).
- Améliorations de la taille du code :
- Language Understanding est maintenant scindé en une bibliothèque « lu » distincte.
- Diminution de la taille des binaires principaux Windows x64 de 14,4 %.
- Diminution de la taille des binaires principaux Android ARM64 de 13,7 %.
- D’autres composants ont aussi été réduits en taille.
Résolution des bogues
- Tous : Correction du problème GitHub n° 842 pour ServiceTimeout. Vous pouvez maintenant transcrire des fichiers audio longs à l’aide du SDK Speech sans que la connexion au service soit interrompue avec cette erreur. Toutefois, nous vous recommandons quand même d’utiliser une transcription par lot pour les fichiers longs.
- C# : Correction du problème GitHub n° 947 où aucune entrée vocale ne pouvait quitter votre application dans un état incorrect.
- Java : Problème GitHub N° 997 corrigé où le SDK Speech pour Java 1.16 se bloque lors de l’utilisation de DialogServiceConnector sans connexion réseau ou avec une clé d’abonnement non valide.
- Correction d’un plantage lors de l’arrêt brutal de la reconnaissance vocale (par exemple, en utilisant Ctrl+C dans l’application console).
- Java : Ajout d’un correctif pour supprimer les fichiers temporaires sur Windows lors de l’utilisation du SDK Speech pour Java.
- Java: Correction du problème GitHub n° 994 où l’appel à
DialogServiceConnector.stopListeningAsync
pouvait entraîner une erreur. - Java : Correction d’un problème client dans le démarrage rapide de l’assistant virtuel.
- JavaScript : Correction du problème GitHub n° 366 où
ConversationTranslator
levait une erreur de type « this.cancelSpeech n’est pas une fonction ». - JavaScript : Correction du problème GitHub n° 298 où l’exemple « Obtenir le résultat sous forme de flux en mémoire » produisait un son fort.
- JavaScript : Correction du problème GitHub n° 350 où l’appel à
AudioConfig
pouvait entraîner un message « ReferenceError : MediaStream n’est pas défini ». - JavaScript : Correction d’un avertissement UnhandledPromiseRejection dans Node.js pour les sessions de longue durée.
Exemples
- Mise à jour de la documentation des exemples Unity pour macOS ici.
- Un exemple React Native est maintenant disponible ici pour le service de reconnaissance d’Azure AI Speech.
Kit de développement logiciel (SDK) Speech 1.16.0 : 2021-mise en production de mars
Notes
Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.
Nouvelles fonctionnalités
- C++/C#/Java/Python : déplacé vers la dernière version de GStreamer (1.18.3) pour ajouter le support de la transcription de tout format multimédia sur Windows, Linux et Android. Consultez la documentation ici.
- C++/C#/Java/Objective-C/Python : ajout de la prise en charge du décodage du contenu audio de synthèse vocale compressée/synthétisé vers le kit SDK. Si vous définissez le format audio de sortie sur PCM et que GStreamer est disponible sur votre système, le kit de développement logiciel (SDK) demande automatiquement un contenu audio compressé à partir du service pour économiser de la bande passante et décoder l’audio sur le client. Vous pouvez définir
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
surfalse
pour désactiver cette fonctionnalité. Détails pour C++, C#, Java, Objective-C, Python. - JavaScript : les utilisateurs Node.js peuvent désormais utiliser l’API
AudioConfig.fromWavFileInput
. Cela résout le problème GitHub #252. - C++/C#/Java/Objective-C/Python : ajout de la méthode
GetVoicesAsync()
pour la synthèse vocale afin de retourner toutes les voix de synthèse disponibles. Détails pour C++, C#, Java, Objective-C et Python. - C++/c #/Java/JavaScript/objective-C/python : événement
VisemeReceived
ajouté pour la synthèse vocale/TTS pour retourner une animation de visème synchrone. Consultez la documentation ici. - C++/c #/Java/JavaScript/objective-C/python : événement
BookmarkReached
ajouté pour la synthèse vocale. Vous pouvez définir des signets dans le SSML d’entrée et obtenir les décalages audio pour chaque signet. Consultez la documentation ici. - Java : ajout de la prise en charge des API de Reconnaissance de l’orateur. Détails ici.
- C++/c #/Java/JavaScript/objective-C/python : ajout de deux nouveaux formats audio de sortie avec le conteneur WebM pour la synthèse vocale (Webm16Khz16BitMonoOpus et Webm24Khz16BitMonoOpus). Il s’agit de formats plus performants pour la diffusion audio en continu avec le codec Opus. Détails pour C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java : ajout de la prise en charge de la récupération du profil vocal pour le scénario de Reconnaissance de l’orateur. Détails pour C++, C# et Java.
- C++/C#/Java/Objective-C/Python : ajout de la prise en charge de la bibliothèque partagée distincte pour le contrôle de microphone et de haut-parleur. Cela permet au développeur d’utiliser le SDK dans les environnements qui n’ont pas les dépendances de bibliothèque audio nécessaires.
- Objective-C/SWIFT : ajout de support du module d’infrastructure avec l’en-tête parapluie. Cela permet au développeur d’importer le SDK Speech en tant que module dans les applications iOS/Mac Objective-C/Swift. Cela résout le problème GitHub #452.
- Python : ajout du support de Python 3.9 et suppression du support de Python 3.5 par la fin de vie de Python pour 3.5.
Problèmes connus
- C++/C#/Java :
DialogServiceConnector
ne peut pas utiliser uneCustomCommandsConfig
pour accéder à une application de commandes personnalisées et rencontrera à la place une erreur de connexion. Pour ce faire, vous pouvez ajouter manuellement votre ID d’application à la demande avecconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Le comportement attendu deCustomCommandsConfig
sera restauré dans la prochaine mise en production.
Améliorations
- Dans le cadre de notre travail sur plusieurs versions visant à réduire l’utilisation de la mémoire et l’encombrement sur le disque du SDK Speech, les fichiers binaires Android sont maintenant de 3 à 5 % plus petits.
- Amélioration de la précision, de la lisibilité et des sections Voir aussi de notre documentation de référence C# ici.
Résolution des bogues
- JavaScript : les en-têtes de fichier WAV volumineux sont maintenant analysés correctement (augmente la tranche d’en-tête à 512 octets). Cela résout le problème GitHub #962.
- JavaScript : correction du problème de minutage du microphone si le flux du micro se termine avant d’arrêter la reconnaissance, ce qui résout un problème avec la reconnaissance vocale qui ne fonctionne pas dans Firefox.
- JavaScript : nous prenons désormais correctement en charge la promesse d’initialisation lorsque le navigateur force le micro à s’arrêter avant la fin du turnOn.
- JavaScript : nous avons remplacé la dépendance d’URL par l’analyse d’URL. Cela résout le problème GitHub #264.
- Android : les rappels fixes ne fonctionnent pas lorsque
minifyEnabled
est défini sur true. - C++/c #/Java/objective-C/python :
TCP_NODELAY
sera correctement défini sur les E/S de socket sous-jacentes pour la synthèse vocale pour réduire la latence. - C++/c #/Java/Python/objective-C/Go : correction d’un incident occasionnel lorsque le module de reconnaissance a été détruit juste après le démarrage d’une reconnaissance.
- C++/c #/Java : correction d’un incident occasionnel lors de la destruction de la reconnaissance de l’orateur.
Exemples
- JavaScript : les exemples de navigateur n’ont plus besoin de télécharger un fichier de bibliothèque JavaScript distinct.
Kit SDK Speech 1.15.0 : version de janvier 2021
Notes
Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.
Résumé des points importants
- Réduction de la taille de la mémoire et de l’espace disque pour améliorer l’efficacité du Kit de développement logiciel (SDK).
- Formats de sortie disponibles avec une fidélité supérieure pour la préversion privée de la voix neuronale personnalisée.
- Le module de reconnaissance de l’intention peut désormais retourner plus que l’intention principale, ce qui vous permet d’effectuer une évaluation distincte de l’intention de votre client.
- Les assistants vocaux et bots sont désormais plus faciles à configurer : vous pouvez faire en sorte qu’ils cessent d’écouter immédiatement, et ainsi exercer un plus grand contrôle sur la façon dont ils répondent aux erreurs.
- Amélioration des performances des appareils grâce à une compression facultative.
- Utilisez le Kit de développement logiciel (SDK) Speech sur Windows ARM/ARM64.
- Amélioration du débogage de bas niveau.
- La fonctionnalité Évaluation de la prononciation est désormais plus largement disponible.
- Plusieurs correctifs de bogues pour résoudre les problèmes que VOUS, nos chers clients, ont signalé sur GitHub ! MERCI ! Continuez à nous faire part de vos commentaires.
Améliorations
- Le Kit de développement logiciel (SDK) Speech est désormais plus efficace et plus léger. Nous avons entamé un travail sur plusieurs versions pour réduire l’utilisation de la mémoire et l’encombrement sur le disque du SDK Speech. Dans la première étape, nous avons réduit de façon significative la taille des fichiers dans les bibliothèques partagées sur la plupart des plateformes. En comparaison avec la version 1.14 :
- les bibliothèques Windows compatibles UWP 64 bits sont environ 30 % plus petites.
- Les bibliothèques Windows 32 bits ne bénéficient pas encore d’une amélioration de leur taille.
- les bibliothèques Linux sont 20 à 25 % plus petites.
- les bibliothèques Android sont 3 à 5 % plus petites.
Nouvelles fonctionnalités
- Tous : Nouveaux formats de sortie 48 kHz disponibles pour la préversion privée de la voix neuronale personnalisée par le biais de l’API de synthèse vocale TTS : Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Tout : La voix personnalisée est également plus facile à utiliser. Ajout de la prise en charge de la configuration de la voix personnalisée via
EndpointId
(EndpointId
, C#, Java, JavaScript, Objective-C, Python). Avant cette modification, les utilisateurs de la voix personnalisée devaient définir l’URL du point de terminaison via la méthodeFromEndpoint
. Désormais, les clients peuvent utiliser la méthodeFromSubscription
comme pour des voix prédéfinies, puis fournir l’ID de déploiement en définissantEndpointId
. Cela simplifie la configuration des voix personnalisées. - C++/C#/Java/Objective-C/Python : obtenez davantage que l’intention principale de
IntentRecognizer
. Prend désormais en charge la configuration du résultat JSON contenant toutes les intentions, et pas seulement l’intention de score principale via la méthodeLanguageUnderstandingModel FromEndpoint
à l’aide du paramètre URIverbose=true
. Cela résout le problème GitHub #880. Consultez ici la documentation mise à jour. - C++/C#/Java : veillez à ce que votre Assistant vocal ou votre bot cesse d’écouter immédiatement.
DialogServiceConnector
(C++, C#, Java) dispose désormais d’une méthodeStopListeningAsync()
pour accompagnerListenOnceAsync()
. Cela arrêtera immédiatement la capture audio et attendra de manière appropriée un résultat, une méthode idéale pour les scénarios impliquant l’utilisation du bouton « Arrêter maintenant ». - C++/C#/Java/JavaScript : Faites en sorte que votre Assistant vocal ou votre bot réagisse mieux aux erreurs système sous-jacentes.
DialogServiceConnector
(C++, C#, Java, JavaScript) dispose désormais d’un nouveau gestionnaire d’événementsTurnStatusReceived
. Ces événements facultatifs correspondent à chaque résolutionITurnContext
sur le bot et signalent les échecs d’exécution lorsqu’ils se produisent, par exemple suite à une exception non prise en charge, une expiration de délai, ou une perte de réseau entre Direct Line Speech et le bot.TurnStatusReceived
facilite la réponse aux conditions d’échec. Par exemple, si un bot passe trop de temps sur une requête de base de données back-end (comme la recherche d’un produit),TurnStatusReceived
permet au client d’afficher à nouveau un message de type « Désolé, je n’ai pas compris, pouvez-vous réessayer » ou quelque chose de similaire. - C++/C# : Utilisez le Kit de développement logiciel (SDK) Speech sur plus de plateformes. Le package NuGet du Kit SDK Speech prend désormais en charge les binaires natifs Windows ARM/ARM64 (UWP était déjà pris en charge) pour rendre le SDK Speech plus utile sur davantage de types de machines.
- Java :
DialogServiceConnector
propose maintenant une méthodesetSpeechActivityTemplate()
qui avait été involontairement exclue de ce langage. Cela équivaut à définir la propriétéConversation_Speech_Activity_Template
et à demander que toutes les futures activités Bot Framework générées par le service Direct Line Speech fusionnent le contenu fourni dans leurs charges utiles JSON. - Java : Amélioration du débogage de bas niveau. La classe
Connection
a maintenant un événementMessageReceived
, comme d’autres langages de programmation (C++, C#). Cet événement fournit un accès de bas niveau aux données entrantes à partir du service et peut être utile pour les diagnostics et le débogage. - JavaScript : configuration plus facile pour les assistants vocaux et les bots par le biais de
BotFrameworkConfig
, qui possède désormais des méthodes de fabriquefromHost()
etfromEndpoint()
simplifiant l’utilisation d’emplacements de service personnalisés et la définition manuelle des propriétés. Nous avons également standardisé la spécification facultative debotId
pour utiliser un bot autre que le bot par défaut dans les fabriques de configuration. - JavaScript : Amélioration des performances des appareils grâce à la propriété de contrôle de chaîne ajoutée pour la compression WebSocket. Pour des raisons de performances, nous avons désactivé la compression WebSocket par défaut. Cette option peut être réactivée pour les scénarios à faible bande passante. Plus de détails ici. Cela résout le problème GitHub #242.
- JavaScript : ajout de la prise en charge de l’Évaluation de la prononciation pour permettre l’évaluation de la prononciation vocale. Consultez ici le démarrage rapide.
Résolution des bogues
- Tous (sauf JavaScript): Correction d’une régression dans la version 1.14, dans laquelle une trop grande quantité de mémoire a été allouée par le module de reconnaissance.
- C++ : Correction d’un problème lié au processus garbage collection avec
DialogServiceConnector
, corrigeant le problème GitHub no 794. - C# : Correction d’un problème lié à l’arrêt d’un thread qui entraînait le blocage d’objets pendant environ une seconde en cas de suppression.
- C++/C#/Java : Correction d’une exception empêchant une application de définir plusieurs fois un jeton d’autorisation vocale ou un modèle d’activité sur un
DialogServiceConnector
. - C++/C#/Java : Correction d’un blocage du module de reconnaissance en raison d’une condition de concurrence en cours de désactivation.
- JavaScript :
DialogServiceConnector
n’a pas respecté précédemment le paramètre facultatifbotId
spécifié dans les fabriquesBotFrameworkConfig
. Il est ainsi nécessaire de définir manuellement le paramètre de chaîne de requêtebotId
pour utiliser un bot autre que le bot par défaut. Le bogue a été corrigé et les valeursbotId
fournies aux fabriques deBotFrameworkConfig
seront respectées et utilisées, y compris les nouveaux ajoutsfromHost()
etfromEndpoint()
. Cela s’applique également au paramètreapplicationId
pourCustomCommandsConfig
. - JavaScript : résolution du problème GitHub 881, en permettant de réutiliser le module de reconnaissance.
- JavaScript : Correction d’un problème où le SKD envoyait
speech.config
plusieurs fois dans une session TTS, en gaspillant de la bande passante. - JavaScript : Gestion simplifiée des erreurs d’autorisation du microphone, permettant d’obtenir un message plus descriptif quand l’utilisateur n’a pas autorisé l’entrée du microphone sur son navigateur.
- JavaScript : Correction du problème GitHub no 249 où des erreurs de type dans
ConversationTranslator
etConversationTranscriber
provoquaient une erreur de compilation pour les utilisateurs de TypeScript. - Objective-C: Correction d’un problème où la génération de GStreamer échouait pour iOS sur Xcode 11.4, corrigeant le problème GitHub #911.
- Python : correction du problème GitHub #870, supprimant le message « DeprecationWarning: the imp module is deprecated in favor of importlib ».
Exemples
- L’exemple de fichier pour le navigateur JavaScript utilise désormais des fichiers pour la reconnaissance vocale. Cela résout le problème GitHub #884.
Kit SDK Speech 1.14.0 : version d’octobre 2020
Notes
Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez-le ici.
Nouvelles fonctionnalités
- Linux : Ajout de la prise en charge de Debian 10 et Ubuntu 20.04 LTS.
- Python/Objective-C : Ajout de la prise en charge de l’API
KeywordRecognizer
. La documentation sera disponible ici. - C++/Java/C# : Ajout de la prise en charge pour définir toute clé-valeur
HttpHeader
par le biais deServicePropertyChannel::HttpHeader
. - JavaScript : Ajout de la prise en charge de l’API
ConversationTranscriber
. Lisez la documentation ici. - C++/C# : Ajout d’une nouvelle méthode
AudioDataStream FromWavFileInput
(pour lire les fichiers .WAV) ici (C++) et ici (C#). - C++/C#/Java/Python/Objective-C/Swift : ajout d’une méthode
stopSpeakingAsync()
pour arrêter la synthèse vocale. Lisez la documentation de référence ici (C++), ici (C#), ici (Java), ici (Python) et ici (Objective-C/Swift). - C#, C++, Java : Ajout d’une fonction
FromDialogServiceConnector()
à la classeConnection
qui peut être utilisée pour superviser les événements de connexion et de déconnexion pourDialogServiceConnector
. Lisez la documentation de référence ici (C#), ici (C++) et ici (Java). - C++/C#/Java/Python/Objective-C/Swift : Ajout de la prise en charge de l’évaluation de la prononciation, qui évalue la prononciation des entrées vocales et fournit des commentaires aux orateurs sur l’exactitude et la fluidité de l’audio parlé. Lisez la documentation ici.
Modification avec rupture
- JavaScript : PullAudioOutputStream.Read() a un type de retour modifié d’une promesse interne à une promesse JavaScript native.
Résolution des bogues
- Tous : Correction de la régression 1.13 dans
SetServiceProperty
où les valeurs avec certains caractères spéciaux étaient ignorées. - C# : Correction des exemples de console Windows sur Visual Studio 2019 qui ne parvenaient pas à trouver les DLL natives.
- C# : Correction d’un plantage avec la gestion de la mémoire si un flux était utilisé en tant qu’entrée
KeywordRecognizer
. - ObjectiveC/Swift : Correction d’un plantage avec la gestion de la mémoire si un flux était utilisé en tant qu’entrée du module de reconnaissance.
- Windows : résolution d’un problème de coexistence avec BT HFP/A2DP sur UWP.
- JavaScript : Correction du mappage des ID de session pour améliorer la journalisation et faciliter les corrélations de débogage/service internes.
- JavaScript : Ajout d’un correctif à
DialogServiceConnector
pour la désactivation des appels deListenOnce
après le premier appel. - JavaScript : Résolution d’un problème où la sortie du résultat était toujours « simple ».
- JavaScript : Résolution d’un problème de reconnaissance continue dans Safari sur macOS.
- JavaScript : Atténuation de la charge du processeur pour le scénario de débit de requête élevé.
- JavaScript : Autorisation de l’accès aux détails de VoiceProfileEnrollmentResult.
- JavaScript : Ajout d’un correctif pour la reconnaissance continue dans
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC : Correction d’une URL incorrecte pour australiaeast et brazilsouth dans
IntentRecognizer
. - C++/C# : Ajout de
VoiceProfileType
en tant qu’argument lors de la création d’un objetVoiceProfile
. - C++/C#/Java/Python/Swift/ObjectiveC : Correction de
SPX_INVALID_ARG
potentiel lors de la tentative de lecture deAudioDataStream
à partir d’une position donnée. - IOS : Correction d’un plantage de la reconnaissance vocale sur Unity
Exemples
- ObjectiveC : Ajout d’un exemple de reconnaissance de mot clé ici.
- C#/JavaScript : Ajout d’un guide de démarrage rapide pour la transcription de conversation ici (C#) et ici (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC : ajout d’un exemple pour l’Évaluation de la prononciationici
Problème connu
- Le certificat DigiCert Global Root G2 n’est pas pris en charge par défaut dans HoloLens 2 et Android 4.4 (KitKat), et doit être ajouté au système pour que le SDK Speech fonctionne. Le certificat sera ajouté prochainement aux images de système d’exploitation HoloLens 2. Les clients Android 4.4 doivent ajouter le certificat mis à jour au système.
Test raccourci COVID-19
en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !
Kit SDK Speech 1.13.0 : version de juillet 2020
Notes
Le kit SDK Speech sur Windows dépend du partage de Redistributable Visual C++ pour Visual Studio 2015, 2017 et 2019. Téléchargez et installez l’application à partir d’ici.
Nouvelles fonctionnalités
- C# : Ajout de la prise en charge de la transcription de conversation asynchrone. Consultez la documentation ici.
- JavaScript : Ajout de la prise en charge de la reconnaissance de l’orateur pour le navigateur et Node.js.
- JavaScript : ajout de la prise en charge de l’identification de la langue/ID de la langue. Consultez la documentation ici.
- Objective-C : ajout de la prise en charge de la conversation multi-appareil et de la transcription de conversation.
- Python : Ajout de la prise en charge des contenus audio compressés pour Python sur Windows et Linux. Consultez la documentation ici.
Résolution des bogues
- Tout : Correction d’un problème qui empêchait KeywordRecognizer de faire avancer les flux après une reconnaissance.
- Tout : Correction d’un problème en raison duquel le flux obtenu à partir d’un KeywordRecognitionResult ne contenait pas le mot clé.
- Tous : Résolution d’un problème en raison duquel la méthode SendMessageAsync n’envoie pas vraiment le message sur le réseau une fois que les utilisateurs ont fini de l’attendre.
- Tous : Correction d’un plantage dans les API Reconnaissance de l’orateur lorsque les utilisateurs appellent la méthode VoiceProfileClient::SpeakerRecEnrollProfileAsync plusieurs fois et n’attendent pas la fin des appels.
- Tout : Correction de l’activation de la journalisation des fichiers dans les classes VoiceProfileClient et SpeakerRecognizer.
- JavaScript : Correction d’un problème de limitation de bande passante lorsque le navigateur est réduit.
- JavaScript : Correction d’un problème de fuite de mémoire sur les flux.
- JavaScript : Ajout de la mise en cache pour les réponses OCSP à partir de NodeJS.
- Java : Correction d’un problème en raison duquel les champs BigInteger retournaient toujours la valeur 0.
- iOS : Correction d’un problème avec la publication d’applications basées sur le Kit de développement logiciel (SDK) Speech dans l’App Store iOS.
Exemples
- C++ : Ajout d’un exemple de code pour Reconnaissance de l’orateur ici.
Test raccourci COVID-19
en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !
Kit SDK Speech 1.12.1 : version de juin 2020
Nouvelles fonctionnalités
- C#, C++ : Aperçu de reconnaissance de l’orateur : Cette fonctionnalité permet l’identification de l’orateur (qui parle ?) et la vérification de l’orateur (l’orateur est-il la personne qu’il prétend être ?). Consultez la vue d’ensemble de la documentation.
Résolution des bogues
- C#, C++ : Correction du problème en raison duquel l’enregistrement du microphone ne fonctionnait pas dans la version 1.12 dans la Reconnaissance de l’orateur.
- JavaScript : correctifs pour la synthèse vocale dans Firefox et Safari sur macOS et iOS.
- Correctif pour l’incident de violation d’accès du vérificateur d’applications Windows lors d’une transcription de conversation, dans le cas de l’utilisation d’un flux de huit canaux.
- Correction pour l’incident de violation d’accès du vérificateur d’applications Windows lors d’une traduction de conversation entre plusieurs appareils.
Exemples
- C# : Exemple de code pour la Reconnaissance de l’orateur.
- C++ : Exemple de code pour la Reconnaissance de l’orateur.
- Java : Exemple de code pour la reconnaissance de l’intention sur Android.
Test raccourci COVID-19
en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !
Kit de développement logiciel (SDK) Speech 1.12.0 : version de mai 2020
Nouvelles fonctionnalités
- Go : nouvelle prise en charge du langage Go pour la Reconnaissance vocale et l’Assistant vocal personnalisé. Configurez votre environnement de développement ici. Pour un exemple de code, consultez la section Exemples ci-dessous.
- JavaScript : ajout de la prise en charge du navigateur pour la synthèse vocale. Consultez la documentation ici.
- C++, C#, Java : nouvel objet
KeywordRecognizer
et nouvelles API pris en charge sur les plateformes Windows, Android, Linux et iOS. Lisez la documentation ici. Pour un exemple de code, consultez la section Exemples ci-dessous. - Java : ajout de la conversation sur plusieurs appareils avec prise en charge de la traduction. Consultez le document de référence ici.
Améliorations et optimisations
- JavaScript : implémentation optimisée du microphone du navigateur améliorant la précision de la reconnaissance vocale.
- Java : liaisons refactorisées à l’aide de l’implémentation de JNI directe sans SWIG. Cette modification réduit de 10 fois la taille des liaisons pour tous les packages Java utilisés pour Windows, Android, Linux et Mac, et facilite le développement ultérieur de l’implémentation Java du SDK Speech.
- Linux : mise à jour de la documentation de support avec les dernières remarques spécifiques de RHEL 7.
- Amélioration de la logique de connexion pour effecteur plusieurs tentatives de connexion lorsque des erreurs de service et de réseau se produisent.
- Mise à jour de la page de démarrage rapide de Speech sur portal.azure.com pour aider les développeurs à passer à l’étape suivante dans le parcours Azure AI Speech.
Résolution des bogues
- C#, Java : correction d’un problème de chargement des bibliothèques de Kit de développement logiciel (SDK) sur Linux ARM (32 bits et 64 bits).
- C# : correction de la suppression explicite des handles natifs pour les objets TranslationRecognizer, IntentRecognizer et Connection.
- C# : correction de la gestion de la durée de vie d’entrée audio pour l’objet ConversationTranscriber.
- Correction d’un problème qui avait pour effet que la raison du résultat de
IntentRecognizer
n’était pas définie correctement lors de la reconnaissance d’intentions à partir d’expressions simples. - Correction d’un problème qui avait pour effet que le décalage de résultat
SpeechRecognitionEventArgs
n’était pas défini correctement. - Correction d’une condition de concurrence qui avait pour effet que le Kit de développement logiciel (SDK) essayait d’envoyer un message réseau avant d’ouvrir la connexion websocket. Était reproductible pour
TranslationRecognizer
lors de l’ajout de participants. - Correction de fuites de mémoire dans le moteur de reconnaissance de mot clé.
Exemples
- Go : ajout de démarrages rapides pour la reconnaissance vocale et Assistant vocal personnalisé. Trouvez un exemple de code ici.
- JavaScript : ajout de démarrages rapides pour Synthèse vocale, Traduction et Reconnaissance de l’intention.
- Exemples de reconnaissance de mot clé pour C# et Java (Android).
Test raccourci COVID-19
en raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests de vérification manuelle que nous le faisons habituellement. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit, et nos tests automatisés ont tous réussi. Au cas où nous aurions manqué quelque chose, veuillez nous en informer sur GitHub.
Restez en bonne santé !
Kit de développement logiciel (SDK) Speech 1.11.0 : version de mars 2020
Nouvelles fonctionnalités
- Linux : ajout de la prise en charge de Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux : Ajout de la prise en charge de .NET Core C# sur Linux ARM32 et ARM64. En savoir plus ici.
- C#, C++ : Ajout de
UtteranceId
dansConversationTranscriptionResult
, un ID cohérent pour tous les intermédiaires et le résultat final de la reconnaissance vocale. Détails pour C# et C++. - Python : Ajout de la prise en charge de
Language ID
. Voir speech_sample.py dans le référentiel GitHub. - Windows : Ajout de la prise en charge du format d’entrée audio compressé sur la plateforme Windows pour toutes les applications console win32. Détails ici.
- JavaScript : prise en charge de la synthèse vocale (conversion de texte par synthèse vocale) dans NodeJS. En savoir plus ici.
- JavaScript : ajout de nouvelles API pour activer l’inspection de tous les messages envoyés et reçus. En savoir plus ici.
Résolution des bogues
- C#, C++ : Correction d’un problème de sorte que
SendMessageAsync
envoie maintenant un message binaire sous forme de type binaire. Détails pour C# et C++. - C#, C++ : Correction d’un problème où l’utilisation de l’événement
Connection MessageReceived
peut provoquer un incident siRecognizer
est supprimé avant l’objetConnection
. Détails pour C# et C++. - Android : la taille de la mémoire tampon audio du microphone a été réduite de 800 ms à 100 ms pour améliorer la latence.
- Android : Correction d’un problème avec l’émulateur Android x86 dans Android Studio.
- JavaScript : Ajout de la prise en charge des régions en Chine avec l’API
fromSubscription
. Détails ici. - JavaScript : Ajout d’autres informations d’erreur pour les échecs de connexion à partir de NodeJS.
Exemples
- Unity : L’échantillon public de reconnaissance des intentions est corrigé, là où l’importation du fichier json LUIS échouait. Détails ici.
- Python : Exemple ajouté pour
Language ID
. Détails ici.
Tests abrégés en raison du Covid19 : En raison du travail à distance au cours des dernières semaines, nous n’avons pas pu effectuer autant de tests manuels de vérification des appareils que nous le faisons habituellement. Par exemple, nous n’avons pas pu tester l’entrée du microphone et de la sortie du haut-parleur sous Linux, iOS et macOS. Nous n’avons apporté aucune modification qui aurait pu casser quoi que ce soit sur ces plateformes, et nos tests automatisés ont tous réussi. Dans le cas peu probable où nous aurions manqué quelque chose, informez-en nous sur GitHub.
Nous vous remercions de votre soutien continu. Comme toujours, publiez vos questions ou vos commentaires sur GitHub ou Stack Overflow.
Restez en bonne santé !
Kit de développement logiciel (SDK) de Speech 1.10.0 : version de février 2020
Nouvelles fonctionnalités
- Ajout de packages Python pour prendre en charge la nouvelle version 3.8 de Python.
- Prise en charge de Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Notes
Les clients doivent configurer OpenSSL conformément à ces instructions.
- Prise en charge de Linux ARM32 pour Debian et Ubuntu.
- DialogServiceConnector prend désormais en charge un paramètre facultatif « bot ID » sur BotFrameworkConfig. Ce paramètre permet d’utiliser plusieurs robots Direct Line Speech avec une unique ressource Speech. Si le paramètre n’est pas spécifié, le robot par défaut (tel que déterminé par la page de configuration du canal Direct Line Speech) sera utilisé.
- DialogServiceConnector a maintenant une propriété SpeechActivityTemplate. Le contenu de cette chaîne JSON sera utilisé par Direct Line Speech pour préremplir un grand nombre de champs pris en charge dans toutes les activités qui atteignent un robot Direct Line Speech, y compris les activités générées automatiquement en réponse à des événements tels que la reconnaissance vocale.
- TTS utilise désormais la clé d’abonnement pour l’authentification, ce qui réduit la latence du premier octet du premier résultat de synthèse après la création d’un synthétiseur.
- Mise à jour des modèles de reconnaissance vocale pour 19 paramètres régionaux pour une réduction du taux d’erreur moyen des mots de 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Les nouveaux modèles apportent des améliorations significatives dans plusieurs domaines, notamment les scénarios de dictée, de transcription des centres d’appels et d’indexation vidéo.
Résolution des bogues
- Correction du bogue dans lequel le transcripteur de conversation n’a pas attendu correctement dans les API JAVA
- Correctif de l’émulateur Android x86 pour le problème Xamarin GitHub
- Ajouter les méthodes (Get|Set)Property manquantes à AudioConfig
- Correction d’un bogue TTS dans lequel audioDataStream ne pouvait pas être arrêté lors de l’échec de la connexion
- L’utilisation d’un point de terminaison sans région entraînerait des défaillances de l’USP pour le traducteur de conversations
- La génération d’ID dans les applications Windows universelles utilise désormais un algorithme GUID approprié ; elle utilisait précédemment et involontairement par défaut une implémentation faisant l’objet d’un stub qui produisait souvent des collisions sur de grands ensembles d’interactions.
Exemples
- Exemple Unity pour l’utilisation du Kit de développement logiciel (SDK) Speech avec microphone Unity et diffusion en continu en mode push
Autres modifications
SDK Speech 1.9.0 : version de janvier 2020
Nouvelles fonctionnalités
- Conversation multi-appareil : connectez plusieurs appareils à la même conversation vocale ou textuelle et traduisez éventuellement les messages échangés. Apprenez-en plus dans cet article.
- Ajout de la prise en charge de la reconnaissance des mots clés pour le package
.aar
Android et ajout de la prise en charge des versions x86 et x64. - Objective-C : ajout des méthodes
SendMessage
etSetMessageProperty
à l'objetConnection
. Consultez la documentation ici. - L'API TTS C++ prend désormais en charge
std::wstring
comme entrée de texte de synthèse, ce qui évite d'avoir à convertir un wstring en string avant de la passer au SDK. Consultez les informations détaillées ici. - C# : l'ID de langue et la configuration de la langue source sont désormais disponibles.
- JavaScript : ajout d’une fonctionnalité à l’objet
Connection
permettant de transférer les messages personnalisés à partir du le service Speech en tant que rappelreceivedServiceMessage
. - JavaScript : ajout de la prise en charge de
FromHost API
pour faciliter l'utilisation avec les conteneurs locaux et les clouds souverains. Consultez la documentation ici. - JavaScript : Nous prenons désormais en considération
NODE_TLS_REJECT_UNAUTHORIZED
grâce à une contribution d’NODE_TLS_REJECT_UNAUTHORIZED
. Consultez les informations détaillées ici.
Dernières modifications
OpenSSL
a été mis à jour vers la version 1.1.1b et est lié de manière statique à la bibliothèque principale du kit SDK Speech pour Linux. Cela peut provoquer un arrêt si votre boîte de réceptionOpenSSL
n’a pas été installée dans le répertoire/usr/lib/ssl
du système. Pour contourner ce problème, consultez notre documentation sous les documents du SDK Speech.- Concernant le type de données retournées pour C#
WordLevelTimingResult.Offset
, nous avons remplacéint
parlong
pour permettre l’accès àWordLevelTimingResults
lorsque les données vocales dépassent 2 minutes. PushAudioInputStream
etPullAudioInputStream
envoient désormais des informations d’en-tête WAV au service Speech en fonction deAudioStreamFormat
, éventuellement spécifiés au moment de leur création. Les clients doivent maintenant utiliser le format d'entrée audio pris en charge. Tous les autres formats donneront des résultats de reconnaissance non optimaux ou risquent de causer d’autres problèmes.
Résolution des bogues
- Consultez les informations concernant la mise à jour de
OpenSSL
dans la section Changements cassants ci-dessus. Nous avons résolu un incident intermittent et un problème de performances (contention de verrouillage en condition de charge élevée) dans Linux et Java. - Java : améliorations apportées à la fermeture des objets dans les scénarios de forte concurrence.
- Restructuration de notre package NuGet. Nous avons supprimé les trois copies de
Microsoft.CognitiveServices.Speech.core.dll
etMicrosoft.CognitiveServices.Speech.extension.kws.dll
sous les dossiers lib. Plus petit, le package NuGet se télécharge plus rapidement, et nous avons ajouté les en-têtes nécessaires à la compilation de certaines applications natives C++. - Vous trouverez ici des exemples de démarrage rapide corrigés. Ceux-ci se fermaient sans afficher l’exception « microphone introuvable » sous Linux, macOS, Windows.
- Correction de l'incident du kit SDK avec les résultats de reconnaissance vocale de longue durée sur certains chemins de code comme cet exemple.
- Correction de l'erreur de déploiement du kit SDK dans l'environnement d'application web Azure pour résoudre le problème de ce client.
- Correction d'une erreur TTS pendant l'utilisation de plusieurs balises
<voice>
ou<audio>
pour résoudre<voice>
. - Correction d'une erreur TTS 401 qui se déclarait pendant la récupération du kit SDK à la suite d'une interruption.
- JavaScript : correction d'une importation circulaire de données audio grâce à une contribution d'Euirim.
- JavaScript : ajout de la prise en charge de la définition de propriétés de service (ajoutée dans la version 1.7).
- JavaScript : résolution d'un problème où une erreur de connexion pouvait entraîner des tentatives de reconnexion WebSocket continues et infructueuses.
Exemples
- Ajout de l'exemple de reconnaissance de mot clé pour Android ici.
- Ajout de l'exemple TTS pour le scénario de serveur ici.
- Ajout de démarrages rapides pour les conversations multi-appareils pour C# et C++ ici.
Autres modifications
- Taille de la bibliothèque principale du kit SDK optimisée sur Android.
- Le kit SDK de la version 1.9.0 et ultérieures prend en charge les types
int
etstring
dans le champ de version de la signature vocale du transcripteur de conversation.
SDK Speech 1.8.0 : Version de novembre 2019
Nouvelles fonctionnalités
- Ajout d’une API
FromHost()
, pour faciliter l’utilisation avec des conteneurs locaux et des clouds souverains. - Ajout de l’identification de la langue source pour la reconnaissance vocale (en Java et C++)
- Ajout de l'objet
SourceLanguageConfig
pour la reconnaissance vocale, utilisé pour spécifier les langues sources attendues (en Java et C++) - Ajout de la prise en charge de
KeywordRecognizer
sur Windows (UWP), Android et iOS via les packages NuGet et Unity - Ajout de l'API Java de conversation à distance pour effectuer une transcription de conversation dans des lots asynchrones.
Dernières modifications
- Les fonctionnalités du transcripteur de conversation sont déplacées sous l'espace de noms
Microsoft.CognitiveServices.Speech.Transcription
. - Certaines parties des méthodes du transcripteur de conversation sont déplacées vers la nouvelle classe
Conversation
. - Suppression de la prise en charge d'iOS 32 bits (ARMv7 et x86)
Résolution des bogues
- Correction de l'incident si le
KeywordRecognizer
local est utilisé sans clé d'abonnement valide au service Speech
Exemples
- Exemple Xamarin pour
KeywordRecognizer
- Exemple Unity pour
KeywordRecognizer
- Exemples C++ et Java pour l’identification de la langue source automatique.
SDK Speech 1.7.0 : version de septembre 2019
Nouvelles fonctionnalités
- Ajout de la prise en charge de la version bêta pour Xamarin sur la plateforme Windows universelle (UWP), Android et iOS
- Ajout de la prise en charge d'iOS pour Unity
- Ajout de la prise en charge des entrées
Compressed
pour ALaw, Mulaw et FLAC sous Android, iOS et Linux - Ajout de
SendMessageAsync
dans la classeConnection
pour l'envoi d'un message au service - Ajout de
SetMessageProperty
dans la classeConnection
pour la propriété de définition d'un message - Ajout de liaisons TTS pour Java (JRE et Android), Python, Swift et Objective-C
- Ajout de la prise en charge de la lecture TTS pour macOS, iOS et Android
- Ajout d'informations sur la « limite de mot » pour TTS
Résolution des bogues
- Correction d'un problème de build IL2CPP sur Unity 2019 pour Android
- Correction d'un problème lié à des en-têtes incorrects entraînant le mauvais traitement de l'entrée d'un fichier WAV
- Correction d'un problème lié à la multiplicité des UUID dans certaines propriétés de connexion
- Correction de quelques avertissements sur les spécificateurs de possibilité de valeur null dans les liaisons Swift (ce qui peut nécessiter de petites modifications de code)
- Correction d'un bogue provoquant la fermeture anormale des connexions WebSocket sous une charge réseau
- Correction d'un problème sur Android pouvant entraîner des ID d'impression en double utilisés par
DialogServiceConnector
- Améliorations apportées à la stabilité des connexions entre les interactions multitours et au signalement des défaillances (par le biais d’événements
Canceled
) quand elles se produisent avecDialogServiceConnector
- Les démarrages de session
DialogServiceConnector
permettent désormais de fournir correctement les événements, y compris lors de l’appel deListenOnceAsync()
pendant une activitéStartKeywordRecognitionAsync()
- Résolution d’un incident associé aux activités
DialogServiceConnector
reçues
Exemples
- Guide de démarrage rapide pour Xamarin
- Mise à jour du guide de démarrage rapide CPP avec des informations ARM64 Linux
- Mise à jour du guide de démarrage rapide Unity avec des informations iOS
Kit de développement logiciel (SDK) Speech 1.6.0 : version de juin 2019
Exemples
- Exemples de guide de démarrage rapide pour Synthèse vocale sur UWP et Unity
- Exemple de guide de démarrage rapide pour Swift sur iOS
- Exemples Unity supplémentaires pour Speech ainsi que la reconnaissance de l’intention et la traduction
- Exemples de démarrage rapide pour
DialogServiceConnector
Améliorations/Modifications
- Espace de noms de boîte de dialogue :
SpeechBotConnector
a été renommé enDialogServiceConnector
BotConfig
a été renommé enDialogServiceConfig
BotConfig::FromChannelSecret()
a été remappé àDialogServiceConfig::FromBotSecret()
- Tous les clients existants de Direct Line Speech seront toujours pris en charge après le changement de nom
- Mise à jour de l’adaptateur TTS REST offrant la prise en charge des proxys et de la connexion permanente
- Amélioration du message d’erreur en cas de transmission d’une région non valide
- Swift/Objective-C :
- Amélioration du signalement des erreurs : Les méthodes susceptibles de provoquer une erreur existent désormais en deux versions : La première expose un objet
NSError
pour la gestion des erreurs, l’autre émet une exception. La première est exposée à Swift. Cette modification doit être adaptée au code Swift existant. - Amélioration de la gestion des événements
- Amélioration du signalement des erreurs : Les méthodes susceptibles de provoquer une erreur existent désormais en deux versions : La première expose un objet
Résolution des bogues
- Correctif pour TTS : où le futur
SpeakTextAsync
est retourné sans attendre que le rendu audio soit terminé - Correctif pour le marshaling des chaînes dans C# pour activer la prise en charge complète des langages
- Correction d’un problème d’application .NET Core relatif au chargement de la bibliothèque principale avec la version cible de .Net Framework net461 dans les exemples
- Correction de problèmes occasionnels pour déployer des bibliothèques natives dans le dossier de sortie dans les exemples
- Correctif pour fermer le socket web de façon fiable
- Correction des blocages éventuels lors de l’ouverture d’une connexion avec des charges lourdes sur Linux
- Correction des métadonnées manquantes dans le bundle de framework pour macOS
- Correctif pour les problèmes de
pip install --user
sur Windows
Kit de développement logiciel (SDK) de reconnaissance vocale 1.5.1
Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.
Résolution des bogues
- Correction de FromSubscription si utilisé avec la transcription de conversation.
- Correction d’un bogue dans la détection de mot clé des assistants vocaux.
Kit de développement logiciel (SDK) Speech 1.5.0 : version de mai 2019
Nouvelles fonctionnalités
- La détection de mot clé (KWS) est désormais disponible sur Windows et Linux. La fonctionnalité KWS peut fonctionner avec n'importe quel type de microphone, mais la prise en charge officielle de KWS est actuellement limitée aux réseaux de microphones présents dans le matériel Azure Kinect DK ou dans le Kit de développement logiciel (SDK) Speech Devices.
- La fonctionnalité d’indication de phrase est disponible via le Kit de développement logiciel (SDK). Vous pourrez trouver plus d’informations ici.
- La fonctionnalité de transcription de conversation est disponible via le Kit de développement logiciel (SDK).
- Ajoutez la prise en charge des assistants vocaux en utilisant le canal Direct Line Speech.
Exemples
- Ajout d’exemples pour les nouvelles fonctionnalités ou les nouveaux services pris en charge par le Kit de développement logiciel (SDK).
Améliorations/Modifications
- Ajout de plusieurs propriétés au module de reconnaissance pour ajuster le comportement du service ou les résultats du service (par exemple, le masquage des termes grossiers, entre autres).
- Vous pouvez maintenant configurer le module de reconnaissance via les propriétés de configuration standard, même si vous avez créé le module de reconnaissance
FromEndpoint
. - Objective-C : la propriété
OutputFormat
a été ajoutée àSPXSpeechConfiguration
. - Le Kit de développement logiciel (SDK) prend désormais en charge la distribution Linux Debian 9.
Résolution des bogues
- Correction d’un problème de destruction de la ressource de l’intervenant trop tôt dans la synthèse vocale.
Kit de développement logiciel (SDK) Speech 1.4.2
Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.
Kit de développement logiciel (SDK) Speech 1.4.1
Il s’agit d’une version JavaScript uniquement. Aucune fonctionnalité n’a été ajoutée. Les correctifs suivants ont été appliqués :
- Empêcher le pack web de charger https-proxy-agent.
Kit de développement logiciel (SDK) Speech 1.4.0 : version d’avril 2019
Nouvelles fonctionnalités
- Le SDK prend désormais en charge le service de synthèse vocale en version bêta. Il est pris en charge sur Windows et Linux Desktop à partir de C++ et de C#. Pour plus d’informations, consultez la vue d’ensemble de la synthèse vocale.
- Le SDK prend désormais en charge les formats audio MP3 et Opus/Ogg comme fichiers d’entrée de flux. Cette fonctionnalité est uniquement disponible sur Linux à partir de C++ et C#, et est actuellement en version bêta (plus de détails ici).
- Le SDK Speech pour Java, .NET Core, C++ et Objective-C prend désormais en charge macOS. La prise en charge d'Objective-C pour macOS est actuellement en version bêta.
- iOS : Le SDK Speech pour iOS (Objective-C) est désormais également publié en tant que CocoaPod.
- JavaScript : Prise en charge d’un microphone non défini par défaut comme périphérique d’entrée.
- JavaScript : Prise en charge de proxy pour Node.js.
Exemples
- Des exemples d’utilisation du SDK Speech avec C++ et Objective-C sur macOS ont été ajoutés.
- Des exemples montrant l’utilisation du service de synthèse vocale ont été ajoutés.
Améliorations/Modifications
- Python : Les propriétés supplémentaires des résultats de reconnaissance sont désormais exposées via la propriété
properties
. - Pour une prise en charge supplémentaire du développement et du débogage, vous pouvez rediriger les informations de journalisation et de diagnostics du SDK vers un fichier journal (plus de détails ici).
- JavaScript : Améliorer les performances de traitement audio.
Résolution des bogues
- Mac/iOS : correction d’un bogue qui entraînait une longue attente lorsqu’une connexion au service Speech ne pouvait pas être établie.
- Python : améliorer la gestion des erreurs pour les arguments dans les rappels Python.
- JavaScript : Correction d’un rapport d’état incorrect pour une reconnaissance vocale terminée sur RequestSession.
Kit de développement logiciel (SDK) Speech 1.3.1 : Actualisation de février 2019
Il s’agit d’une version de correctif de bogue et affecte uniquement le Kit de développement logiciel (SDK) natif/managé. Il n’affecte pas la version JavaScript du SDK.
Résolution de bogue
- Correction d’une fuite de mémoire lors de l’utilisation d’une entrée de microphone. N’affecte pas es entrées basées sur un flux ou les entrées de fichier.
Kit de développement logiciel (SDK) de reconnaissance vocale 1.3.0 : Version de février 2019
Nouvelles fonctionnalités
- Le SDK Speech prend en charge la sélection du microphone d’entrée via la classe
AudioConfig
. Cela vous permet de diffuser en streaming des données audio vers le service Speech à partir d’un microphone qui n’est pas le microphone par défaut. Pour plus d’informations, consultez la documentation décrivant la sélection du périphérique d’entrée audio. JavaScript ne propose pas encore cette fonctionnalité. - Le SDK Speech prend désormais en charge Unity dans une version bêta. Envoyez des commentaires via la section problèmes dans le dépôt d’exemples GitHub. Cette version prend en charge Unity sur Windows x86 et x64 (applications de bureau autonome ou plateforme Windows universelle) et Android (ARM32/64, x86). Des informations supplémentaires sont disponibles dans notre Démarrage rapide Unity.
- Le fichier
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(fourni dans les versions précédentes) n’est plus nécessaire. La fonctionnalité est désormais intégrée au kit SDK principal.
Exemples
Le nouveau contenu suivant est disponible dans notre dépôt d’exemples :
- Exemples supplémentaires pour
AudioConfig.FromMicrophoneInput
. - Exemples Python supplémentaires pour la reconnaissance de l’intention et la traduction.
- Exemples supplémentaires pour l’utilisation de l’objet
Connection
dans iOS. - Exemples Java supplémentaires pour la traduction avec une sortie audio.
- Nouvel exemple pour l’utilisation de l’API REST de transcription Batch.
Améliorations/Modifications
- Python
- Vérification de paramètres améliorée et messages d’erreur dans
SpeechConfig
. - Ajoutez une prise en charge de l’objet
Connection
. - Prise en charge de Python 32 bits (x86) sur Windows.
- Le SDK Speech pour Python n’est plus en version bêta.
- Vérification de paramètres améliorée et messages d’erreur dans
- iOS
- Le SDK est désormais basé sur le SDK iOS version 12.1.
- Le SDK prend désormais en charge iOS 9.2 et versions ultérieures.
- Améliorer la documentation de référence et corriger plusieurs noms de propriété.
- JavaScript
- Ajoutez une prise en charge de l’objet
Connection
. - Ajouter des fichiers de définition de type pour JavaScript en offre groupée
- Prise en charge initiale et implémentation des conseils.
- Retourne la collection de propriétés avec le service JSON dans le cadre de la reconnaissance
- Ajoutez une prise en charge de l’objet
- Les DLL Windows contiennent à présent une vraie ressource de version.
- Si vous créez un module de reconnaissance
FromEndpoint
, vous pouvez ajouter des paramètres directement à l’URL du point de terminaison.FromEndpoint
ne vous permet pas de configurer le module de reconnaissance via les propriétés de configuration standard.
Résolution des bogues
- Un nom d’utilisateur et un mot de passe de proxy vides n’étaient pas traités correctement. Avec cette version, si vous définissez un nom d’utilisateur et un mot de passe proxy en tant que chaîne vide, ils ne seront pas soumis lors de la connexion au proxy.
- Les ID de session (SessionId) créés par le SDK n’étaient pas toujours vraiment aléatoires pour certains langages/environnements. L’ajout de l’initialisation du générateur aléatoire a permis de corriger ce problème.
- Amélioration de la gestion du jeton d’autorisation. Si vous souhaitez utiliser un jeton d’autorisation, spécifiez-le dans le
SpeechConfig
et ne renseignez pas la clé d’abonnement. Créez ensuite le module de reconnaissance comme d’habitude. - Dans certains cas, l’objet
Connection
n’était pas libéré correctement. Ce problème est à présent résolu. - L’exemple JavaScript a été corrigé de façon à prendre en charge la sortie audio pour la synthèse de traduction également dans Safari.
Kit de développement logiciel (SDK) Speech 1.2.1
Il s’agit d’une version JavaScript uniquement. Aucune fonctionnalité n’a été ajoutée. Les correctifs suivants ont été appliqués :
- Déclenchement du fin de flux au niveau de turn.end, et non pas de speech.end.
- Correction d’un bogue dans la pompe audio qui ne planifiait pas le prochain envoi si l’envoi en cours échouait.
- Correction de la reconnaissance continue avec le jeton d’authentification.
- Correction de bogue pour un module de reconnaissance / des points de terminaison différents.
- Améliorations de la documentation.
SDK Speech 1.2.0 : Version de décembre 2018
Nouvelles fonctionnalités
- Python
- La version bêta de la prise en charge de Python (3.5 et au-delà) est disponible avec cette version. Vous pourrez trouver plus d’informations ici](../../quickstart-python.md).
- JavaScript
- Le SDK Speech pour JavaScript est open source. Le code source est disponible sur GitHub.
- Nous prenons désormais en charge Node.js. Pour plus d’informations, consultez cette page.
- La restriction sur la longueur des sessions audio a été supprimée. La reconnexion se produit automatiquement à l’arrière-plan.
- l'objet
Connection
- À partir de la
Recognizer
, vous pouvez accéder à un objetConnection
. Cet objet vous permet de lancer explicitement la connexion au service et de vous abonner à des événements de connexion et de déconnexion. (JavaScript et Python ne proposent pas encore cette fonctionnalité.)
- À partir de la
- Prise en charge d’Ubuntu 18.04.
- Android
- Prise en charge de ProGuard activée durant la génération d’APK.
Améliorations
- Améliorations apportées à l’utilisation des threads internes afin de réduire le nombre de threads, de verrous et de mutex.
- Amélioration des rapports d’erreurs et des informations sur les erreurs. Dans plusieurs cas, des messages d’erreur n’ont pas été entièrement propagés.
- Mise à jour des dépendances de développement dans JavaScript pour utiliser des modules à jour.
Résolution des bogues
- Résolution des fuites de mémoire causés par une incompatibilité de type dans
RecognizeAsync
. - Dans certains cas, des exceptions étaient divulguées.
- Résolution des fuites de mémoire dans les arguments d’événement de traduction.
- Résolution d’un problème de verrouillage à la suite d’une reconnexion dans les sessions de longue durée.
- Résolution d’un problème pouvant entraîner l’absence d’un résultat final en cas d’échec de la traduction.
- C# : Si une opération
async
n’était pas attendue dans le thread principal, le module de reconnaissance pouvait être supprimé avant la fin de la tâche asynchrone. - Java : Résolution d’un problème entraînant un blocage de la machine virtuelle Java.
- Objective-C : Résolution d’un mappage d’enum ; RecognizedIntent était retourné à la place de
RecognizingIntent
. - JavaScript : Définition du format de sortie par défaut « simple » dans
SpeechConfig
. - JavaScript : Suppression d’une incohérence au niveau des propriétés sur l’objet config entre JavaScript et d’autres langages.
Exemples
- Mise à jour et résolution de plusieurs exemples (par exemple, voix de sortie pour la traduction, etc.).
- Ajout d’exemples Node.js dans le dépôt d’exemples.
SDK Speech 1.1.0
Nouvelles fonctionnalités
- Prise en charge d'Android x86/x64.
- Prise en charge de proxy : dans l’objet
SpeechConfig
, vous pouvez maintenant appeler une fonction pour définir les informations de proxy (nom d’hôte, port, nom d’utilisateur et mot de passe). Cette fonctionnalité n’est pas encore disponible sur iOS. - Amélioration du code d’erreur et des messages. Si une reconnaissance a renvoyé une erreur, celle-ci a déjà défini
Reason
(dans l’événement annulé) ouCancellationDetails
(dans le résultat de la reconnaissance) surError
. L’événement annulé contient maintenant deux membres supplémentaires,ErrorCode
etErrorDetails
. Si le serveur a renvoyé des informations d’erreur supplémentaires avec l’erreur signalée, elles sont désormais disponibles dans les nouveaux membres.
Améliorations
- Ajout d'une vérification supplémentaire dans la configuration du module de reconnaissance, et ajout d'un message d’erreur supplémentaire.
- Amélioration de la gestion des longs silences au milieu d’un fichier audio.
- Package NuGet : pour les projets .NET Framework, il empêche toute génération avec une configuration AnyCPU.
Résolution des bogues
- Correction de plusieurs exceptions détectées dans les modules de reconnaissance. En outre, les exceptions sont interceptées et converties en événement
Canceled
. - Correction d'une fuite de mémoire dans la gestion des propriétés.
- Correction d’un bogue dans lequel un fichier d’entrée audio pouvait bloquer le module de reconnaissance.
- Correction d’un bogue dans lequel des événements pouvaient être reçus après un événement d’arrêt de session.
- Correction de certaines conditions de concurrence dans le thread.
- Correction d’un problème de compatibilité avec iOS qui pouvait entraîner un blocage.
- Améliorations de la stabilité dans la prise en charge du microphone Android.
- Correction d’un bogue dans lequel un module de reconnaissance de JavaScript ignorait la langue de reconnaissance.
- Correction d’un bogue qui empêchait de définir
EndpointId
(dans certains cas) dans JavaScript. - Modification de l'ordre des paramètres dans AddIntent dans JavaScript, et ajout de la signature
AddIntent
JavaScript manquante.
Exemples
- Ajout d’exemples C++ et C# pour la diffusion en continu dans l’exemple de référentiel.
SDK Speech 1.0.1
Améliorations de la fiabilité et résolution des bogues :
- Correction d’une erreur irrécupérable potentielle due à une condition de concurrence lors de la suppression du module de reconnaissance
- Correction d’une erreur irrécupérable potentielle en cas d’annulation de propriétés.
- Vérification supplémentaire des erreurs et des paramètres.
- Objective-C : correction d’une erreur irrécupérable possible provoquée par le remplacement d’un nom dans une chaîne NSString.
- Objective-C : réglage de la visibilité de l’API.
- JavaScript : correction des événements et de leurs charges utiles.
- Améliorations de la documentation.
Dans notre exemple de référentiel, un nouvel échantillon pour JavaScript a été ajouté.
Kit de développement logiciel (SDK) Azure AI Speech 1.0.0 : version de septembre 2018
Nouvelles fonctionnalités
- Prise en charge d’Objective-C sur iOS. Découvrez le guide de démarrage rapide sur Objective-C pour iOS.
- Prise en charge de JavaScript dans le navigateur. Découvrez le guide de démarrage rapide JavaScript.
Dernières modifications
- Cette version contient plusieurs changements cassants. Pour plus d’informations, consultez cette page.
Kit de développement logiciel (SDK) Azure AI Speech 0.6.0 : version d’août 2018
Nouvelles fonctionnalités
- Les applications UWP créées à partir du SDK Speech peuvent désormais passer le Kit de certification des applications Windows (WACK). Consultez le guide de démarrage rapide UWP.
- Prise en charge de .NET Standard 2.0 sur Linux (Ubuntu 16.04 x64).
- Expérimental : prise en charge de Java 8 sur Windows (64 bits) et Linux (Ubuntu 16.04 x64). Consultez le guide de démarrage rapide Java Runtime Environment.
Changement fonctionnel
- Exposition d’informations supplémentaires sur les erreurs de connexion
Dernières modifications
- Sur Java (Android), la fonction
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
ne requiert plus aucun paramètre de chemin d’accès. Le chemin est désormais automatiquement détecté sur toutes les plateformes prises en charge. - L’élément get-accessor de la propriété
EndpointUrl
dans Java et C# a été supprimé.
Résolution des bogues
- Dans Java, le résultat de la synthèse audio sur le module de reconnaissance de traduction est maintenant implémenté.
- Correction d’un bogue qui pouvait provoquer l’inactivité des threads et un plus grand nombre de sockets ouverts et inutilisés
- Correction d’un problème qui provoquait l’arrêt d’une reconnaissance de longue durée au milieu d’une transmission
- Correction d’une condition de concurrence lors de l’arrêt du module de reconnaissance.
Kit de développement logiciel (SDK) Azure AI Speech 0.5.0 : version de juillet 2018
Nouvelles fonctionnalités
- Prise en charge de la plateforme Android (API 23 : Android 6.0 Marshmallow ou supérieur). Consultez le Démarrage rapide Android.
- Prise en charge de .NET Standard 2.0 sous Windows. Consultez le Démarrage rapide .NET Core.
- Expérimental : Prise en charge d’UWP sur Windows (version 1709 ou ultérieure).
- Consultez le guide de démarrage rapide UWP.
- Notez que les applications UWP générées avec le SDK Speech ne passent pas encore le Kit de certification des applications Windows (WACK).
- Prise en charge des reconnaissances de longue durée avec la reconnexion automatique
Modifications fonctionnelles
StartContinuousRecognitionAsync()
prend en charge les reconnaissances de longue durée.- Le résultat des reconnaissances contient davantage de champs. Ils sont décalés par rapport au début de l’audio et de la durée (tous les deux en cycles) du texte reconnu et des valeurs supplémentaires représentant l’état de la reconnaissance, par exemple,
InitialSilenceTimeout
etInitialBabbleTimeout
. - Prise en charge d’AuthorizationToken pour la création d’instances Data Factory.
Dernières modifications
- Événements de reconnaissance : le type d’événement
NoMatch
a été fusionné avec l’événementError
. - Le SpeechOutputFormat du langage C# a été renommé
OutputFormat
pour s’aligner sur le C++. - Le type de retour de certaines méthodes de l’interface
AudioInputStream
a été légèrement modifié :- Dans Java, la méthode
read
retourne désormaislong
au lieu deint
. - Dans C#, la méthode
Read
retourne désormaisuint
au lieu deint
. - Dans C++, les méthodes
Read
etGetFormat
retournent désormaissize_t
au lieu deint
.
- Dans Java, la méthode
- C++ : les instances de flux d’entrée audio peuvent maintenant être passées comme
shared_ptr
.
Résolution des bogues
- Correction des valeurs de retour incorrectes dans les résultats lorsque
RecognizeAsync()
expire. - La dépendance aux bibliothèques Media Foundation Windows a été supprimée. Le SDK utilise désormais les API Core Audio.
- Correction de la documentation : ajout de la page régions pour répertorier les régions prises en charge.
Problème connu
- Le SDK Speech pour Android ne signale pas les résultats de la synthèse vocale pour la traduction. Ce problème sera corrigé dans la prochaine version.
Kit de développement logiciel (SDK) Azure AI Speech 0.4.0 : version de juin 2018
Modifications fonctionnelles
AudioInputStream
Un module de reconnaissance peut désormais consommer un flux en tant que source audio. Pour plus d’informations, consultez ce guide pratique.
Format de sortie détaillé
Lorsque vous créez un
SpeechRecognizer
, vous pouvez demander le format de sortieDetailed
ouSimple
. LeDetailedSpeechRecognitionResult
contient un score de confiance, le texte reconnu, la forme lexicale brute, la forme normalisée et la forme normalisée avec les blasphèmes masqués.
Modification avec rupture
SpeechRecognitionResult.Text
a été remplacé parSpeechRecognitionResult.RecognizedText
pour le langage C#.
Résolution des bogues
- Correction d’un problème de rappel possible dans la couche USP qui se produisait lors de l’arrêt.
- Si un module de reconnaissance a utilisé un fichier d’entrée audio, il a été placé sur le descripteur de fichier plus longtemps que nécessaire.
- Suppression de plusieurs blocages entre la pompe de messages et le module de reconnaissance.
- Expiration du délai de déclenchement d’un résultat
NoMatch
lors de la réponse du service. - Les bibliothèques Media Foundation Windows sont chargées en différé. Cette bibliothèque est nécessaire uniquement pour l’entrée du microphone.
- La vitesse de chargement de données audio est limitée à environ deux fois la vitesse audio d’origine.
- Désormais, les noms d’assemblys C# .NET dans Windows sont forts.
- Correction de la documentation :
Region
est obligatoire pour créer un module de reconnaissance.
D’autres exemples ont été ajoutés et sont constamment mis à jour. Pour obtenir la dernière série d’exemples, accédez au dépôt GitHub d’exemples pour le SDK Speech.
Kit de développement logiciel (SDK) Azure AI Speech 0.2.12733 : version de mai 2018
Cette version est la première préversion publique du SDK d’Azure AI Speech.