Cet article répond aux questions fréquentes sur la fonctionnalité de reconnaissance vocale. Si vous ne trouvez pas ici de réponses à vos questions, consultez les autres options de support.
Général
Quelle est la différence entre un modèle de reconnaissance vocale de référence et un modèle personnalisé ?
Un modèle de reconnaissance vocale de référence a été entraîné avec des données appartenant à Microsoft. Il est déjà déployé dans le cloud. Vous pouvez créer et utiliser un modèle personnalisé pour mieux l’adapter à un environnement présentant un bruit ambiant ou une langue spécifique. Un atelier, une voiture ou une rue bruyante nécessiteraient d’utiliser un modèle acoustique adapté. La biologie, la physique, la radiologie, les noms de produits et les acronymes personnalisés sont des domaines qui nécessitent un modèle de langage adapté. Si vous souhaitez entraîner un modèle personnalisé, commencez par du texte connexe pour améliorer la reconnaissance des termes et expressions spécialisés.
Par où commencer si je souhaite utiliser un modèle de référence ?
Tout d’abord, obtenez une clé de ressource Speech et une région dans le Portail Azure. Si vous souhaitez effectuer des appels REST à un modèle de référence prédéployé, consultez la documentation relative aux API REST. Si vous souhaitez utiliser des connexions WebSocket, téléchargez le kit SDK Speech.
Dois-je toujours générer un modèle vocal personnalisé ?
Non. Si votre application utilise un langage générique, quotidien, vous n’avez pas besoin de personnaliser un modèle. Si elle est utilisée dans un environnement dénué ou presque de bruit de fond, ce n’est pas davantage nécessaire.
Vous pouvez déployer des modèles de référence et personnalisés dans le portail, puis exécuter des tests de précision sur ceux-ci. Vous pouvez utiliser cette fonctionnalité pour mesurer la précision d’un modèle de référence par rapport à celle d’un modèle personnalisé.
Comment puis-je savoir quand le traitement de mon jeu de données ou modèle est terminé ?
Pour le moment, la seule façon de le savoir est de consulter l’état du modèle ou du jeu de données dans le tableau. Une fois le traitement terminé, l’état est Réussi.
Puis-je créer plusieurs modèles ?
Il n’existe aucune limite au nombre de modèles que vous pouvez avoir dans votre collection.
J’ai réalisé que j’ai commis une erreur. Comment annuler une importation de données ou une création de modèle en cours ?
Actuellement, vous ne pouvez pas restaurer un processus d’adaptation acoustique ou linguistique. Vous pouvez supprimer des données et modèles importés une fois que ceux-ci sont dans un état terminal.
J’obtiens plusieurs résultats pour chaque expression avec le format de sortie détaillé. Que dois-je utiliser ?
Prenez toujours le premier résultat, même si un autre résultat (« N-Best ») peut avoir une valeur de confiance plus élevée. Le service Speech considère que le premier résultat est le meilleur. Le résultat peut également être une chaîne vide si aucune reconnaissance vocale n’a pu être effectuée.
Les autres résultats sont vraisemblablement moins bons. Il se peut que les majuscules et la ponctuation ne soient pas entièrement appliquées. Ces résultats sont particulièrement utiles dans des scénarios spéciaux, par exemple pour permettre aux utilisateurs de choisir des corrections dans une liste ou pour gérer des commandes mal reconnues.
Pourquoi existe-t-il plusieurs modèles de base ?
Vous avez le choix entre plusieurs modèles de base dans le service Speech. Chaque nom de modèle contient la date à laquelle il a été ajouté. Quand vous commencez à entraîner un modèle personnalisé, utilisez le modèle le plus récent pour plus de justesse. Les anciens modèles de base sont toujours disponibles pendant un certain temps après la mise à disposition d’un nouveau modèle. Vous pouvez continuer à utiliser le modèle utilisé jusqu’à ce qu’il soit mis hors service (consultez Cycle de vie des modèles et des points de terminaison). Nous vous recommandons toujours de passer au dernier modèle de base pour plus de justesse.
Puis-je mettre à jour un modèle existant (empilement de modèles) ?
Vous ne pouvez pas mettre à jour un modèle existant. Une solution consiste à combiner l’ancien jeu de données avec le nouveau, puis à apporter les adaptions souhaitées.
L’ancien et le nouveau jeux de données doivent être combinés dans un seul fichier .zip (pour les données acoustiques) ou dans un fichier .txt (pour les données linguistiques). Une fois l’adaptation effectuée, redéployez le nouveau modèle mis à jour pour obtenir un nouveau point de terminaison.
Quand une nouvelle version d’un modèle de base est disponible, mon déploiement est-il mis à jour automatiquement ?
Les déploiements ne sont pas mis à jour automatiquement.
Si vous avez adapté et déployé un modèle, le déploiement existant reste en l’état. Vous pouvez désactiver le modèle déployé, le réadapter à l’aide de la version la plus récente du modèle de base et le redéployer pour plus de justesse.
Les modèles de base et les modèles personnalisés sont mis hors service après un certain temps (voir Cycle de vie des modèles et des points de terminaison).
Puis-je télécharger mon modèle et l’exécuter localement ?
Vous pouvez exécuter un modèle personnalisé localement dans un conteneur Docker.
Puis-je copier ou déplacer mes jeux de données, modèles et déploiements dans une autre région ou un autre abonnement ?
Vous pouvez utiliser l’API REST Models_Copy pour copier un modèle personnalisé dans une autre région ou un autre abonnement. Les jeux de données et les déploiements ne peuvent pas être copiés. Vous pouvez réimporter un jeu de données dans un autre abonnement et y créer des points de terminaison à l’aide des copies du modèle.
Mes requêtes sont-elles journalisées ?
Par défaut, les requêtes ne sont pas journalisées (ni audio, ni transcription). Si nécessaire, vous pouvez sélectionner l’option Journaliser le contenu à partir de ce point de terminaison quand vous créez un point de terminaison personnalisé. Vous pouvez également activer la journalisation audio dans le kit SDK Speech, requête par requête, sans avoir à créer de point de terminaison personnalisé. Dans les deux cas, les données audio et les résultats de la reconnaissance des demandes sont stockés dans un stockage sécurisé. Les abonnements qui utilisent un espace de stockage appartenant à Microsoft sont disponibles pendant 30 jours.
Vous pouvez exporter les fichiers journalisés sur la page de déploiement dans Speech Studio si vous utilisez un point de terminaison personnalisé pour lequel l’option Journaliser le contenu à partir de ce point de terminaison est activée. Si la journalisation audio est activée par l’intermédiaire du kit SDK, appelez l’API pour accéder aux fichiers. Vous pouvez également utiliser l’API pour supprimer les journaux à tout moment.
Mes requêtes sont-elles limitées ?
Pour plus d’informations, consultez Quotas et limites du service Speech.
Comment suis-je facturé pour l’audio à deux canaux ?
Si vous soumettez chaque canal séparément dans leur propre fichier, vous êtes facturé pour la durée audio de chaque fichier. Si vous soumettez un seul fichier dont les canaux sont multiplexés, vous êtes facturé pour la durée de ce fichier. Pour plus d’informations sur la tarification, consultez la page Tarification Azure AI services.
Important
Si vous rencontrez d’autres problèmes de confidentialité qui vous empêchent d’utiliser le service Custom Speech, contactez l’un des canaux de support.
Augmentation du niveau de concurrence
Pour plus d’informations, consultez Quotas et limites du service Speech.
Importation de données
Quelle est la limite de la taille d’un jeu de données, et pourquoi cette limite est-elle imposée ?
La limite est due à la restriction de la taille des fichiers pour le chargement HTTP. Pour connaître la limite réelle, consultez Quotas et limites du service Speech. Vous pouvez fractionner vos données en plusieurs jeux de données et les sélectionner tous pour entraîner le modèle.
Puis-je compresser mes fichiers texte pour pouvoir charger un fichier texte plus volumineux ?
Non. Seuls des fichiers texte non compressés sont actuellement autorisés.
Le rapport relatif aux données indique que des énoncés ont échoué. Quel est le problème ?
L’échec du chargement de 100 % des énoncés dans un fichier n’est pas un problème. Si la majeure partie des énoncés d’un jeu de données acoustiques ou linguistiques (par exemple, plus de 95 %) est correctement importée, le jeu de données est utilisable. Toutefois, nous vous recommandons quand même d’essayer de comprendre la cause de l’échec du chargement des énoncés, puis de résoudre le problème. La plupart des problèmes courants, comme les erreurs de mise en forme, sont faciles à corriger.
Création d’un modèle acoustique
De quel volume de données acoustiques ai-je besoin ?
Nous vous recommandons de commencer par un volume de 30 minutes à 1 heure de données acoustiques.
Quelles données dois-je collecter ?
Collectez des données aussi proches que possible du scénario et du cas d’usage de l’application. La collection de données doit correspondre à l’application et aux utilisateurs cibles en termes d’appareils, d’environnements et de types d’orateurs. En général, vous devez collecter des données d’un éventail d’orateurs aussi large que possible.
Comment collecter des données acoustiques ?
Vous pouvez créer une application de collecte de données autonome, ou utiliser n’importe que logiciel d’enregistrement audio du commerce. Vous pouvez également créer une version de votre application qui journalise les données audio, puis les utilise.
Dois-je me charger de la transcription des données d’adaptation ?
Oui. Vous pouvez les transcrire vous-même ou utiliser un service de transcription professionnel. Certains utilisateurs préfèrent les transcripteurs professionnels, tandis que d’autres ont recours au crowdsourcing ou transcrivent les données eux-mêmes.
Combien de temps faut-il pour entraîner un modèle personnalisé avec des données audio ?
L’apprentissage d’un modèle avec des données audio peut être un processus long. Selon la quantité de données, la création d’un modèle personnalisé peut prendre plusieurs jours. S’il est impossible d’effectuer la tâche en moins d’une semaine, le service peut abandonner l’opération d’entraînement et signaler l’échec du modèle.
En règle générale, le service Speech traite environ 10 heures de données audio par jour dans les régions qui disposent d’un matériel dédié. L’entraînement avec du texte uniquement est beaucoup plus rapide et se termine généralement en quelques minutes.
Utilisez l’une des régions dans lesquelles du matériel dédié est disponible pour l’apprentissage. Le service Speech utilise jusqu’à 100 heures d’audio pour l’apprentissage dans ces régions.
Tests de précision
Qu’est-ce que le taux WER (taux d’erreur de mots), et comment est-il calculé ?
Le taux d’erreur de mots est la métrique d’évaluation de la reconnaissance vocale. Le taux WER (taux d’erreur de mots) est calculé sous la forme du nombre total d’erreurs (insertions, suppressions et substitutions), divisé par le nombre total de mots dans la transcription de référence. Pour plus d’informations, consultez Tester le modèle quantitativement.
Comment faire pour déterminer si les résultats d’un test de précision sont bons ?
Les résultats sont le fruit d’une comparaison entre le modèle de référence et le modèle personnalisé. Pour que la personnalisation soit pertinente, votre objectif doit être de dépasser le modèle de référence.
Comment déterminer le taux WER d’un modèle de base pour voir s’il s’est amélioré ?
Les résultats de test hors connexion indiquent la précision de référence du modèle personnalisé, et l’amélioration obtenue par rapport à cette référence.
Création d’un modèle linguistique
Quel volume de données de texte dois-je charger ?
Cela dépend de la mesure dans laquelle la terminologie et les expressions spécifiques utilisées dans votre application se distinguent des modèles linguistiques de départ. Pour tous les nouveaux mots, il est utile de fournir autant d’exemples que possible de l’utilisation de ces mots. Pour les expressions courantes utilisées dans votre application, notamment les expressions contenues dans les données linguistiques, il est utile de fournir de nombreux exemples, car cela indique au système d’écouter également ces termes. Il est courant d’avoir au moins une centaine voire, en général, plusieurs centaines d’énoncés ou plus dans le jeu de données linguistiques. Par ailleurs, si certains types de requêtes sont censés être plus fréquents que d’autres, vous pouvez insérer plusieurs copies des requêtes courantes dans le jeu de données.
Puis-je simplement charger une liste de mots ?
Le chargement d’une liste de mots permet de les ajouter au vocabulaire. Toutefois, cela n’indique pas au système la façon dont les mots sont normalement utilisés. En fournissant des énoncés complets ou partiels (phrases ou expressions que les utilisateurs sont susceptibles de dire), le modèle de langage peut apprendre les mots nouveaux ainsi que la façon dont ils sont utilisés. Le modèle linguistique personnalisé convient, non seulement pour l’ajout de mots au système, mais aussi pour l’ajustement de la probabilité d’occurrence de mots connus pour votre application. Fournir des énoncés complets permet au système de mieux apprendre.