Qu’est-ce que la reconnaissance vocale personnalisée ?

Article
01/23/2024

Avec la reconnaissance vocale personnalisée, vous pouvez évaluer et améliorer l’exactitude de la reconnaissance vocale pour vos applications et produits. Un modèle vocal personnalisé peut être utilisé pour la reconnaissance vocale en temps réel, la traduction vocale et la transcription par lots.

Prête à l’emploi, la reconnaissance vocale utilise un modèle de langage universel comme modèle de base qui est entraîné avec des données appartenant à Microsoft et reflète la langue couramment parlée. Le modèle de base est préentraîné avec des dialectes et des phonétiques représentant divers domaines communs. Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne bien dans la plupart des scénarios de reconnaissance vocale.

Il est possible d’utiliser un modèle personnalisé pour augmenter le modèle de base dans le but d’améliorer la reconnaissance du vocabulaire propre à un domaine spécifique à l’application. Pour cela, vous entraînez le modèle en lui fournissant des données de texte. Vous pouvez aussi vous en servir pour améliorer la reconnaissance en fonction des conditions audio spécifiques de l’application en fournissant des données audio avec des transcriptions de référence.

Vous pouvez également entraîner un modèle avec du texte structuré lorsque les données suivent un pattern, spécifier des prononciations personnalisées, et personnaliser la mise en forme du texte d’affichage avec une normalisation du texte inversé personnalisée, une réécriture personnalisée et un filtrage des grossièretés personnalisé.

Comment cela fonctionne-t-il ?

Avec la reconnaissance vocale personnalisée, vous pouvez charger vos propres données, tester et entraîner un modèle personnalisé, comparer l’exactitude entre les modèles, et déployer un modèle sur un point de terminaison personnalisé.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Voici des informations supplémentaires sur la série d’étapes présentées dans le diagramme précédent :

Créez un projet et choisissez un modèle. Utilisez une ressource Speech que vous avez créée sur le portail Azure. Si vous entraînez un modèle personnalisé avec des données audio, choisissez une région de ressource Speech dotée de matériel dédié à l’entraînement de données audio. Pour plus d’informations, consultez les notes de bas de page du tableau des régions.
Charger des données de test. Chargez des données de test pour évaluer l’offre de reconnaissance vocale pour vos applications, outils et produits.
Tester la qualité de la reconnaissance. Utilisez Speech Studio pour lire le contenu audio chargé et inspecter la qualité de la reconnaissance vocale de vos données de test.
Tester le modèle quantitativement. Évaluez et améliorez l’exactitude du modèle de reconnaissance vocale. Le service Speech indique un taux d’erreurs du mot (WER) quantitatif, ce qui vous permet de déterminer si davantage d’entraînement est nécessaire.
Effectuer l’apprentissage d’un modèle. Fournissez des transcriptions écrites et du texte associé avec les données audio correspondantes. Il n’est pas obligatoire de tester un modèle avant et après l’entraînement, mais cela est recommandé.

Remarque

Vous payez pour l’utilisation du modèle de reconnaissance vocale personnalisée et l’hébergement des points de terminaison. Vous serez également facturé pour la formation du modèle vocal personnalisé si le modèle de base a été créé le 1er octobre 2023 ou à une date ultérieure. La formation ne vous est pas facturée si le modèle de base a été créé avant octobre 2023. Pour plus d’informations, consultez Tarification d’Azure AI Speech et la section Frais d’adaptation dans le guide de migration de la reconnaissance vocale 3.2.
Déployer un modèle. Une fois que vous êtes satisfait des résultats des tests, déployez le modèle sur un point de terminaison personnalisé. À l’exception de la transcription par lots, vous devez déployer un point de terminaison personnalisé pour utiliser un modèle de reconnaissance vocale personnalisée.

Conseil

Un point de terminaison de déploiement hébergé n’est pas nécessaire pour utiliser la reconnaissance vocale personnalisée avec l’API de transcription par lots. Vous pouvez conserver des ressources si le modèle vocal personnalisé est utilisé uniquement pour la transcription par lots. Pour plus d’informations, consultez les tarifs du service Speech.

Intelligence artificielle responsable

Un système d’IA englobe non seulement la technologie, mais aussi ses utilisateurs, les personnes concernées et l’environnement dans lequel il est déployé. Lisez les notes de transparence pour en savoir plus sur l’utilisation et le déploiement d’une IA responsable dans vos systèmes.

Qu’est-ce que la reconnaissance vocale personnalisée ?

Comment cela fonctionne-t-il ?

Intelligence artificielle responsable

Étapes suivantes

Ressources supplémentaires