Qu’est-ce que la traduction vocale ?

2025-05-20

Dans cet article, vous découvrirez les avantages et les possibilités de la traduction avec Azure AI Speech. Le service Speech prend en charge la traduction en temps réel et multilingue du message au message et de la conversion de parole en texte des flux audio.

Avec le SDK Speech ou l’interface CLI Speech, vous donnez à vos applications, outils et appareils l’accès à une transcription de la source et à une traduction en sortie pour l’audio fourni. Des résultats de transcription et de traduction intermédiaires sont retournés dès que la parole est détectée, et les résultats finaux peuvent être convertis en synthèse vocale.

Pour obtenir la liste des langues prises en charge pour la traduction vocale, consultez Prise en charge de la langue et de la voix.

Conseil

Accédez à Speech Studio : pour tester et traduire rapidement le message vers d’autres langues de votre choix avec une faible latence.

Fonctionnalités de base

Les principales fonctionnalités de la traduction vocale sont les suivantes :

Traduction par conversion de parole en texte
Message vers la traduction vocale
Traduction vocale multilingue
Traduction dans plusieurs langues cibles

Traduction par reconnaissance vocale

La fonction standard offerte par le service Speech est la possibilité de recevoir un flux audio en entrée dans la langue source spécifiée, et de le traduire et de le restituer sous forme de texte dans la langue cible spécifiée.

Message vers la traduction vocale

En complément de cette fonctionnalité, le service Speech offre également la possibilité de lire à haute voix le texte traduit en utilisant notre large base de données de voix pré-entraînées, ce qui permet d’obtenir un résultat naturel à partir du texte d’entrée.

Traduction vocale multilingue

La traduction vocale multilingue met en œuvre un nouveau niveau de technologie de traduction vocale qui débloque diverses capacités, notamment l’absence de langue d’entrée spécifiée, la gestion des changements de langue au cours d’une même session et la prise en charge des traduction de stream en direct vers l’anglais. Ces fonctionnalités permettent d’atteindre un nouveau niveau de puissance de traduction vocale qui peut être mis en œuvre dans vos produits.

Langue d’entrée non spécifiée. La traduction vocale multilingue peut recevoir des données audio dans un large éventail de langues, et il n’est pas nécessaire de spécifier la langue d’entrée attendue.
Changement de langue. La traduction vocale multilingue permet de parler plusieurs langues au cours d’une même session et de les traduire toutes dans la même langue cible. Il n’est pas nécessaire de redémarrer une session lorsque le langage d’entrée change ou d’autres actions par vous.
Transcription. Le service génère une transcription dans la langue cible spécifiée. La transcription de langue source n’est pas encore disponible.

Voici quelques cas d’utilisation de la traduction vocale multilingue :

Interprète voyage. Lors d’un voyage à l’étranger, la traduction vocale multilingue offre la possibilité de créer une solution qui permet aux clients de traduire n’importe quelle entrée audio de et vers la langue locale. Cela leur permet de communiquer avec les habitants et de mieux comprendre leur environnement.
Réunion d’entreprise. Lors d’une réunion avec des personnes parlant des langues différentes, la traduction vocale multilingue permet aux membres de la réunion de communiquer entre eux naturellement, comme s’il n’y avait pas de barrière linguistique.

Pour obtenir la liste des langues d’entrée (sources) prises en charge, consultez la documentation sur les langues de la reconnaissance vocale. Pour obtenir la liste des langues de sortie (cibles) prises en charge, consultez le tableau Langue pour la traduction de texte dans la documentation sur les langues de la traduction vocale.

Pour plus d’informations sur la traduction vocale multilingue, consultez la traduction vocale comment guider et exemples de traduction vocale sur GitHub.

Traduction dans plusieurs langues cibles

Dans les cas où vous souhaitez obtenir des résultats en plusieurs langues, le service Speech vous offre directement la possibilité de traduire la langue d’entrée en deux langues cibles. Cela leur permet de recevoir deux sorties et de partager ces traductions à un public plus large avec un seul appel d’API. Si d’autres langues de sortie sont requises, vous pouvez créer une ressource multiservices ou utiliser des services de traduction distincts.

Si vous avez besoin d’une traduction dans plus de deux langues cibles, vous devez créer une ressource AI Foundry ou utiliser des services de traduction distincts pour plus de langues au-delà de la seconde. Si vous choisissez d’appeler le service de traduction vocale avec une ressource multiservice, veuillez noter que des frais de traduction s’appliquent pour chaque langue au-delà de la deuxième, sur la base du nombre de caractères de la traduction.

Pour calculer les frais de traduction appliqués, reportez-vous à tarification d’Azure AI Traducteur.

Tarification de la traduction dans plusieurs langues cibles

Il est important de noter que le service de traduction vocale fonctionne en temps réel et que les résultats vocaux intermédiaires sont traduits pour générer des résultats de traduction intermédiaires. Par conséquent, la quantité de traduction réelle est supérieure aux jetons de l’audio d’entrée. Vous êtes facturé(e) pour la transcription de conversion de parole en texte et la traduction de texte pour chaque langue cible.

Par exemple, supposons que vous souhaitez des traductions de texte d’un fichier audio d’une heure à trois langues cibles. Si la transcription de synthèse vocale initiale contient 10 000 caractères, vous pouvez être facturé(e) 2,80 $.

Avertissement

Les prix indiqués dans cet exemple ne sont donnés qu’à titre d’illustration. Reportez-vous à la tarification d’Azure AI Speech et à la tarification d’Azure AI Traducteur pour obtenir les informations de tarification les plus à jour.

L’exemple de prix précédent de 2,80 $ a été calculé en combinant la transcription vocale en texte et les coûts de traduction de texte. Voici comment le calcul a été effectué :

Le prix de la liste de traduction vocale est de 2,50 $ par heure, couvrant jusqu’à 2 langues cibles. Le prix est utilisé comme exemple de calcul des coûts. Consultez Standard>Traduction vocale>Standard dans la table de tarification Azure AI Speech pour obtenir les informations de tarification les plus à jour.
Le coût de la traduction en troisième langue est de 30 cents dans cet exemple. Le prix de la liste de traduction est de 10 $ par million de caractères. Étant donné que le fichier audio contient 10 000 caractères, le coût de traduction est de 10 000 $/1 000 000 $ * 3 = 0,3 $. Le nombre « 3 » dans cette équation représente un coefficient de pondération du trafic intermédiaire, qui peut varier en fonction des langues impliquées. Le prix est utilisé comme exemple de calcul des coûts. Consultez Standard>Traduction standard>Traduction du texte dans le tableau de tarification d’Azure AI Traducteur pour obtenir les informations tarifaires les plus récentes.

Bien démarrer

À la première étape, essayez le guide de démarrage rapide de la traduction vocale. La traduction vocale est disponible via le kit de développement logiciel (SDK) Speech et l’interface CLI.

Vous trouverez des exemples de traduction et de reconnaissance vocale avec le Kit de développement logiciel (SDK) Speech sur GitHub. Ces exemples couvrent des scénarios courants tels que la lecture du signal audio d’un fichier ou d’un flux, la reconnaissance et la traduction uniques et continues, et l’utilisation de modèles personnalisés.

Étapes suivantes

Effectuer le démarrage rapide de la traduction vocale
Installer le kit SDK Speech
Installer l’interface CLI Speech