Obtenir des insights sur la transcription, la traduction et l’identification de la langue du média

2025-06-04

Les fonctionnalités de transcription, de traduction et d’identification de langue détectent, transcrivent et traduisent la parole dans des fichiers multimédias en plus de 50 langues.

Azure AI Video Indexer (VI) traite la parole dans le fichier audio pour extraire la transcription qui est ensuite traduite dans de nombreuses langues. Lors de la sélection de la traduction dans une langue spécifique, la transcription et les insights tels que les mots clés, les rubriques, les étiquettes ou l’OCR sont traduits dans la langue spécifiée. La transcription peut être utilisée telle quelle ou être combinée avec des informations sur les intervenants qui permettent de mapper et d'attribuer les transcriptions aux intervenants. Plusieurs haut-parleurs peuvent être détectés dans un fichier audio. Un ID est affecté à chaque orateur et s’affiche sous leur parole transcrite.

LID (Language Identification) reconnaît la langue parlée dominante prise en charge dans le fichier vidéo. Pour plus d’informations, consultez Application du LID.

L’identification multi-langues (MLID) reconnaît automatiquement les langues parlées dans différents segments du fichier audio et envoie chaque segment à transcrire dans les langues identifiées. À la fin de ce processus, toutes les transcriptions sont combinées dans le même fichier. Pour plus d’informations, consultez Application de MLID. Les insights résultants sont générés dans une liste classées dans un fichier JSON qui inclut l’ID, la langue, le texte transcrit, la durée et le score de confiance.

Quand Azure AI Video Indexer indexe des fichiers multimédias avec plusieurs haut-parleurs, il effectue la diarisation de l’orateur. Il identifie chaque orateur dans une vidéo et attribue chaque ligne transcrite à un orateur. Les haut-parleurs reçoivent une identité unique telle que l’orateur #1 et le haut-parleur #2. Il permet l’identification des conférenciers pendant les conversations et peut être utile dans différents scénarios tels que les conversations médecin-patient, les interactions avec les agents-clients et les procédures judiciaires.

Cas d’usage de transcription, de traduction et d’identification linguistique des médias

Promouvoir l’accessibilité en rendant le contenu disponible pour les personnes souffrant d’un handicap auditif à l’aide d’Azure AI Video Indexer pour générer la transcription de texte et la traduction en plusieurs langues.
Améliorez la distribution de contenu à un public diversifié dans différentes régions et langues. Fournissez du contenu dans plusieurs langues à l’aide des fonctionnalités de transcription et de traduction d’Azure AI Video Indexer.
Améliorez la génération manuelle de sous-titres et de sous-titrage codé. Utilise les fonctionnalités de transcription et de traduction d’Azure AI Video Indexer et en utilisant les sous-titres générés par Azure AI Video Indexer dans l’un des formats pris en charge.
À l’aide de l’identification linguistique (LID) ou de l’identification multi-langues (MLID) pour transcrire des vidéos dans des langues inconnues afin de permettre à Azure AI Video Indexer d’identifier automatiquement les langues qui apparaissent dans la vidéo et de générer la transcription en conséquence.

Afficher le JSON d’insight avec le portail web

Après avoir téléchargé et indexé une vidéo, téléchargez des insights au format JSON à partir du portail web.

Sélectionnez l’onglet Bibliothèque .
Sélectionnez le média souhaité.
Sélectionnez Télécharger, puis sélectionnez Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
Recherchez la paire de clés décrite dans l’exemple de réponse.

Utilisation de l’API

Utilisez une requête Get Video Index . Passez &includeSummarizedInsights=false.
Recherchez les paires de clés décrites dans l’exemple de réponse.

Exemple de réponse

Toutes les langues détectées dans la vidéo sont sous sourceLanguage et chaque instance de la section de transcription inclut la langue transcrite.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Importante

Lisez la vue d’ensemble de la note de transparence pour toutes les fonctionnalités VI. Chaque analyse dispose également de sa propre note de transparence.

Notes sur la transcription, la traduction et l'identification de la langue

Lorsqu’il est utilisé de manière responsable et soigneuse, Azure AI Video Indexer est un outil précieux pour de nombreuses industries. Vous devez toujours respecter la confidentialité et la sécurité des autres, et respecter les réglementations locales et globales. Nous recommandons les actions suivantes :

Examinez attentivement la précision des résultats, pour promouvoir des données plus précises, vérifier la qualité de l’audio, l’audio de faible qualité peut affecter les insights détectés.
Video Indexer n’effectue pas la reconnaissance de l’orateur afin que les haut-parleurs ne reçoivent pas d’identificateur sur plusieurs fichiers. Vous ne pouvez pas rechercher un orateur individuel dans plusieurs fichiers ou transcriptions.
Les identificateurs d’orateur sont attribués de manière aléatoire et peuvent uniquement être utilisés pour distinguer différents haut-parleurs dans un seul fichier.
Conversation croisée et paroles qui se chevauchent : lorsque plusieurs interlocuteurs parlent simultanément ou s’interrompent mutuellement, il devient difficile pour le modèle de distinguer et d’affecter avec précision le texte correct aux interlocuteurs correspondants.
Les orateurs se chevauchent : parfois, les locuteurs peuvent avoir des façons de parler similaires, des accents ou utiliser un vocabulaire similaire, ce qui rend difficile pour le modèle de les différencier.
Audio bruyant : une qualité audio médiocre, un bruit d’arrière-plan ou des enregistrements de faible qualité peuvent entraver la capacité du modèle à identifier et transcrire correctement les haut-parleurs.
Discours émotionnel : les variations émotionnelles de la parole, telles que les cris, les pleurs ou l'excitation extrême, peuvent affecter la capacité du modèle à diariser avec précision les interlocuteurs.
Déguisement ou usurpation d'identité du locuteur : si un locuteur tente intentionnellement d’imiter ou de déguiser sa voix, le modèle peut se tromper dans l'identification du locuteur.
Identification ambiguë de l’orateur : certains segments de parole peuvent ne pas avoir suffisamment de caractéristiques uniques pour que le modèle attribue en toute confiance à un orateur spécifique.
L’audio qui contient des langues autres que celles que vous avez sélectionnées produit des résultats inattendus.
La longueur minimale du segment pour la détection de chaque langue est de 15 secondes.
Le décalage de détection de langue est de 3 secondes en moyenne.
Le discours est supposé être continu. Les altercations fréquentes entre les langages peuvent affecter les performances du modèle.
La manière de parler des locuteurs non natifs peut affecter les performances du modèle (par exemple, lorsque les locuteurs utilisent leur langue maternelle et qu'ils passent à une autre langue).
Le modèle est conçu pour reconnaître la parole conversationnelle spontanée avec des acoustiques audio raisonnables (pas les commandes vocales, le chant, etc.).
La création et la modification de projet ne sont pas disponibles pour les vidéos multilingues.
Les modèles de langage personnalisés ne sont pas disponibles lors de l’utilisation de la détection multi-langues.
L’ajout de mots clés n’est pas pris en charge.
L’indication de langue n’est pas incluse dans le fichier de sous-titres exporté.
La transcription de mise à jour dans l’API ne prend pas en charge plusieurs fichiers de langues.
Le modèle est conçu pour reconnaître un discours conversationnel spontané (pas les commandes vocales, le chant, etc.).
Si Azure AI Video Indexer ne peut pas identifier la langue avec une confiance suffisante (supérieure à 0,6), la langue de secours est l’anglais.

Voici la liste des langues prises en charge.

Composants de transcription, de traduction et d’identification de langue

Pendant la transcription, la traduction et la procédure d’identification linguistique, la reconnaissance vocale dans un fichier multimédia est traitée comme suit :

Composant	Définition
Langue source	L’utilisateur charge le fichier source pour l’indexation, et l’une ou l’autre : - Spécifie la langue source de la vidéo. - Sélectionne la détection automatique de la langue unique (LID) pour identifier la langue du fichier. La sortie est enregistrée séparément. - Sélectionne la détection automatique de plusieurs langues (MLID) pour identifier plusieurs langues dans le fichier. La sortie de chaque langue est enregistrée séparément.
API de transcription	Le fichier audio est envoyé aux services Azure AI pour obtenir la sortie transcrite et traduite. Si une langue est spécifiée, elle est traitée en conséquence. Si aucune langue n’est spécifiée, un processus LID ou MLID est exécuté pour identifier la langue après laquelle le fichier est traité.
Unification des sorties	Les fichiers transcrits et traduits sont unifiés dans le même fichier. Les données générées incluent l’ID de l’orateur de chaque phrase extraite avec son niveau de confiance.
Valeur de confiance	Le niveau de confiance estimé de chaque phrase est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82.

Exemple de code

Voir tous les exemples pour VI