Obtenir des insights sur la transcription, la traduction et la langue des médias

Article
10/09/2024

Transcription multimédia, traduction et identification linguistique

La transcription, la traduction et l’identification linguistique détecte, transcrit et traduit la parole dans les fichiers multimédias en plus de 50 langues.

Azure AI Video Indexer (VI) traite la parole dans le fichier audio pour extraire la transcription qui est ensuite traduite dans de nombreuses langues. Lors de la sélection de la traduction dans une langue spécifique, la transcription et les insights tels que les mots clés, les rubriques, les étiquettes ou l’OCR sont traduits dans la langue spécifiée. La transcription peut être utilisée comme c’est le cas ou être combinée avec des insights d’orateur qui mappent et attribuent les transcriptions à des haut-parleurs. Plusieurs haut-parleurs peuvent être détectés dans un fichier audio. Un ID est affecté à chaque orateur et s’affiche sous leur parole transcrite.

LID (Language Identification) reconnaît la langue parlée dominante prise en charge dans le fichier vidéo. Pour plus d’informations, consultez Application du LID.

L’identification multi-langues (MLID) reconnaît automatiquement les langues parlées dans différents segments du fichier audio et envoie chaque segment à transcrire dans les langues identifiées. À la fin de ce processus, toutes les transcriptions sont combinées dans le même fichier. Pour plus d’informations, consultez Application de MLID. Les insights résultants sont générés dans une liste classées dans un fichier JSON qui inclut l’ID, la langue, le texte transcrit, la durée et le score de confiance.

Lors de l’indexation de fichiers multimédias avec plusieurs haut-parleurs, Azure AI Video Indexer effectue la diarisation de l’orateur qui identifie chaque orateur dans une vidéo et des attributs transcrits sur un haut-parleur. Les haut-parleurs reçoivent une identité unique telle que l’orateur #1 et le haut-parleur #2. Cela permet l’identification des intervenants pendant les conversations et peut être utile dans différents scénarios tels que les conversations médecin-patient, les interactions avec les agents-clients et les procédures judiciaires.

Cas d’usage de transcription, de traduction et d’identification linguistique des médias

Promouvoir l’accessibilité en rendant le contenu disponible pour les personnes souffrant d’un handicap auditif à l’aide d’Azure AI Video Indexer pour générer la transcription de texte et la traduction en plusieurs langues.
Amélioration de la distribution de contenu à un public diversifié dans différentes régions et langues en fournissant du contenu dans plusieurs langues à l’aide des fonctionnalités de transcription et de traduction d’Azure AI Video Indexer.
Amélioration et amélioration de la génération manuelle de sous-titres et de sous-titres à l’aide des fonctionnalités de transcription et de traduction d’Azure AI Video Indexer et en utilisant les sous-titres générés par Azure AI Video Indexer dans l’un des formats pris en charge.
À l’aide de l’identification linguistique (LID) ou de l’identification multi-langues (MLID) pour transcrire des vidéos dans des langues inconnues afin de permettre à Azure AI Video Indexer d’identifier automatiquement les langues qui apparaissent dans la vidéo et de générer la transcription en conséquence.

Afficher le json d’insight avec le portail web

Une fois que vous avez chargé et indexé une vidéo, les insights sont disponibles au format JSON pour téléchargement à l’aide du portail web.

Sélectionnez l’onglet Bibliothèque .
Sélectionnez le média avec lequel vous souhaitez travailler.
Sélectionnez Télécharger et Insights (JSON). Le fichier JSON s’ouvre dans un nouvel onglet de navigateur.
Recherchez la paire de clés décrite dans l’exemple de réponse.

Utilisation de l’API

Utilisez la requête Get Video Index . Nous vous recommandons de passer &includeSummarizedInsights=false.
Recherchez les paires de clés décrites dans l’exemple de réponse.

Exemple de réponse

Toutes les langues détectées dans la vidéo sont sous sourceLanauge et chaque instance de la secte de transcription inclut la langue tracrite.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "es-ES",
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },

Important

Il est important de lire la vue d’ensemble de la note de transparence pour toutes les fonctionnalités vi. Chaque insight a également des notes de transparence de ses propres :

Notes d’identification de la transcription, de la traduction et de la langue

Lorsqu’il est utilisé de manière responsable et soigneuse, Azure AI Video Indexer est un outil précieux pour de nombreuses industries. Vous devez toujours respecter la confidentialité et la sécurité des autres, et respecter les réglementations locales et globales. Nous recommandons les actions suivantes :

Examinez attentivement la précision des résultats, pour promouvoir des données plus précises, vérifier la qualité de l’audio, l’audio de faible qualité peut affecter les insights détectés.
Video Indexer n’effectue pas la reconnaissance de l’orateur afin que les haut-parleurs ne reçoivent pas d’identificateur sur plusieurs fichiers. Vous ne pouvez pas rechercher un orateur individuel dans plusieurs fichiers ou transcriptions.
Les identificateurs d’orateur sont attribués de manière aléatoire et peuvent uniquement être utilisés pour distinguer différents haut-parleurs dans un seul fichier.
Conversation croisée et reconnaissance vocale qui se chevauchent : lorsque plusieurs orateurs parlent simultanément ou s’interrompent mutuellement, il devient difficile pour le modèle de distinguer et d’affecter avec précision le texte correct aux haut-parleurs correspondants.
L’orateur se chevauche : parfois, les haut-parleurs peuvent avoir des modèles vocaux similaires, des accents ou utiliser un vocabulaire similaire, ce qui rend difficile pour le modèle de faire la distinction entre eux.
Audio bruyant : une qualité audio médiocre, un bruit d’arrière-plan ou des enregistrements de faible qualité peuvent entraver la capacité du modèle à identifier et transcrire correctement les haut-parleurs.
Discours émotionnel : les variations émotionnelles de la parole, telles que le criage, le pleur ou l’excitation extrême, peuvent affecter la capacité du modèle à diariser avec précision les haut-parleurs.
Déguisement ou emprunt d’identité de l’orateur : si un haut-parleur tente intentionnellement d’imiter ou de déguiser leur voix, le modèle peut mal identifier le haut-parleur.
Identification ambiguë de l’orateur : certains segments de parole peuvent ne pas avoir suffisamment de caractéristiques uniques pour que le modèle attribue en toute confiance à un orateur spécifique.
L’audio qui contient des langues autres que celles que vous avez sélectionnées produit des résultats inattendus.
La longueur minimale du segment pour la détection de chaque langue est de 15 secondes.
Le décalage de détection de langue est de 3 secondes en moyenne.
Le discours est supposé être continu. Les altercations fréquentes entre les langages peuvent affecter les performances du modèle.
La parole des non-natifs peut affecter les performances du modèle (par exemple, lorsque les haut-parleurs utilisent leur première langue et qu’ils basculent vers une autre langue).
Le modèle est conçu pour reconnaître la parole conversationnelle spontanée avec des acoustiques audio raisonnables (pas les commandes vocales, le chant, etc.).
La création et la modification de projet ne sont pas disponibles pour les vidéos multilingues.
Les modèles de langage personnalisés ne sont pas disponibles lors de l’utilisation de la détection multi-langues.
L’ajout de mots clés n’est pas pris en charge.
L’indication de langue n’est pas incluse dans le fichier de sous-titres exporté.
La transcription de mise à jour dans l’API ne prend pas en charge plusieurs fichiers de langues.
Le modèle est conçu pour reconnaître un discours conversationnel spontané (pas les commandes vocales, le chant, etc.).
Si Azure AI Video Indexer ne peut pas identifier la langue avec une confiance suffisante (supérieure à 0,6), la langue de secours est l’anglais.

Voici la liste des langues prises en charge.

Composants de transcription, de traduction et d’identification de langue

Pendant la transcription, la traduction et la procédure d’identification linguistique, la reconnaissance vocale dans un fichier multimédia est traitée comme suit :

Composant	Définition
Langue source	L’utilisateur charge le fichier source pour l’indexation, et l’une ou l’autre : - Spécifie la langue source de la vidéo. - Sélectionne la détection automatique de la langue unique (LID) pour identifier la langue du fichier. La sortie est enregistrée séparément. - Sélectionne la détection automatique de plusieurs langues (MLID) pour identifier plusieurs langues dans le fichier. La sortie de chaque langue est enregistrée séparément.
Transcription API	Le fichier audio est envoyé aux services Azure AI pour obtenir la sortie transcrite et traduite. Si une langue est spécifiée, elle est traitée en conséquence. Si aucune langue n’est spécifiée, un processus LID ou MLID est exécuté pour identifier la langue après laquelle le fichier est traité.
Unification des sorties	Les fichiers transcrits et traduits sont unifiés dans le même fichier. Les données générées incluent l’ID de l’orateur de chaque phrase extraite avec son niveau de confiance.
Valeur de confiance	Le niveau de confiance estimé de chaque phrase est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82.

Exemple de code

Voir tous les exemples pour VI

Partage via