Transcription multimédia, traduction et identification linguistique

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

La transcription, la traduction et l’identification linguistique d’Azure AI Video Indexer détectent, transcrivent et traduisent automatiquement la parole dans des fichiers multimédias en plus de 50 langues.

  • Azure AI Video Indexer traite la parole dans le fichier audio pour extraire la transcription qui est ensuite traduite dans de nombreuses langues. Lors de la sélection de la traduction dans une langue spécifique, la transcription et les insights tels que les mot clé s, les rubriques, les étiquettes ou l’OCR sont traduits dans la langue spécifiée. La transcription peut être utilisée comme c’est le cas ou être combinée avec des insights d’orateur qui mappent et attribuent les transcriptions à des haut-parleurs. Plusieurs haut-parleurs peuvent être détectés dans un fichier audio. Un ID est affecté à chaque orateur et s’affiche sous leur parole transcrite.
  • Azure AI Video Indexer Language Identification (LID) reconnaît automatiquement la langue parlée dominante prise en charge dans le fichier vidéo. Pour plus d’informations, consultez Application du LID.
  • L’identification multi-langues Azure AI Video Indexer (MLID) reconnaît automatiquement les langues parlées dans différents segments du fichier audio et envoie chaque segment à transcrire dans les langues identifiées. À la fin de ce processus, toutes les transcriptions sont combinées dans le même fichier. Pour plus d’informations, consultez Application de MLID. Les insights résultants sont générés dans une liste classées dans un fichier JSON qui inclut l’ID, la langue, le texte transcrit, la durée et le score de confiance.
  • Lors de l’indexation de fichiers multimédias avec plusieurs haut-parleurs, Azure AI Video Indexer effectue la diarisation de l’orateur qui identifie chaque haut-parleur dans une vidéo et des attributs transcrits sur un haut-parleur. Les haut-parleurs reçoivent une identité unique telle que l’orateur #1 et le haut-parleur #2. Cela permet l’identification des orateurs pendant les conversations et peut être utile dans divers scénarios tels que les conversations médecin-patient, les interactions avec les agents-clients et les procédures judiciaires.

Prérequis

Vue d’ensemble de la note de transparence

Principes généraux

Cet article traite de la transcription, de la traduction et de l’identification linguistique et des considérations clés à prendre en compte pour utiliser cette technologie de manière responsable. Il existe de nombreuses choses à prendre en compte lors du choix de l’utilisation et de l’implémentation d’une fonctionnalité optimisée par l’IA :

  • Cette fonctionnalité s’exécutera-t-elle correctement dans mon scénario ? Avant d’utiliser la transcription, la traduction et l’identification linguistique dans votre scénario, testez son fonctionnement à l’aide de données réelles et assurez-vous qu’elle peut fournir la précision dont vous avez besoin.
  • Sommes-nous équipés pour identifier les erreurs et y répondre ? Les produits et fonctionnalités optimisés par l’IA ne sont pas précis à 100 %, donc réfléchissez à la façon dont vous identifierez et répondez aux erreurs qui peuvent se produire.

Afficher l’insight

Pour afficher les insights sur le site web :

  1. Accédez à Insight et faites défiler jusqu’à Transcription et Traduction.

Pour afficher les insights linguistiques dans insights.json, procédez comme suit :

  1. Sélectionnez Télécharger -> Recommandations (JSON).

  2. Copiez l’élément souhaité, sous insights, puis collez-le dans votre visionneuse JSON en ligne.

    "insights": {
      "version": "1.0.0.0",
      "duration": "0:01:50.486",
      "sourceLanguage": "en-US",
      "sourceLanguages": [
        "en-US"
      ],
      "language": "en-US",
      "languages": [
        "en-US"
      ],
      "transcript": [
        {
          "id": 1,
          "text": "Hi, I'm Doug from office. We're talking about new features that office insiders will see first and I have a program manager,",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:00",
              "adjustedEnd": "0:00:05.75",
              "start": "0:00:00",
              "end": "0:00:05.75"
            }
          ]
        },
        {
          "id": 2,
          "text": "Emily Tran, with office graphics.",
          "confidence": 0.8879,
          "speakerId": 1,
          "language": "en-US",
          "instances": [
            {
              "adjustedStart": "0:00:05.75",
              "adjustedEnd": "0:00:07.01",
              "start": "0:00:05.75",
              "end": "0:00:07.01"
            }
          ]
        },
    

Pour télécharger le fichier JSON via l’API, utilisez le portail des développeurs Azure AI Video Indexer.

Composants de transcription, de traduction et d’identification de langue

Pendant la transcription, la traduction et la procédure d’identification linguistique, la reconnaissance vocale dans un fichier multimédia est traitée comme suit :

Composant Définition
Langue source L’utilisateur charge le fichier source pour l’indexation, et l’une ou l’autre :
- Spécifie la langue source de la vidéo.
- Sélectionne la détection automatique de la langue unique (LID) pour identifier la langue du fichier. La sortie est enregistrée séparément.
- Sélectionne la détection automatique de plusieurs langues (MLID) pour identifier plusieurs langues dans le fichier. La sortie de chaque langue est enregistrée séparément.
Transcription API Le fichier audio est envoyé aux services Azure AI pour obtenir la sortie transcrite et traduite. Si une langue a été spécifiée, elle est traitée en conséquence. Si aucune langue n’est spécifiée, un processus LID ou MLID est exécuté pour identifier la langue après laquelle le fichier est traité.
Unification des sorties Les fichiers transcrits et traduits sont unifiés dans le même fichier. Les données générées incluent l’ID de l’orateur de chaque phrase extraite avec son niveau de confiance.
Valeur de confiance Le niveau de confiance estimé de chaque phrase est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82.

Exemples de cas d’utilisation

  • Promouvoir l’accessibilité en rendant le contenu disponible pour les personnes souffrant d’un handicap auditif à l’aide d’Azure AI Video Indexer pour générer la transcription de texte et la traduction en plusieurs langues.
  • Amélioration de la distribution de contenu à un public diversifié dans différentes régions et langues en fournissant du contenu dans plusieurs langues à l’aide des fonctionnalités de transcription et de traduction d’Azure AI Video Indexer.
  • Amélioration et amélioration de la génération manuelle des légende et des sous-titres en tirant parti des fonctionnalités de transcription et de traduction d’Azure AI Video Indexer et en utilisant les légende fermées générées par Azure AI Video Indexer dans l’un des formats pris en charge.
  • À l’aide de l’identification linguistique (LID) ou de l’identification multi-langues (MLID) pour transcrire des vidéos dans des langues inconnues afin de permettre à Azure AI Video Indexer d’identifier automatiquement les langues qui apparaissent dans la vidéo et de générer la transcription en conséquence.

Considérations et limitations lors du choix d’un cas d’usage

Lorsqu’il est utilisé de manière responsable et soigneuse, Azure AI Video Indexer est un outil précieux pour de nombreuses industries. Pour respecter la confidentialité et la sécurité des autres, et pour respecter les réglementations locales et globales, nous vous recommandons les éléments suivants :

  • Examinez attentivement la précision des résultats, afin de promouvoir des données plus précises, case activée la qualité de l’audio, l’audio de faible qualité peut avoir un impact sur les insights détectés.
  • Respectez toujours le droit d’une personne à la vie privée, et seulement ingérer des vidéos à des fins légitimes et justifiables.
  • Ne pas divulguer de médias inappropriés montrant des jeunes enfants ou des membres de la famille de célébrités ou d’autres contenus susceptibles de nuire ou de poser une menace pour la liberté personnelle d’un individu.
  • S’engager à respecter et à promouvoir les droits de l’homme dans la conception et le déploiement de vos médias analysés.
  • Lors de l’utilisation de documents tiers, tenez compte des droits d’auteur ou autorisations existants requis avant de distribuer du contenu dérivé de ceux-ci.
  • Toujours demander des conseils juridiques lors de l’utilisation de médias provenant de sources inconnues.
  • Obtenez toujours des conseils juridiques et professionnels appropriés pour vous assurer que vos vidéos téléchargées sont sécurisées et disposent de contrôles adéquats pour préserver l’intégrité de votre contenu et empêcher l’accès non autorisé.
  • Fournissez un canal de commentaires qui permet aux utilisateurs et aux individus de signaler des problèmes avec le service.
  • Tenez compte des lois ou réglementations applicables qui existent dans votre domaine en ce qui concerne le traitement, l’analyse et le partage de médias contenant des personnes.
  • Gardez un humain dans la boucle. N’utilisez aucune solution pour remplacer la surveillance humaine et la prise de décision.
  • Examinez et examinez entièrement le potentiel de n’importe quel modèle IA que vous utilisez pour comprendre ses fonctionnalités et ses limitations.
  • Video Indexer n’effectue pas la reconnaissance de l’orateur afin que les haut-parleurs ne reçoivent pas d’identificateur sur plusieurs fichiers. Vous ne pouvez pas rechercher un orateur individuel dans plusieurs fichiers ou transcriptions.
  • Les identificateurs d’orateur sont attribués de manière aléatoire et peuvent uniquement être utilisés pour distinguer différents haut-parleurs dans un seul fichier.
  • Conversation croisée et reconnaissance vocale qui se chevauchent : lorsque plusieurs orateurs parlent simultanément ou s’interrompent mutuellement, il devient difficile pour le modèle de distinguer et d’affecter avec précision le texte correct aux haut-parleurs correspondants.
  • Les haut-parleurs se chevauchent : parfois, les haut-parleurs peuvent avoir des modèles vocaux similaires, des accents ou utiliser un vocabulaire similaire, ce qui rend difficile la distinction entre les modèles.
  • Audio bruyant : une qualité audio médiocre, un bruit d’arrière-plan ou des enregistrements de faible qualité peuvent entraver la capacité du modèle à identifier et transcrire correctement les haut-parleurs.
  • Discours émotionnel : les variations émotionnelles de la parole, telles que le criage, le pleur ou l’excitation extrême, peuvent affecter la capacité du modèle à diariser avec précision les haut-parleurs.
  • Déguisement ou emprunt d’identité de l’orateur : si un haut-parleur tente intentionnellement d’imiter ou de déguiser leur voix, le modèle peut mal identifier le haut-parleur.
  • Identification ambiguë de l’orateur : certains segments de parole peuvent ne pas avoir suffisamment de caractéristiques uniques pour que le modèle attribue en toute confiance à un orateur spécifique.

Pour plus d’informations, consultez : recommandations et limitations en matière de détection de langue et de transcription.