Détection des effets audio

Article
03/25/2024

Important

En raison de l’annonce de mise hors service d’Azure Media Services, Azure AI Video Indexer annonce les ajustements des fonctionnalités d’Azure AI Video Indexer. Consultez les modifications relatives à la mise hors service Azure Media Service (AMS) pour comprendre ce que cela signifie pour votre compte Azure AI Video Indexer. Consultez le guide de préparation de la mise hors service AMS : Mise à jour et migration vi.

La détection des effets audio est une fonctionnalité Azure AI Video Indexer qui détecte des insights sur différents événements acoustiques et les classifie en catégories acoustiques. La détection d’effets audio peut détecter et classer différentes catégories telles que le rire, les réactions de foule, les alarmes et/ou les sirènes.

Lorsque vous travaillez sur le site web, les instances sont affichées sous l’onglet Recommandations. Ils peuvent également être générés dans une liste classées dans un fichier JSON qui inclut l’ID de catégorie, le type, le nom et les instances par catégorie, ainsi que les délais spécifiques et le score de confiance.

Prérequis

Vue d’ensemble de la note de transparence

Principes généraux

Cet article traite de la détection des effets audio et des considérations clés relatives à l’utilisation de cette technologie de manière responsable. Il existe de nombreuses choses à prendre en compte lors du choix de l’utilisation et de l’implémentation d’une fonctionnalité optimisée par l’IA :

Cette fonctionnalité fonctionne-t-elle bien dans mon scénario ? Avant de déployer la détection des effets audio dans votre scénario, testez son fonctionnement à l’aide de données réelles et assurez-vous qu’elle peut fournir la précision dont vous avez besoin.
Sommes-nous équipés pour identifier les erreurs et y répondre ? Les produits et fonctionnalités optimisés par l’IA ne sont pas précis à 100 %, donc réfléchissez à la façon dont vous identifierez et répondez aux erreurs qui peuvent se produire.

Afficher l’insight

Pour afficher les instances sur le site web, procédez comme suit :

Lorsque vous chargez le fichier multimédia, accédez à Vidéo + Indexation audio, ou accédez à Audio uniquement ou Vidéo + Audio, puis sélectionnez Avancé.
Une fois le fichier chargé et indexé, accédez à Recommandations et faites défiler jusqu’aux effets audio.

Pour afficher le fichier JSON, procédez comme suit :

Sélectionnez Télécharger -> Recommandations (JSON).

Copiez l’élément, sous insights, puis collez-le audioEffects dans votre visionneuse JSON en ligne.

"audioEffects": [
  {
    "id": 1,
    "type": "Silence",
    "instances": [
      {
        "confidence": 0,
        "adjustedStart": "0:01:46.243",
        "adjustedEnd": "0:01:50.434",
        "start": "0:01:46.243",
        "end": "0:01:50.434"
      }
    ]
  },
  {
    "id": 2,
    "type": "Speech",
    "instances": [
      {
        "confidence": 0,
        "adjustedStart": "0:00:00",
        "adjustedEnd": "0:01:43.06",
        "start": "0:00:00",
        "end": "0:01:43.06"
      }
    ]
  }
],

Pour télécharger le fichier JSON via l’API, utilisez le portail des développeurs Azure AI Video Indexer.

Composants de détection des effets audio

Pendant la procédure de détection des effets audio, l’audio dans un fichier multimédia est traité comme suit :

Composant	Définition
Fichier source	L’utilisateur charge le fichier source pour l’indexation.
Segmentation	L’audio est analysé, l’audio non-pêché est identifié, puis divisé en internes qui se chevauchent rapidement.
Classification	Un processus IA analyse chaque segment et classifie son contenu en catégories d’événements telles que la réaction de foule ou le rire. Une liste de probabilités est ensuite créée pour chaque catégorie d’événements en fonction des règles propres au service.
Niveau de confiance	Le niveau de confiance estimé de chaque effet audio est calculé sous la forme d’une plage de 0 à 1. Le score de confiance représente la certitude dans la précision du résultat. Par exemple, une certitude de 82 % est représentée sous la forme d’un score de 0,82.

Exemples de cas d’utilisation

Les entreprises disposant d’une grande archive vidéo peuvent améliorer l’accessibilité en offrant davantage de contexte à un public avec déficience auditive par transcription d’effets non-péréchiques.
Amélioration de l’efficacité lors de la création de données brutes pour les créateurs de contenu. Des moments importants dans les promos et les bandes-annonces telles que le rire, les réactions de foule, les coups de feu ou les explosions peuvent être identifiés, par exemple dans Media and Entertainment.
Détection et classification des coups de feu, des explosions et des éclats de verre dans un système de ville intelligente ou dans d’autres environnements publics qui incluent des caméras et des microphones pour offrir une détection rapide et précise des incidents de violence.

Considérations et limitations lors du choix d’un cas d’usage

Évitez d’utiliser l’audio court ou de faible qualité, la détection des effets audio fournit des données probabilistes et partielles sur les événements audio non détectés. Pour obtenir une précision, la détection des effets audio nécessite au moins 2 secondes d’audio non clair. Les commandes vocales ou le chant ne sont pas pris en charge.  
Évitez l’utilisation de l’audio avec de la musique d’arrière-plan ou de la musique avec une fréquence répétitive et/ou linéaire, la détection des effets audio est conçue pour l’audio non-péréchable uniquement et ne peut donc pas classifier les événements en musique forte. Musique avec une fréquence répétitive et/ou linéaire, beaucoup d’entre eux sont classés de manière incorrecte comme une alarme ou une sirène.
Examinez attentivement les méthodes d’utilisation dans l’application de la loi et les institutions similaires pour promouvoir des données probabilistes plus précises, examinez attentivement les éléments suivants :
- Les effets audio peuvent être détectés uniquement dans les segments non-peech.
- La durée d’une section non-peech doit être d’au moins 2 secondes.
- L’audio de faible qualité peut avoir un impact sur les résultats de détection.
- Les événements en musique d’arrière-plan bruyant ne sont pas classés.
- Musique avec une fréquence répétitive et/ou linéaire peut être considérée comme une alarme ou une sirène.
- Frapper sur une porte ou claquer une porte peut être étiqueté comme un coup de feu ou une explosion.
- Des cris prolongés ou des sons d’effort physique peuvent être mal classés.
- Un groupe de gens riant peut être classé à la fois comme rire et foule.
- Les coups de feu naturels et non synthétiques et les sons d’explosion sont pris en charge.

Lorsqu’il est utilisé de manière responsable et soigneuse, Azure AI Video Indexer est un outil précieux pour de nombreuses industries. Pour respecter la confidentialité et la sécurité des autres, et pour respecter les réglementations locales et globales, nous vous recommandons les éléments suivants :

Respectez toujours le droit d’une personne à la vie privée, et seul l’audio ingéré à des fins légitimes et justifiables.  
Ne divulguez pas volontairement l’audio inapproprié des jeunes enfants ou des membres de la famille de célébrités ou d’autres contenus susceptibles de nuire ou de poser une menace pour la liberté personnelle d’un individu.  
S’engager à respecter et à promouvoir les droits de l’homme dans la conception et le déploiement de votre audio analysé.  
Lors de l’utilisation de documents tiers, tenez compte des droits d’auteur ou autorisations existants requis avant de distribuer du contenu dérivé de ceux-ci. 
Demandez toujours des conseils juridiques lors de l’utilisation de l’audio à partir de sources inconnues. 
Tenez compte des lois ou réglementations applicables qui existent dans votre domaine en ce qui concerne le traitement, l’analyse et le partage d’audio contenant des personnes. 
Gardez un humain dans la boucle. N’utilisez aucune solution pour remplacer la surveillance humaine et la prise de décision.  
Examinez et examinez entièrement le potentiel de n’importe quel modèle IA que vous utilisez pour comprendre ses fonctionnalités et ses limitations.