Résumé de la vidéo textuelle avec Azure OpenAI
Cet article est une vue d’ensemble de la synthèse textuelle Azure OpenAI avec Azure AI Video Indexer.
Qu’est-ce que la synthèse de vidéos textuelles avec Azure AI Video Indexer ?
Azure AI Video Indexer fournit un bref résumé de ce qu’est une vidéo sans avoir à regarder toute la vidéo. Il est conçu pour vous faire gagner du temps en digestant de longues vidéos et en vous donnant le gist dans un format beaucoup plus court. C’est comme avoir un ami qui regarde tous les épisodes d’un spectacle, puis vous rattrape sur l’intrigue en quelques minutes.
Le système est destiné à être un outil de soutien qui améliore la productivité et l’apprentissage en distillant de longues vidéos en résumés concis et digestibles.
Il utilise des algorithmes de synthèse pour identifier les insights les plus pertinents pour la vidéo. Elle implique le scoring des insights en fonction de leur importance et de leur pertinence pour le thème global. Une interface conviviale vous permet d’entrer des vidéos et de personnaliser le type de résumé dont vous avez besoin.
Le système fournit des options pour les commentaires, ce qui lui permet d’apprendre et d’améliorer au fil du temps en fonction des interactions utilisateur.
Important
Le système n’est pas destiné à remplacer l’affichage complet, en particulier pour le contenu où les détails et les nuances sont essentiels pour prendre des décisions responsables. En outre, il n’est pas conçu pour résumer des vidéos hautement sensibles ou confidentielles où le contexte et la confidentialité sont essentiels.
Synthèse textuelle avec des images clés
La synthèse de vidéos textuelles avec des images clés utilise des images clés de la vidéo pour générer un résumé plus complet. Cette fonctionnalité est particulièrement utile lorsqu’il existe un contenu audio limité, tel que la transcription, ou lorsqu’un résumé plus holistique est souhaité.
Cas d’utilisation
Les utilisations prévues du système de synthèse vidéo basée sur l’IA sont de fournir aux utilisateurs un moyen rapide et efficace de comprendre le contenu de vidéos plus longues sans avoir à les regarder dans leur intégralité. Voici quelques utilisations spécifiques prévues :
- Formation. Les étudiants et les enseignants peuvent utiliser le système pour synthétiser des conférences, des séminaires ou du contenu éducatif, rendre les documents d’étude plus accessibles et plus faciles à examiner et à se concentrer sur les points d’apprentissage clés ou les définitions.
- Entreprise. Les professionnels peuvent générer des résumés de réunions, de présentations ou de sessions de formation qui mettent en évidence les décisions, les éléments d’action ou les points clés des réunions. Il fournit des résumés rapides et garantit que les informations importantes ne sont pas manquées.
- Média. Les journalistes et le grand public peuvent utiliser le système pour obtenir l’essence des reportages, des documentaires ou des entrevues, gagner du temps tout en restant informé. Il condense des nouvelles ou des documentaires en morceaux de mordre sans perdre le récit.
- Formats de sortie Vous pouvez définir des résumés pour utiliser différents styles de langage : neutre, décontracté ou formel. Vous pouvez également définir la longueur d’un résumé sur courte ou longue.
Limites
- Modèles. Les modèles affinés ne sont pas pris en charge. Un modèle affiné dans Azure OpenAI (AOAI) est un modèle IA préentraîné qui a été optimisé pour une tâche spécifique en l’entraînent sur un jeu de données personnalisé, améliorant ainsi ses performances et sa précision pour cette application spécifique.
- Langues non anglaises. Le résumé textuel est optimisé pour la langue anglaise. Toutefois, il est compatible avec toutes les langues prises en charge par le modèle GenAI spécifique utilisé, autrement dit GPT3.5 Turbo ou GPT4.0. Ainsi, lorsqu’ils sont appliqués à des langues non anglaises, la précision et la qualité des résumés peuvent varier. Pour atténuer cette limitation, soyez prudent et vérifiez les résumés générés pour la précision et l’exhaustivité.
- Vidéos avec plusieurs langues. Si une vidéo contient la parole dans plusieurs langues, la synthèse textuelle peut avoir du mal à reconnaître correctement toutes les langues proposées dans la vidéo. Tenez compte de cette limitation potentielle lors de l’utilisation de la fonctionnalité synthèse de vidéos textuelles pour les vidéos multilingues.
- Vidéos hautement spécialisées ou techniques. Les modèles IA de synthèse vidéo sont généralement formés sur une grande variété de vidéos, notamment les actualités, les films et d’autres contenus généraux. Si la vidéo est hautement spécialisée ou technique, le modèle peut ne pas être en mesure d’extraire avec précision le résumé de la vidéo.
- Vidéos avec une qualité audio médiocre ou une reconnaissance optique de caractères (OCR). Les modèles IA de synthèse textuelle s’appuient également sur l’audio (entre autres insights) pour extraire le résumé de la vidéo ou sur OCR pour extraire le texte affiché à l’écran. Si la qualité audio est médiocre et qu’il n’y a pas d’OCR identifié, le modèle peut ne pas être en mesure d’extraire avec précision le résumé de la vidéo.
- Vidéos avec éclairage faible ou mouvement rapide. Les vidéos qui sont prises en faible éclairage ou qui ont un mouvement rapide peuvent être difficiles pour le modèle à traiter, ce qui entraîne une mauvaise performance.
- Vidéos avec accents ou dialectes rares. Les modèles IA sont généralement formés sur une grande variété de paroles, y compris différents accents et dialectes. Toutefois, si la vidéo contient la parole avec un accent ou un dialecte qui n’est pas bien représenté dans les données d’entraînement, le modèle peut avoir du mal à extraire avec précision la transcription de la vidéo.
- Vidéos contenant du contenu dangereux. Les vidéos contenant du contenu dangereux ou sensible peuvent entraîner un résumé partiel, car les parties contenant du contenu sensible ou dangereux peuvent être exclues.
Synthèse textuelle sur VI activée par Arc
Si vous utilisez l’extension VI enbabled by Arc, vous pouvez générer un résumé à partir de la page vidéo dans le portail web et utiliser les mêmes fonctionnalités telles que les personnalisations, mais il n’existe aucune option pour modifier le déploiement du modèle. Au lieu de cela, chaque nouvelle extension créée inclut un modèle Phi-3-mini-4k-instruct local développé par Microsoft. Il n’y a aucun frais pour les demandes adressées au modèle.
Spécifications
- Matériel pris en charge : prend actuellement en charge uniquement le processeur Intel et le GPU Nvidia.
- Processeur testé sur : Standard_F64s_v2 (utilisation : ~30-32 cœurs)
- GPU testé sur : Standard_NC6s_v3
- La durée moyenne du runtime est comprise entre 46 et 57 % de la longueur vidéo sur le processeur, ou 15 à 17 % sur GPU.
Limitations connues et problèmes connus
- Actuellement, l’exécution de VI sur des processeurs AMD peut entraîner des runtimes beaucoup plus longs et n’est pas pris en charge pour l’instant.
- La fonctionnalité de synthèse est créée par un modèle de langage IA et sert à fournir une vue d’ensemble générale. Bien que nous cherchions une précision et une fiabilité, le contenu ne peut pas encapsuler entièrement l’essence du matériau d’origine. Nous vous recommandons d’examiner et de modifier le résumé avant l’utilisation. Il ne doit pas être considéré comme un conseil professionnel ou personnalisé.
- Les résultats récapitulatives sont généralement cohérents dans chaque paramètre de synthèse. Toutefois, la modification de la transcription ou la réindexation de la vidéo peut entraîner des résultats de sortie différents.
- Lorsque vous utilisez des paramètres de synthèse, le style Neutre peut parfois ressembler au style formel. Le style décontracté peut inclure des hashtags liés au contenu. En outre, dans certains cas, un résumé de longueur moyenne peut être plus court qu’un résumé « Court ».
- Les vidéos qui ont peu de contenu (comme des vidéos très courtes) ne sont généralement pas résumées pour atténuer les inexactitudes potentielles du modèle qui peuvent se produire lors de la gestion d’une courte entrée.
- Le résumé peut parfois inclure ou référencer des instructions internes fournies à celui-ci (appelé « meta-prompt »). Cela pourrait englober des directives visant à exclure le contenu dangereux.
- La longueur du résumé peut influencer le niveau de détail extrait du résumé vidéo. Des résumés plus longs peuvent entraîner l’inclusion de détails moins spécifiques.
- Le résumé généré peut contenir des inexactitudes, telles que l’identification incorrecte du sexe, de l’âge et d’autres caractéristiques personnelles.
- Si la vidéo d’origine contient du contenu inapproprié, l’extrait de sortie de synthèse vidéo peut être affecté de la manière suivante : il peut être incomplet, contenir des exclusions de responsabilité concernant le contenu inapproprié et, dans certains cas, il peut inclure les guillemets inappropriés réels, qui peuvent être présentés ou sans exclusion de responsabilité.
Notes de transparence
Pour plus d’informations sur la façon dont la synthèse textuelle est utilisée, consultez les notes de transparence pour la synthèse textuelle.
Essayer une synthèse vidéo textuelle
Essayez d’utiliser une synthèse vidéo textuelle.