Partager via


Choisissez une technologie de traitement d’images et de vidéos Azure AI

Les services Azure AI aident les développeurs et les organisations à créer des applications intelligentes, de pointe, prêtes pour le marché et responsables, sans API et des modèles prêts à l’emploi, prédéfinis et personnalisables.

Cet article aborde les services Azure AI qui fournissent des fonctionnalités de traitement vidéo et d’image, telles que l’analyse visuelle et la génération d’images, la détection d’objets, la classification d’images et la reconnaissance faciale.

Services

Les services suivants fournissent des fonctionnalités de traitement vidéo et d’image pour les services Azure AI :

  • Azure OpenAI

    • Utilisez Azure OpenAI pour générer des images à partir du langage naturel à l’aide de modèles d’imagerie génératifs préentraînés. Par exemple, génération à la demande d’art personnalisé.
    • Utilisez Azure OpenAI pour effectuer une analyse non spécifique et étendue sur des images. Par exemple, la génération de descriptions d’accessibilité.
    • N’utilisez pas Azure OpenAI si vous souhaitez employer des modèles de génération d’images open source disponibles dans Azure Machine Learning.
    • N’utilisez pas Azure OpenAI pour effectuer des types spécifiques de traitement d’images comme l’extraction de formes, la reconnaissance faciale ou la détection des caractéristiques d’image spécialisées dans un domaine. Pour ces scénarios, utilisez ou créez des solutions d’IA conçues spécifiquement et entraînées à ces fins.
  • Azure AI Vision

    • Utilisez le service Vision lorsque vous avez besoin d’une reconnaissance optique optique de base (OCR), d’une analyse d’image ou d’une analyse vidéo de base pour détecter le mouvement et d’autres événements.
    • N’utilisez pas le service Vision pour l’analyse que les modèles de fondation multimodaux et volumineux prennent déjà en charge.
    • N’utilisez pas le service Vision pour modérer du contenu. Utilisez plutôt le service Content Safety.
  • Azure AI Custom Vision

    • Utilisez le service si vous avez des besoins spécifiques que l’analyse d’image du service Vision de base ne peut pas satisfaire. Par exemple, il est utile pour reconnaître des objets inhabituels, des défauts de fabrication ou pour fournir des classifications personnalisées détaillées.
    • N’utilisez pas le service pour la détection d’objets de base ou la détection de visage. Utilisez plutôt les services Visage ou Vision.
    • N’utilisez pas le service pour l’analyse visuelle de base. Utilisez plutôt les modèles compatibles avec la vision d’Azure OpenAI ou les modèles open-source d’Azure Machine Learning.
  • Azure AI Visage

    • Utilisez le service Visage lorsque vous devez vérifier si les visages sont réels ou falsifiés, ou pour identifier, regrouper ou rechercher des visages similaires
    • N’utilisez pas le service Visage pour détecter les émotions sur les visages ou effectuer d’autres raisonnements de haut niveau sur les visages. Pour ces tâches, utilisez plutôt des modèles de langage multimodaux.
  • Azure AI Video Indexer

    • Utilisez le service Azure Video Indexer pour des tâches d’analyse vidéo plus avancées que l’analyse vidéo de base du service Vision ne peut pas fournir.
    • N’utilisez pas le service Azure Video Indexer pour les tâches d’analyse vidéo de base, telles que le comptage de personnes et la détection de mouvements et d’événements. Pour ces tâches, l’analyse vidéo de base du service Vision est plus rentable.

Azure OpenAI

Azure OpenAI permet d’accéder aux modèles de langage puissants d’OpenAI, y compris la dernière génération de modèles GPT. Ces éléments prennent en charge l’analyse visuelle et les générations d’images, et DALL-E prend en charge la génération d’images.

Azure AI Vision

Azure AI Vision vous donne accès à des algorithmes avancés permettant de traiter des images et de retourner des informations en fonction des caractéristiques visuelles qui vous intéressent. Il fournit quatre services : OCR, service Visage, Analyse d’images et Analyse spatiale.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans le service Azure AI Vision.

Fonctionnalité Description
Reconnaissance optique des caractères (OCR) Le service Reconnaissance optique de caractères (OCR) extrait le texte des images. Vous pouvez utiliser l’API Read pour extraire du texte imprimé et manuscrit à partir de photos et de documents. Cela utilise des modèles basés sur le Deep Learning et fonctionne avec du texte sur différentes de surfaces et d'arrière-plans. Ces derniers comprennent les documents commerciaux, les factures, les reçus, les affiches, les cartes de visite, les lettres et les tableaux blancs. Les API OCR prennent en charge l’extraction de texte imprimé dans plusieurs langues.
Analyse d’image Le service Analyse d’images extrait de nombreuses caractéristiques visuelles à partir d’images, telles que des objets, des visages et des descriptions de texte générées automatiquement. Avec Image Analysis 4.0 basée sur le modèle fondamental de Florence, vous pouvez également créer des modèles d’identificateur d’image personnalisés.
Analyse vidéo L’analyse vidéo inclut des fonctionnalités de vidéo telles que l’analyse spatiale et la récupération vidéo. L’analyse spatiale détecte la présence de personnes et analyse leurs déplacements sur un flux vidéo, et produit des événements auxquels d'autres systèmes peuvent répondre.

Azure AI Custom Vision

Azure AI Custom Vision est un service de reconnaissance d’image qui vous permet de créer, de déployer et d’améliorer vos propres modèles d’identificateurs d’images. Un identificateur d’images applique des étiquettes à des images en fonction de leurs caractéristiques visuelles. Chaque étiquette représente une classification ou un objet. Custom Vision vous permet de spécifier vos propres étiquettes et d’entraîner des modèles personnalisés pour les détecter.

Le service Custom Vision utilise un algorithme Machine Learning pour analyser des images pour des fonctionnalités personnalisées. Vous envoyez des ensembles d’images qui ne possèdent pas les caractéristiques visuelles que vous recherchez. Ensuite, vous étiquetez les images avec vos propres étiquettes (étiquettes) au moment de la soumission. L’algorithme effectue ensuite l’apprentissage avec ces données et calcule sa propre précision en se testant lui-même à l’aide des mêmes images. Une fois que vous avez effectué l’apprentissage de votre modèle, vous pouvez le tester, effectuer un nouvel apprentissage, puis l’utiliser dans votre application de reconnaissance d’images pour classer des images ou détecter des objets. Vous pouvez également exporter le modèle pour l’utiliser en mode hors connexion.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans le service Azure AI Custom Vision.

Fonctionnalité Description
Classification d’images Prédisez une catégorie, ou une classe, en fonction d’un ensemble d’entrées, appelées fonctionnalités. Calculez un score de probabilité pour chaque classe possible et retournez une étiquette qui indique la classe à laquelle l’objet appartient probablement. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes.
Détection d’objet Obtenir les coordonnées d’un objet dans une image. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes

Cas d’utilisation

Le tableau suivant contient la liste des cas d’usage possibles pour le service Azure AI Custom Vision.

Cas d’usage Description
Utiliser Custom Vision avec un appareil IoT pour signaler des états visuels Utiliser Custom Vision pour entraîner un appareil doté d’une caméra à détecter les états visuels. Vous pouvez exécuter ce scénario de détection sur un appareil IoT à l’aide d’un modèle ONNX exporté. Un état visuel décrit le contenu d’une image : une salle vide ou une salle où des personnes sont présentes, une allée vide ou une allée avec camion, et ainsi de suite.
Reconnaissance des logos dans les images de l’appareil photo Analyse des photos, en recherchant des logos spécifiques.

Azure AI Visage

Le service Azure AI Visage fournit des algorithmes d’IA qui détectent, reconnaissent et analysent les visages humains dans les images. Le logiciel de reconnaissance faciale est important dans de nombreux scénarios, comme l’identification, le contrôle d’accès sans contact et le floutage automatique des visages à des fins de confidentialité.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans le service Azure AI Visage.

Fonctionnalité Description
Détection et analyse des visages Identifiez les régions d’une image contenant un visage humain, généralement en retournant les coordonnées du cadre englobant qui forment un rectangle autour du visage, comme ceci.
Rechercher des visages semblables L’opération Rechercher des visages semblables permet de mettre en correspondance un visage cible avec un ensemble de visages candidats, en cherchant à obtenir un plus petit ensemble de visages ressemblant au visage cible. Cette API s’avère utile pour effectuer une recherche de visage par image.
Regrouper les visages L’opération Regrouper divise un ensemble de visages inconnus en plusieurs petits groupes en fonction de leurs similarités. Chaque groupe est un sous-ensemble distinct de l’ensemble de visages d’origine. Elle retourne également un seul tableau « messyGroup » qui contient les ID de visage pour lesquels aucune similarité n’a été trouvée.
Identification L’identification de visage peut s’employer à résoudre une correspondance « un-à-plusieurs » d’un visage sur une image comparé à un ensemble de visages dans un référentiel sécurisé. Les candidats correspondants sont retournés en fonction de la similarité de leurs données de visage et le visage faisant l’objet de la requête.
Opérations de reconnaissance faciale Les entreprises et applications modernes peuvent utiliser les technologies de reconnaissance faciale, notamment la vérification de visages (correspondance « un-à-un ») et l’identification de visages (correspondance « un-à-plusieurs ») pour confirmer qu’un utilisateur est bien la personne qu’il prétend être.
Détection d’activité La détection d’activité est une fonctionnalité de détection d’usurpation qui vérifie si un utilisateur est physiquement présent devant la caméra. Il est utilisé pour empêcher les attaques d’usurpation à l’aide d’une photo imprimée, d’une vidéo enregistrée ou d’un masque 3D du visage de l’utilisateur.

Cas d’utilisation

Le tableau suivant contient la liste des cas d’usage possibles pour le service Azure AI Visage.

Cas d’usage Description
Vérifier l’identité de l’utilisateur. Vérifier l’identité d’une personne par rapport à une image de visage fiable. Cette vérification pourrait être utilisée pour accorder l’accès à des propriétés numériques ou physiques. Dans la plupart des cas, l’image de visage approuvée peut provenir d’un ID émis par le gouvernement, tel qu’un passeport ou un permis de conduire, ou provient d’une photo d’inscription prise en personne. Lors de la vérification, la détection de liveness (activité) peut jouer un rôle essentiel pour vérifier que l’image provient d’une personne réelle, et non d’une photo imprimée ou d’un masque.
Rédaction de face Éditer ou flouter les visages détectés de personnes enregistrées dans une vidéo afin de protéger leur confidentialité.
Contrôle d’accès sans contact. Par rapport aux méthodes actuelles comme les cartes ou les tickets, l’identification des visages par abonnement permet d’améliorer le contrôle d’accès tout en réduisant les risques d’hygiène et de sécurité liés au partage, à la perte ou au vol de supports physiques. La reconnaissance faciale aide le processus d’enregistrement incluant une personne physique pour l’enregistrement dans les aéroports, les stades, les parcs à thème, les bâtiments, les comptoirs d’accueil dans des bureaux, des hôpitaux, des gymnases, des clubs ou des écoles.

Azure AI Video Indexer

Azure AI Video Indexer est une application cloud qui fait partie des services Azure AI, qui est basée sur les services Azure AI (au même titre que Visage, Traducteur, Azure AI Vision et Speech). Elle vous permet d’extraire les insights de vos vidéos à l’aide de modèles vidéo et audio Azure AI Video Indexer.

Fonctionnalités

Le tableau suivant contient la liste de certaines des fonctionnalités disponibles dans le service Azure AI Video Indexer.

Fonctionnalité Description
Identification et transcription de discours en plusieurs langues Identifie la langue parlée dans les segments différents de l’audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée.
Détection faciale Détecte et regroupe les visages qui apparaissent dans la vidéo.
Identification de célébrités Identifie plus d’un million de célébrités, comme des dirigeants mondiaux, des acteurs, des artistes, des athlètes, des chercheurs, des chefs d’entreprise et des leaders technologiques du monde entier. Les données relatives à ces célébrités figurent également sur plusieurs sites Web (tels que IMDB, Wikipedia, etc.).
Identification des visages basée sur le compte Entraîne un modèle pour un compte spécifique. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé.
Suivi des personnes observées (préversion) Détecte les personnes dans les vidéos et fournit des informations telles que l’emplacement de la personne dans le cadre de la vidéo (à l’aide de zones englobantes) et l’horodatage exact (début, fin) ainsi que la confiance quand une personne apparaît.
Transcription audio Procède à la reconnaissance vocale dans 50 langues et permet les extensions.
Détection de langue Identifie la langue parlée dominante.
Réduction du bruit Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype).
Traduction Crée des traductions de la transcription audio en de nombreuses langues différentes.

Pour consulter d’autres fonctionnalités du service Azure AI Video Indexer, consultez la documentation sur Azure AI Video Indexer.

Cas d’utilisation

Le tableau suivant contient la liste des cas d’usage possibles pour le service Azure AI Video Indexer.

Cas d’usage Description
Recherche profonde Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues. La recherche basée sur de tels aperçus de vidéos s’applique aux agences de presse, aux instituts de formation, aux diffuseurs, aux propriétaires de contenu de divertissement, aux LOB d’entreprise et d’une façon générale à n’importe quel secteur d’activité possédant une bibliothèque vidéo au sein de laquelle les utilisateurs doivent faire des recherches.
Création de contenu Créez des bandes-annonces, des séquences de meilleurs moments, du contenu de réseaux sociaux ou des clips d’actualité basés sur des insights Azure AI Video Indexer extraits de votre contenu. Les images clés, les marqueurs de scènes et les timestamps pour les apparences des étiquettes et des personnes rendent le processus de création beaucoup plus lisse et plus simple, vous permettant d’accéder facilement aux parties de la vidéo dont vous avez besoin lors de la création du contenu.
Accessibilité Si vous souhaitez que votre contenu soit disponible pour les personnes handicapées ou qu’il soit distribué dans différentes régions en différentes langues, vous pouvez utiliser la transcription et la traduction fournies par Azure AI Video Indexer dans plusieurs langues.
Monétisation Azure AI Video Indexer peut aider à augmenter la valeur des vidéos. Par exemple, les secteurs d’activité s’appuyant sur le chiffre d’affaires publicitaire (es médias d’information, les médias sociaux, et ainsi de suite), peuvent fournir des publicités pertinentes en utilisant les insights extraits en tant que signaux supplémentaires pour le serveur publicitaire.
Modération du contenu Utilisez des modèles de modération de contenu textuel et visuel afin de protéger vos utilisateurs contre le contenu inapproprié et de vous assurer que le contenu que vous publiez correspond aux valeurs de votre organisation. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu.
Recommandations les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo. En marquant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence la partie de la vidéo qui répond à leurs besoins.

Étapes suivantes