Choisir une technologie de traitement et de génération d’images et de vidéos Azure AI

2025-06-10

Les services Azure AI aident les développeurs et les organisations à créer des applications intelligentes, de pointe, prêtes pour le marché et responsables avec des API et des modèles prêts à l’emploi et prédéfinis et personnalisables.

Cet article traite des services IA qui fournissent des fonctionnalités de traitement vidéo et d’image, telles que l’analyse visuelle et la génération d’images, la détection d’objets, la classification des images et la reconnaissance faciale.

Prestations

Les services suivants fournissent des fonctionnalités de traitement vidéo et d’image pour les services IA :

Azure OpenAI Service
- Utiliser Azure OpenAI pour la génération d’images à partir du langage naturel à l’aide de modèles d’imagerie générative préentraînés. Par exemple, vous pouvez utiliser Azure OpenAI pour générer des images personnalisées à la demande.
- Utiliser Azure OpenAI quand vous devez effectuer une analyse non spécifique et étendue sur des images. Par exemple, vous pouvez utiliser Azure OpenAI pour générer des descriptions d’accessibilité.
- Ne pas utiliser Azure OpenAI si vous souhaitez utiliser des modèles de génération d’images open source disponibles dans Azure Machine Learning.
- Ne pas utiliser Azure OpenAI si vous devez effectuer des types spécifiques de traitement d’images tels que l’extraction de formulaires, la reconnaissance faciale ou la détection des caractéristiques d’image spécialisées dans le domaine. Pour ces scénarios, utilisez ou créez des solutions IA conçues spécifiquement à ces fins.
Microsoft Azure AI Vision
- Utiliser Vision lorsque vous avez besoin d’une reconnaissance optique optique de base (OCR), d’une analyse d’image ou d’une analyse vidéo de base pour détecter le mouvement et d’autres événements.
- N'utilisez pas Vision pour l'analyse que les modèles de base, volumineux et multimodaux, prennent déjà en charge.
- Ne pas utiliser Vision pour modérer le contenu. Utilisez plutôt Microsoft Azure AI Content Safety.
Microsoft Azure AI Custom Vision
- Utiliser Custom Vision pour des exigences spécifiques qui ne peuvent pas être satisfaites par l’analyse d’image que Vision fournit. Par exemple, Custom Vision peut reconnaître des objets inhabituels et des défauts de fabrication. Il peut également fournir des classifications personnalisées détaillées.
- Ne pas utiliser Custom Vision si vous avez besoin de la détection d’objets de base ou de la détection des visages. Utilisez plutôt Azure AI Face ou Vision.
- Ne pas utiliser Custom Vision pour l’analyse visuelle de base. Utilisez plutôt des modèles compatibles avec la vision à partir d’Azure OpenAI ou de modèles open source dans Machine Learning.
Azure AI Visage
- Utiliser Azure AI Face lorsque vous devez vérifier si les visages sont en direct ou usurpés ou pour identifier, regrouper ou trouver des visages similaires.
- Ne pas utiliser Azure AI Face pour détecter les émotions dans les visages ou effectuer d’autres raisonnements de haut niveau sur les visages. Utilisez plutôt des modèles de langage modal pour ces tâches.
Microsoft Azure AI Video Indexer
- Utiliser Video Indexer pour les tâches d’analyse vidéo avancées qui ne peuvent pas être gérées par l’analyse vidéo de base dans Vision.
- Ne pas utiliser Video Indexer pour les tâches d’analyse vidéo de base, telles que le comptage et la détection des mouvements et des événements. L’analyse vidéo de base dans Vision est plus rentable pour ces tâches.

Azure OpenAI

Azure OpenAI permet d’accéder aux modèles de langage puissants d’OpenAI, y compris la dernière génération de modèles GPT. Ces modèles prennent en charge l’analyse visuelle et les générations d’images. DALL-E prend également en charge la génération d’images.

Vision

Vision fournit des algorithmes avancés qui traitent des images et retournent des informations basées sur les fonctionnalités visuelles que vous spécifiez. Il fournit quatre services : OCR, Azure AI Face, analyse d’images et analyse spatiale.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans Vision.

Fonctionnalité	Descriptif
OCR	OCR extrait du texte à partir d’images. Vous pouvez utiliser l’API Read pour extraire du texte imprimé et manuscrit à partir de photos et de documents. Il utilise des modèles basés sur l’apprentissage profond pour traiter du texte sur diverses surfaces et arrière-plans. Ces documents incluent des documents professionnels, des factures, des reçus, des affiches, des cartes de visite, des lettres et des tableaux blancs. Les API OCR prennent en charge l’extraction de texte imprimé dans plusieurs langues.
Analyse des images Azure AI Vision	L’analyse des images extrait de nombreuses fonctionnalités visuelles, telles que des objets, des visages et des descriptions de texte générées automatiquement. Vous pouvez créer des modèles d’identificateur d’image personnalisés à l’aide de l’analyse d’image 4.0 basée sur le modèle de base de Florence.
Analyse vidéo	L’analyse vidéo inclut des fonctionnalités de vidéo telles que l’analyse spatiale et la récupération vidéo. L’analyse spatiale détecte la présence de personnes et analyse leurs déplacements sur un flux vidéo, et produit des événements auxquels d'autres systèmes peuvent répondre.

Vision personnalisée

Custom Vision est un service de reconnaissance d’images que vous pouvez utiliser pour générer, déployer et améliorer vos modèles d’identificateur d’image. Un identificateur d’image applique des étiquettes aux images en fonction de leurs caractéristiques visuelles. Chaque étiquette représente une classification ou un objet. Utilisez Custom Vision pour spécifier vos propres étiquettes et entraîner des modèles personnalisés pour les détecter.

Custom Vision utilise un algorithme Machine Learning pour analyser des images pour des fonctionnalités personnalisées. Vous envoyez des ensembles d’images qui ont et n’ont pas les caractéristiques visuelles souhaitées. Ensuite, vous étiquetez les images avec vos propres étiquettes, ou étiquettes, au moment de la soumission. L’algorithme effectue ensuite l’apprentissage avec ces données et calcule sa propre précision en se testant lui-même à l’aide des mêmes images. Après avoir entraîné votre modèle, vous pouvez tester, réentraîner et utiliser le modèle dans votre application de reconnaissance d’images pour classifier des images ou détecter des objets. Vous pouvez également exporter le modèle pour l’utiliser en mode hors connexion.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans Custom Vision.

Fonctionnalité	Descriptif
Classification d’images	Prédire une catégorie, ou une classe, en fonction d’un ensemble d’entrées, qui sont appelées fonctionnalités. Calculez un score de probabilité pour chaque classe possible et retournez une étiquette qui indique la classe à laquelle l’objet appartient probablement. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes.
Détection d’objets	Obtenir les coordonnées d’un objet dans une image. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes.

Cas d’utilisation

Le tableau suivant fournit la liste des cas d’usage possibles pour Custom Vision.

Cas d’usage	Descriptif
Utilisez Custom Vision avec un appareil IoT pour signaler des états visuels.	Utilisez Custom Vision pour entraîner un appareil doté d’une caméra pour détecter les états visuels. Vous pouvez exécuter ce scénario de détection sur un appareil IoT à l’aide d’un modèle ONNX exporté. Un état visuel décrit le contenu d’une image, tel qu’une pièce vide ou une salle avec des personnes ou une allée vide ou une allée avec un camion.
Classifiez les images et les objets.	Analysez les photos et recherchez des logos spécifiques en formant un modèle personnalisé.

Azure AI Visage

Azure AI Face fournit des algorithmes d’IA qui détectent, reconnaissent et analysent des visages humains dans des images. Le logiciel de reconnaissance faciale est important dans différents scénarios, tels que l’identification, le contrôle d’accès sans contact et le flou automatique des visages pour la confidentialité.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans Azure AI Face.

Fonctionnalité	Descriptif
Détection et analyse des visages	Identifiez les régions d’une image contenant un visage humain, généralement en retournant les coordonnées du cadre englobant qui forment un rectangle autour du visage, comme ceci.
Rechercher des visages similaires	L’opération Rechercher similaire associe un visage cible à un ensemble de visages candidats. Il identifie un groupe plus petit de visages qui ressemblent étroitement au visage cible. Cette fonctionnalité est utile pour effectuer une recherche de visage par image.
Regrouper les visages	L’opération Regrouper divise un ensemble de visages inconnus en plusieurs petits groupes en fonction de leurs similarités. Chaque groupe est un sous-ensemble distinct de l’ensemble de visages d’origine. Elle retourne également un tableau unique `messyGroup` qui contient les ID de visage pour lesquels aucune similitude n’a été trouvée.
Identification	L’identification des visages peut traiter une comparaison un-à-plusieurs d’un visage dans une image à un ensemble de visages dans un référentiel sécurisé. Les candidats correspondants sont retournés en fonction de la similarité de leurs données de visage et le visage faisant l’objet de la requête.
Opérations de reconnaissance faciale	Les entreprises et applications modernes peuvent utiliser les technologies de reconnaissance faciale Azure AI, notamment la vérification faciale (ou la correspondance un-à-un) et l’identification du visage (ou une correspondance un-à-plusieurs) pour confirmer qu’un utilisateur est celui qu’il prétend être.
Détection de présence	La détection d’activité est une fonctionnalité de détection d’usurpation qui vérifie si un utilisateur est physiquement présent devant la caméra. Il est utilisé pour empêcher les attaques d’usurpation qui utilisent une photo imprimée, une vidéo enregistrée ou un masque 3D du visage de l’utilisateur.

Cas d’utilisation

Le tableau suivant fournit la liste des cas d’usage possibles pour Azure AI Face.

Cas d’usage	Descriptif
Vérifier l’identité de l’utilisateur	Vérifier l’identité d’une personne par rapport à une image de visage fiable. Cette vérification peut être utilisée pour accorder l’accès aux propriétés numériques ou physiques. Dans la plupart des scénarios, l’image de visage approuvée provient d’un ID émis par le gouvernement, tel qu’un passeport ou un permis de conduire, ou d’une photo d’inscription prise en personne. Lors de la vérification, la détection de la vivacité peut jouer un rôle crucial pour vérifier que l'image provient d'une personne vivante et non d'une photo imprimée ou d'un masque.
Rédaction de face	Éditer ou flouter les visages détectés de personnes enregistrées dans une vidéo afin de protéger leur confidentialité.
Contrôle d’accès sans contact	Par rapport aux méthodes actuelles comme les cartes ou les tickets, l’identification des visages par abonnement permet d’améliorer le contrôle d’accès tout en réduisant les risques d’hygiène et de sécurité liés au partage, à la perte ou au vol de supports physiques. La reconnaissance faciale aide le processus d’enregistrement incluant une personne physique pour l’enregistrement dans les aéroports, les stades, les parcs à thème, les bâtiments, les comptoirs d’accueil dans des bureaux, des hôpitaux, des gymnases, des clubs ou des écoles.

Indexeur de Vidéos

Video Indexer est une application cloud qui fait partie des services IA. Il est créé à l’aide d’outils Azure AI tels que Visage, Translator, Vision et Speech. Il vous permet d’extraire les insights de vos vidéos à l’aide de modèles vidéo et audio Video Indexer.

Fonctionnalités

Le tableau suivant fournit la liste de certaines des fonctionnalités disponibles dans Video Indexer.

Fonctionnalité	Descriptif
Identification et transcription de la parole multilingue	Identifie la langue parlée dans les segments différents de l’audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée.
Détection des visages	Détecte et regroupe des visages qui apparaissent dans la vidéo.
Identification des célébrités	Identifie plus de 1 million de célébrités, telles que des leaders mondiaux, des acteurs, des artistes, des athlètes, des chercheurs et des leaders commerciaux et technologiques dans le monde entier. Les données sur ces célébrités sont également disponibles sur différents sites web, tels que IMDB et Wikipédia.
Identification de visage basée sur un compte	Entraîne un modèle pour un compte spécifique. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé.
Suivi des personnes observées (préversion)	Détecte les personnes observées dans des vidéos. Il fournit des informations telles que l’emplacement de la personne dans la trame vidéo à l’aide de zones englobantes. Il inclut également les horodatages de début et de fin exacts pour le moment où une personne apparaît et un niveau de confiance pour la détection.
Transcription audio	Convertit la parole en texte dans plus de 50 langues et autorise les extensions.
Détection de langue	Identifie la langue parlée dominante.
Réduction du bruit	Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype).
Traduction	Crée des traductions de la transcription audio en plusieurs langues.

Pour plus d’informations, consultez la documentation de Video Indexer.

Cas d’utilisation

Le tableau suivant fournit la liste des cas d’usage possibles pour Video Indexer.

Cas d’usage	Descriptif
Recherche profonde	Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues. La recherche basée sur ces informations de vidéos s’applique aux agences de presse, aux instituts d’éducation, aux radiodiffuseurs, aux propriétaires de contenu de divertissement, aux applications métier d’entreprise, et généralement à n’importe quel secteur qui a une bibliothèque vidéo dont les utilisateurs ont besoin pour effectuer des recherches.
Création de contenu	Créez des bandes-annonces, des bobines de meilleurs moments, du contenu pour les réseaux sociaux ou des clips d’actualités basés sur les analyses que Video Indexer extrait de votre contenu. Les images clés, les marqueurs de scène et les horodatages de la présence des personnes et des étiquettes simplifient le processus de création. Ces éléments vous aident à localiser rapidement les parties de la vidéo dont vous avez besoin lorsque vous créez du contenu.
Accessibilité	Que vous souhaitiez rendre votre contenu disponible pour les personnes handicapées ou que votre contenu soit distribué dans différentes régions qui utilisent différentes langues, vous pouvez utiliser la transcription et la traduction que Video Indexer fournit dans plusieurs langues.
Monétisation	Video Indexer peut aider à augmenter la valeur des vidéos. Par exemple, les industries qui s’appuient sur les revenus publicitaires, tels que les médias d’actualités et les médias sociaux, peuvent fournir des publicités pertinentes à l’aide des insights extraits en tant que signaux supplémentaires au serveur publicitaire.
Modération du contenu	Utilisez des modèles de modération de contenu textuel et visuel pour protéger vos utilisateurs contre le contenu inapproprié et vérifier que le contenu que vous publiez correspond aux valeurs de votre organisation. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu.
Recommandations	les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo. En étiquetant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence les parties de la vidéo qui correspondent à leurs besoins.

Partager via

Choisir une technologie de traitement et de génération d’images et de vidéos Azure AI

Prestations

Azure OpenAI

Vision

Fonctionnalités

Vision personnalisée

Fonctionnalités

Cas d’utilisation

Azure AI Visage

Fonctionnalités

Cas d’utilisation

Indexeur de Vidéos

Fonctionnalités

Cas d’utilisation

Étapes suivantes

Ressources associées

Commentaires

Ressources supplémentaires