Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les services Azure AI aident les développeurs et les organisations à créer des applications intelligentes, de pointe, prêtes pour le marché et responsables avec des API et des modèles prêts à l’emploi et prédéfinis et personnalisables.
Cet article traite des services IA qui fournissent des fonctionnalités de traitement vidéo et d’image, telles que l’analyse visuelle et la génération d’images, la détection d’objets, la classification des images et la reconnaissance faciale.
Prestations
Les services suivants fournissent des fonctionnalités de traitement vidéo et d’image pour les services IA :
-
Utiliser Azure OpenAI pour la génération d’images à partir du langage naturel à l’aide de modèles d’imagerie générative préentraînés. Par exemple, vous pouvez utiliser Azure OpenAI pour générer des images personnalisées à la demande.
Utiliser Azure OpenAI quand vous devez effectuer une analyse non spécifique et étendue sur des images. Par exemple, vous pouvez utiliser Azure OpenAI pour générer des descriptions d’accessibilité.
Ne pas utiliser Azure OpenAI si vous souhaitez utiliser des modèles de génération d’images open source disponibles dans Azure Machine Learning.
Ne pas utiliser Azure OpenAI si vous devez effectuer des types spécifiques de traitement d’images tels que l’extraction de formulaires, la reconnaissance faciale ou la détection des caractéristiques d’image spécialisées dans le domaine. Pour ces scénarios, utilisez ou créez des solutions IA conçues spécifiquement à ces fins.
-
Utiliser Vision lorsque vous avez besoin d’une reconnaissance optique optique de base (OCR), d’une analyse d’image ou d’une analyse vidéo de base pour détecter le mouvement et d’autres événements.
N'utilisez pas Vision pour l'analyse que les modèles de base, volumineux et multimodaux, prennent déjà en charge.
Ne pas utiliser Vision pour modérer le contenu. Utilisez plutôt Microsoft Azure AI Content Safety.
Microsoft Azure AI Custom Vision
Utiliser Custom Vision pour des exigences spécifiques qui ne peuvent pas être satisfaites par l’analyse d’image que Vision fournit. Par exemple, Custom Vision peut reconnaître des objets inhabituels et des défauts de fabrication. Il peut également fournir des classifications personnalisées détaillées.
Ne pas utiliser Custom Vision si vous avez besoin de la détection d’objets de base ou de la détection des visages. Utilisez plutôt Azure AI Face ou Vision.
Ne pas utiliser Custom Vision pour l’analyse visuelle de base. Utilisez plutôt des modèles compatibles avec la vision à partir d’Azure OpenAI ou de modèles open source dans Machine Learning.
-
Utiliser Azure AI Face lorsque vous devez vérifier si les visages sont en direct ou usurpés ou pour identifier, regrouper ou trouver des visages similaires.
Ne pas utiliser Azure AI Face pour détecter les émotions dans les visages ou effectuer d’autres raisonnements de haut niveau sur les visages. Utilisez plutôt des modèles de langage modal pour ces tâches.
Microsoft Azure AI Video Indexer
Utiliser Video Indexer pour les tâches d’analyse vidéo avancées qui ne peuvent pas être gérées par l’analyse vidéo de base dans Vision.
Ne pas utiliser Video Indexer pour les tâches d’analyse vidéo de base, telles que le comptage et la détection des mouvements et des événements. L’analyse vidéo de base dans Vision est plus rentable pour ces tâches.
Azure OpenAI
Azure OpenAI permet d’accéder aux modèles de langage puissants d’OpenAI, y compris la dernière génération de modèles GPT. Ces modèles prennent en charge l’analyse visuelle et les générations d’images. DALL-E prend également en charge la génération d’images.
Vision
Vision fournit des algorithmes avancés qui traitent des images et retournent des informations basées sur les fonctionnalités visuelles que vous spécifiez. Il fournit quatre services : OCR, Azure AI Face, analyse d’images et analyse spatiale.
Fonctionnalités
Le tableau suivant fournit la liste des fonctionnalités disponibles dans Vision.
Fonctionnalité | Descriptif |
---|---|
OCR | OCR extrait du texte à partir d’images. Vous pouvez utiliser l’API Read pour extraire du texte imprimé et manuscrit à partir de photos et de documents. Il utilise des modèles basés sur l’apprentissage profond pour traiter du texte sur diverses surfaces et arrière-plans. Ces documents incluent des documents professionnels, des factures, des reçus, des affiches, des cartes de visite, des lettres et des tableaux blancs. Les API OCR prennent en charge l’extraction de texte imprimé dans plusieurs langues. |
Analyse des images Azure AI Vision | L’analyse des images extrait de nombreuses fonctionnalités visuelles, telles que des objets, des visages et des descriptions de texte générées automatiquement. Vous pouvez créer des modèles d’identificateur d’image personnalisés à l’aide de l’analyse d’image 4.0 basée sur le modèle de base de Florence. |
Analyse vidéo | L’analyse vidéo inclut des fonctionnalités de vidéo telles que l’analyse spatiale et la récupération vidéo. L’analyse spatiale détecte la présence de personnes et analyse leurs déplacements sur un flux vidéo, et produit des événements auxquels d'autres systèmes peuvent répondre. |
Vision personnalisée
Custom Vision est un service de reconnaissance d’images que vous pouvez utiliser pour générer, déployer et améliorer vos modèles d’identificateur d’image. Un identificateur d’image applique des étiquettes aux images en fonction de leurs caractéristiques visuelles. Chaque étiquette représente une classification ou un objet. Utilisez Custom Vision pour spécifier vos propres étiquettes et entraîner des modèles personnalisés pour les détecter.
Custom Vision utilise un algorithme Machine Learning pour analyser des images pour des fonctionnalités personnalisées. Vous envoyez des ensembles d’images qui ont et n’ont pas les caractéristiques visuelles souhaitées. Ensuite, vous étiquetez les images avec vos propres étiquettes, ou étiquettes, au moment de la soumission. L’algorithme effectue ensuite l’apprentissage avec ces données et calcule sa propre précision en se testant lui-même à l’aide des mêmes images. Après avoir entraîné votre modèle, vous pouvez tester, réentraîner et utiliser le modèle dans votre application de reconnaissance d’images pour classifier des images ou détecter des objets. Vous pouvez également exporter le modèle pour l’utiliser en mode hors connexion.
Fonctionnalités
Le tableau suivant fournit la liste des fonctionnalités disponibles dans Custom Vision.
Fonctionnalité | Descriptif |
---|---|
Classification d’images | Prédire une catégorie, ou une classe, en fonction d’un ensemble d’entrées, qui sont appelées fonctionnalités. Calculez un score de probabilité pour chaque classe possible et retournez une étiquette qui indique la classe à laquelle l’objet appartient probablement. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes. |
Détection d’objets | Obtenir les coordonnées d’un objet dans une image. Pour utiliser ce modèle, il vous faut des données constituées de caractéristiques et de leurs étiquettes. |
Cas d’utilisation
Le tableau suivant fournit la liste des cas d’usage possibles pour Custom Vision.
Cas d’usage | Descriptif |
---|---|
Utilisez Custom Vision avec un appareil IoT pour signaler des états visuels. | Utilisez Custom Vision pour entraîner un appareil doté d’une caméra pour détecter les états visuels. Vous pouvez exécuter ce scénario de détection sur un appareil IoT à l’aide d’un modèle ONNX exporté. Un état visuel décrit le contenu d’une image, tel qu’une pièce vide ou une salle avec des personnes ou une allée vide ou une allée avec un camion. |
Classifiez les images et les objets. | Analysez les photos et recherchez des logos spécifiques en formant un modèle personnalisé. |
Azure AI Visage
Azure AI Face fournit des algorithmes d’IA qui détectent, reconnaissent et analysent des visages humains dans des images. Le logiciel de reconnaissance faciale est important dans différents scénarios, tels que l’identification, le contrôle d’accès sans contact et le flou automatique des visages pour la confidentialité.
Fonctionnalités
Le tableau suivant fournit la liste des fonctionnalités disponibles dans Azure AI Face.
Fonctionnalité | Descriptif |
---|---|
Détection et analyse des visages | Identifiez les régions d’une image contenant un visage humain, généralement en retournant les coordonnées du cadre englobant qui forment un rectangle autour du visage, comme ceci. |
Rechercher des visages similaires | L’opération Rechercher similaire associe un visage cible à un ensemble de visages candidats. Il identifie un groupe plus petit de visages qui ressemblent étroitement au visage cible. Cette fonctionnalité est utile pour effectuer une recherche de visage par image. |
Regrouper les visages | L’opération Regrouper divise un ensemble de visages inconnus en plusieurs petits groupes en fonction de leurs similarités. Chaque groupe est un sous-ensemble distinct de l’ensemble de visages d’origine. Elle retourne également un tableau unique messyGroup qui contient les ID de visage pour lesquels aucune similitude n’a été trouvée. |
Identification | L’identification des visages peut traiter une comparaison un-à-plusieurs d’un visage dans une image à un ensemble de visages dans un référentiel sécurisé. Les candidats correspondants sont retournés en fonction de la similarité de leurs données de visage et le visage faisant l’objet de la requête. |
Opérations de reconnaissance faciale | Les entreprises et applications modernes peuvent utiliser les technologies de reconnaissance faciale Azure AI, notamment la vérification faciale (ou la correspondance un-à-un) et l’identification du visage (ou une correspondance un-à-plusieurs) pour confirmer qu’un utilisateur est celui qu’il prétend être. |
Détection de présence | La détection d’activité est une fonctionnalité de détection d’usurpation qui vérifie si un utilisateur est physiquement présent devant la caméra. Il est utilisé pour empêcher les attaques d’usurpation qui utilisent une photo imprimée, une vidéo enregistrée ou un masque 3D du visage de l’utilisateur. |
Cas d’utilisation
Le tableau suivant fournit la liste des cas d’usage possibles pour Azure AI Face.
Cas d’usage | Descriptif |
---|---|
Vérifier l’identité de l’utilisateur | Vérifier l’identité d’une personne par rapport à une image de visage fiable. Cette vérification peut être utilisée pour accorder l’accès aux propriétés numériques ou physiques. Dans la plupart des scénarios, l’image de visage approuvée provient d’un ID émis par le gouvernement, tel qu’un passeport ou un permis de conduire, ou d’une photo d’inscription prise en personne. Lors de la vérification, la détection de la vivacité peut jouer un rôle crucial pour vérifier que l'image provient d'une personne vivante et non d'une photo imprimée ou d'un masque. |
Rédaction de face | Éditer ou flouter les visages détectés de personnes enregistrées dans une vidéo afin de protéger leur confidentialité. |
Contrôle d’accès sans contact | Par rapport aux méthodes actuelles comme les cartes ou les tickets, l’identification des visages par abonnement permet d’améliorer le contrôle d’accès tout en réduisant les risques d’hygiène et de sécurité liés au partage, à la perte ou au vol de supports physiques. La reconnaissance faciale aide le processus d’enregistrement incluant une personne physique pour l’enregistrement dans les aéroports, les stades, les parcs à thème, les bâtiments, les comptoirs d’accueil dans des bureaux, des hôpitaux, des gymnases, des clubs ou des écoles. |
Indexeur de Vidéos
Video Indexer est une application cloud qui fait partie des services IA. Il est créé à l’aide d’outils Azure AI tels que Visage, Translator, Vision et Speech. Il vous permet d’extraire les insights de vos vidéos à l’aide de modèles vidéo et audio Video Indexer.
Fonctionnalités
Le tableau suivant fournit la liste de certaines des fonctionnalités disponibles dans Video Indexer.
Fonctionnalité | Descriptif |
---|---|
Identification et transcription de la parole multilingue | Identifie la langue parlée dans les segments différents de l’audio. Il envoie chaque segment du fichier multimédia à transcrire, puis regroupe la transcription dans une transcription unifiée. |
Détection des visages | Détecte et regroupe des visages qui apparaissent dans la vidéo. |
Identification des célébrités | Identifie plus de 1 million de célébrités, telles que des leaders mondiaux, des acteurs, des artistes, des athlètes, des chercheurs et des leaders commerciaux et technologiques dans le monde entier. Les données sur ces célébrités sont également disponibles sur différents sites web, tels que IMDB et Wikipédia. |
Identification de visage basée sur un compte | Entraîne un modèle pour un compte spécifique. Il reconnaît ensuite les visages dans la vidéo en fonction du modèle formé. |
Suivi des personnes observées (préversion) | Détecte les personnes observées dans des vidéos. Il fournit des informations telles que l’emplacement de la personne dans la trame vidéo à l’aide de zones englobantes. Il inclut également les horodatages de début et de fin exacts pour le moment où une personne apparaît et un niveau de confiance pour la détection. |
Transcription audio | Convertit la parole en texte dans plus de 50 langues et autorise les extensions. |
Détection de langue | Identifie la langue parlée dominante. |
Réduction du bruit | Nettoie les enregistrements contenant du bruit ou de l’audio de téléphonie (en fonction des filtres Skype). |
Traduction | Crée des traductions de la transcription audio en plusieurs langues. |
Pour plus d’informations, consultez la documentation de Video Indexer.
Cas d’utilisation
Le tableau suivant fournit la liste des cas d’usage possibles pour Video Indexer.
Cas d’usage | Descriptif |
---|---|
Recherche profonde | Utilisez les insights extraits de la vidéo pour améliorer l’expérience de recherche au sein d’une bibliothèque vidéo. Par exemple, l’indexation des visages et des mots prononcés peut permettre de trouver les moments spécifiques d’une vidéo où une personne a prononcé certains mots ou le moment où deux personnes se sont vues. La recherche basée sur ces informations de vidéos s’applique aux agences de presse, aux instituts d’éducation, aux radiodiffuseurs, aux propriétaires de contenu de divertissement, aux applications métier d’entreprise, et généralement à n’importe quel secteur qui a une bibliothèque vidéo dont les utilisateurs ont besoin pour effectuer des recherches. |
Création de contenu | Créez des bandes-annonces, des bobines de meilleurs moments, du contenu pour les réseaux sociaux ou des clips d’actualités basés sur les analyses que Video Indexer extrait de votre contenu. Les images clés, les marqueurs de scène et les horodatages de la présence des personnes et des étiquettes simplifient le processus de création. Ces éléments vous aident à localiser rapidement les parties de la vidéo dont vous avez besoin lorsque vous créez du contenu. |
Accessibilité | Que vous souhaitiez rendre votre contenu disponible pour les personnes handicapées ou que votre contenu soit distribué dans différentes régions qui utilisent différentes langues, vous pouvez utiliser la transcription et la traduction que Video Indexer fournit dans plusieurs langues. |
Monétisation | Video Indexer peut aider à augmenter la valeur des vidéos. Par exemple, les industries qui s’appuient sur les revenus publicitaires, tels que les médias d’actualités et les médias sociaux, peuvent fournir des publicités pertinentes à l’aide des insights extraits en tant que signaux supplémentaires au serveur publicitaire. |
Modération du contenu | Utilisez des modèles de modération de contenu textuel et visuel pour protéger vos utilisateurs contre le contenu inapproprié et vérifier que le contenu que vous publiez correspond aux valeurs de votre organisation. Vous pouvez bloquer automatiquement certaines vidéos ou alerter vos utilisateurs au sujet du contenu. |
Recommandations | les insights vidéo peuvent être utilisés pour améliorer l’engagement utilisateur en soulignant les moments intéressants d’une vidéo. En étiquetant chaque vidéo avec des métadonnées supplémentaires, vous pouvez recommander aux utilisateurs les vidéos les plus pertinentes et mettre en évidence les parties de la vidéo qui correspondent à leurs besoins. |
Étapes suivantes
- Qu’est-ce que Vision?
- Parcours d’apprentissage : Développer des solutions de traitement du langage naturel avec des services IA
- Parcours d’apprentissage : Prise en main des services IA
- Parcours d’apprentissage : Notions de base de l’IA Microsoft Azure : Vision par ordinateur
- Parcours d’apprentissage : Créer des solutions de vision par ordinateur avec Vision
- Parcours d’apprentissage : Créer une solution de reconnaissance d’images avec les services Azure IoT Edge et IA