Azure AI Vision
Bien que vous puissiez entraîner vos propres modèles Machine Learning pour la vision par ordinateur, l’architecture des modèles vision par ordinateur peut être complexe ; et vous avez besoin de volumes importants d’images d’entraînement et de puissance de calcul pour effectuer le processus d’entraînement.
Le service Azure AI Vision de Microsoft fournit des modèles prédéfinis et personnalisables de vision par ordinateur basés sur le modèle de base de Florence et fournissent diverses fonctionnalités puissantes. Avec Azure AI Vision, vous pouvez créer des solutions de vision par ordinateur sophistiquées rapidement et facilement ; tirer parti de la fonctionnalité « off-the-shelf » pour de nombreux scénarios de vision par ordinateur courants, tout en conservant la possibilité de créer des modèles personnalisés à l’aide de vos propres images.
Ressources Azure pour le service Azure AI Vision
Pour utiliser Azure AI Vision, vous devez créer une ressource pour celle-ci dans votre abonnement Azure. Vous pouvez utiliser l’un des types de ressources suivants :
- Azure AI Vision: ressource spécifique pour le service Azure AI Vision. Utilisez ce type de ressource si vous n’avez pas l’intention d’utiliser d’autres services Azure AI, ou si vous souhaitez suivre l’utilisation et les coûts de votre ressource Azure AI Vision séparément.
- services Azure AI: ressource générale qui inclut Azure AI Vision, ainsi que de nombreux autres services Azure AI ; comme Azure AI Language, Azure AI Custom Vision, Azure AI Translator et d’autres. Utilisez ce type de ressource si vous envisagez d’utiliser plusieurs services IA et souhaitez simplifier l’administration et le développement.
Analyse d’images avec le service Azure AI Vision
Une fois que vous avez créé une ressource appropriée dans votre abonnement, vous pouvez envoyer des images au service Azure AI Vision pour effectuer un large éventail de tâches analytiques.
Azure AI Vision prend en charge plusieurs fonctionnalités d’analyse d’images, notamment :
- Reconnaissance optique de caractères (OCR) : extraction de texte à partir d’images.
- Génération de légendes et de descriptions d’images.
- Détection de milliers d’objets communs dans des images.
- Marquage des fonctionnalités visuelles dans les images
Ces tâches, et bien plus encore, peuvent être effectuées dans Azure AI Vision Studio.
Reconnaissance optique de caractères
Le service Azure AI Vision peut utiliser des fonctionnalités de reconnaissance optique de caractères (OCR) pour détecter du texte dans des images. Par exemple, considérez l’image suivante d’une étiquette de nutrition sur un produit dans une épicerie :
Le service Azure AI Vision peut analyser cette image et extraire le texte suivant :
Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet
Pourboire
Vous pouvez explorer les fonctionnalités OCR d’Azure AI Vision plus loin dans la Lire du texte avec le module Azure AI Vision sur Microsoft Learn.
Description d’une image avec des légendes
Azure AI Vision a la possibilité d’analyser une image, d’évaluer les objets détectés et de générer une phrase ou une phrase lisible par l’homme qui peut décrire ce qui a été détecté dans l’image. Par exemple, considérez l’image suivante :
Azure AI Vision retourne la légende suivante pour cette image :
Un homme en train de sauter sur un skateboard
Détection d’objets courants dans une image
Azure AI Vision peut identifier des milliers d’objets communs dans des images. Par exemple, lorsqu’il est utilisé pour détecter des objets dans l’image de skateboard décrite précédemment, Azure AI Vision retourne les prédictions suivantes :
- Skateboard (90,40%)
- Personne (95,5%)
Les prédictions incluent un score de confiance qui indique la probabilité que le modèle ait calculé pour les objets prédits.
Outre les libellés d'objets détectés et leurs probabilités, Azure AI Vision retourne les coordonnées du cadre englobant qui indiquent le haut, la gauche, la largeur et la hauteur de l’objet détecté. Vous pouvez utiliser ces coordonnées pour déterminer où, dans l’image, chaque objet a été détecté, comme suit :
Fonctionnalités visuelles d’étiquetage
Azure AI Vision peut suggérer des étiquettes pour une image en fonction de son contenu. Ces balises peuvent être associées à l’image en tant que métadonnées qui résument les attributs de l’image et peuvent être utiles si vous souhaitez indexer une image avec un ensemble de termes clés qui peuvent être utilisés pour rechercher des images avec des attributs ou du contenu spécifiques.
Par exemple, les balises retournées pour l’image de skateboard (avec les scores de confiance associés) sont les suivantes :
- sport (99,60%)
- personne (99,56%)
- chaussures (98,05%)
- patinage (96,27%)
- sport de glisse (95,58%)
- équipement de skate (94,43%)
- vêtements (94,02%)
- mur (93,81%)
- la pratique du skateboard (93,78%)
- skateboarder (93,25%)
- sports individuels (92,80%)
- cascades de rue (90,81%)
- solde (90,81%)
- saut (89,87%)
- équipement sportif (88,61%)
- sport extrême (88,35%)
- kickflip (88,18%)
- cascade (87,27%)
- skateboard (86,87%)
- interprète de cascade (85,83%)
- genou (85,30%)
- sports (85,24%)
- longboard (84,61%)
- pratique du longboard (84,45%)
- circonscription (73,37%)
- patin (67,27%)
- air (64,83%)
- jeune (63,29%)
- extérieur (61,39%)
Formation de modèles personnalisés
Si les modèles intégrés fournis par Azure AI Vision ne répondent pas à vos besoins, vous pouvez utiliser le service pour entraîner un modèle personnalisé pour classification d’images ou détection d’objets. Azure AI Vision crée des modèles personnalisés sur le modèle de base préentraîné, ce qui signifie que vous pouvez entraîner des modèles sophistiqués en utilisant relativement peu d’images d’entraînement.
Classification d’images
Un modèle de classification d’images est utilisé pour prédire la catégorie, ou classe d’une image. Par exemple, vous pouvez entraîner un modèle pour déterminer le type de fruit affiché dans une image, comme suit :
Pomme | Banane | Orange |
---|---|---|
![]() |
![]() |
![]() |
Détection d’objets
Les modèles de détection d’objets détectent et classent des objets dans une image, en retournant des coordonnées de zones englobantes pour localiser chaque objet. Outre les fonctionnalités intégrées de détection d’objets dans Azure AI Vision, vous pouvez entraîner un modèle de détection d’objet personnalisé avec vos propres images. Par exemple, vous pouvez utiliser des photographies de fruits pour entraîner un modèle qui détecte plusieurs fruits dans une image, comme ceci :
Note
Les détails de l’utilisation d’Azure AI Vision pour entraîner un modèle personnalisé dépassent l’étendue de ce module. Vous trouverez des informations sur l’entraînement de modèle personnalisé dans la documentation Azure AI Vision.