Charger des données d’apprentissage dans Model Builder

Article
06/02/2023

Découvrez comment charger des jeux de données d’apprentissage à partir d’un fichier ou d’une base de données SQL Server, pour les utiliser dans l’un des scénarios Model Builder pour ML.NET. Les scénarios Model Builder peuvent utiliser des bases de données SQL Server, des fichiers image et des formats de fichiers CSV ou TSV en tant que données d’apprentissage.

Model Builder accepte uniquement les fichiers TSV, CSV et TXT avec des virgules, des tabulations et des points-virgules séparateurs, ainsi que les fichiers images PNG et JPG.

Scénarios Model Builder

Model Builder vous aide à créer des modèles pour les scénarios d’apprentissage automatiques suivants :

Classification des données (classification binaire et multiclasse) : classer les données de texte en deux catégories ou plus.
Prédiction de valeur (régression) : prédire une valeur numérique.
Classification d’images (deep learning) : classer les images en deux catégories ou plus.
Recommandation (recommandation) : produire une liste d’éléments suggérés pour un utilisateur particulier.
Détection d’objets (deep learning) : détecter et identifier des objets dans des images. Cela permet de trouver un ou plusieurs objets et de les étiqueter en conséquence.

Cet article traite de la classification et de la régression avec des données textuelles ou numériques, de la classification d’images et des scénarios de détection d’objets.

Charger des données textuelles ou numériques à partir d’un fichier

Vous pouvez charger des données textuelles ou numériques dans Model Builder à partir d’un fichier. Model Builder accepte les formats de fichiers séparés par des virgules (CSV) ou séparés par des tabulations (TSV).

Dans l’étape des données dans Model Builder, sélectionnez Fichier comme type de source de données.
Cliquez sur le bouton Parcourir en regard de la zone de texte, puis utilisez l’explorateur de fichiers pour parcourir et sélectionner le fichier de données.
Sélectionnez une catégorie dans la liste déroulante Colonne à prédire (Étiquette).

Notes

(Facultatif) Scénarios de classification des données : si le type de données de votre colonne d’étiquette (la valeur de la liste déroulante « Colonne à prédire [Étiquette] ») est défini sur Booléen (Vrai/Faux), un algorithme de classification binaire est utilisé dans votre pipeline d’entraînement de modèle. Sinon, un entraîneur de classification multiclasse est utilisé. Utilisez les options de données avancées pour modifier le type de données de votre colonne d’étiquette et informez Model Builder du type d’entraîneur qu’il doit utiliser pour vos données.
Mettez à jour les données sur le lien Options de données avancées pour définir les paramètres de colonne ou pour mettre à jour la mise en forme des données.

Vous avez terminé la configuration de votre fichier de source de données pour Model Builder. Cliquez sur le bouton Étape suivante pour passer à l’étape suivante dans Model Builder.

Charger des données à partir d’une base de données SQL Server

Model Builder prend en charge le chargement de données à partir de bases de données SQL Server locales et distantes.

Fichier de base de données locale

Pour charger des données à partir d’un fichier de base de données SQL Server dans Model Builder :

Dans l’étape des données de Model Builder, sélectionnez SQL Server comme type de source de données.
Cliquez sur le bouton Choisir une source de données.
1. Dans la boîte de dialogue Choisir une source de données, sélectionnez Fichier de base de données Microsoft SQL Server.
2. Décochez la case Toujours utiliser cette sélection, puis sélectionnez Continuer
3. Dans la boîte de dialogue Propriétés de connexion, sélectionnez Parcourir et sélectionnez le fichier .MDF téléchargé.
4. Sélectionnez OK.
Sélectionnez le nom du jeu de données dans la liste déroulante Nom de la table.
Dans la liste déroulante Colonne à prédire (Étiquette),, sélectionnez la catégorie de données pour laquelle vous souhaitez effectuer une prédiction.

Notes

(Facultatif) Scénarios de classification des données : si le type de données de votre colonne d’étiquette (la valeur de la liste déroulante « Colonne à prédire [Étiquette] ») est défini sur Booléen (Vrai/Faux), un algorithme de classification binaire est utilisé dans votre pipeline d’entraînement de modèle. Sinon, un entraîneur de classification multiclasse est utilisé. Utilisez les options de données avancées pour modifier le type de données de votre colonne d’étiquette et informez Model Builder du type d’entraîneur qu’il doit utiliser pour vos données.
Mettez à jour les données sur le lien Options de données avancées pour définir les paramètres de colonne ou pour mettre à jour la mise en forme des données.

Base de données distante

Pour charger des données à partir d’une connexion de base de données SQL Server dans Model Builder :

Dans l’étape des données de Model Builder, sélectionnez SQL Server comme type de source de données.
Cliquez sur le bouton Choisir une source de données.
1. Dans la boîte de dialogue Choisir une source de données, sélectionnez Microsoft SQL Server.
Dans la boîte de dialogue Propriétés de connexion, saisissez les propriétés de votre base de données Microsoft SQL.
1. Indiquez le nom du serveur qui contient la table à laquelle vous souhaitez vous connecter.
2. Configurez l’authentification sur le serveur. Si Authentification SQL Server est sélectionné, saisissez le nom d’utilisateur et le mot de passe du serveur.
3. Sélectionnez la base de données à laquelle vous connecter dans la liste déroulante Sélectionner ou saisir un nom de base de données. Les champs doivent se remplir automatiquement si le nom du serveur et les informations de connexion sont corrects.
4. Sélectionnez OK.
Sélectionnez le nom du jeu de données dans la liste déroulante Nom de la table.
Dans la liste déroulante Colonne à prédire (Étiquette),, sélectionnez la catégorie de données pour laquelle vous souhaitez effectuer une prédiction.

Notes

(Facultatif) Scénarios de classification des données : si le type de données de votre colonne d’étiquette (la valeur de la liste déroulante « Colonne à prédire [Étiquette] ») est défini sur Booléen (Vrai/Faux), un algorithme de classification binaire est utilisé dans votre pipeline d’entraînement de modèle. Sinon, un entraîneur de classification multiclasse est utilisé. Utilisez les options de données avancées pour modifier le type de données de votre colonne d’étiquette et informez Model Builder du type d’entraîneur qu’il doit utiliser pour vos données.
Mettez à jour les données sur le lien Options de données avancées pour définir les paramètres de colonne ou pour mettre à jour la mise en forme des données.

Vous avez terminé la configuration de votre fichier de source de données pour Model Builder. Cliquez sur le bouton Étape suivante pour passer à l’étape suivante dans Model Builder.

Configurer des fichiers de données de classification d’images

Model Builder s’attend à ce que les données de classification d’images soient des fichiers JPG ou PNG organisés dans des dossiers correspondant aux catégories de classification.

Pour charger des images dans Model Builder, indiquez le chemin d’accès à un seul répertoire de niveau supérieur :

Ce répertoire de niveau supérieur contient un sous-dossier pour chacune des catégories à prédire.
Chaque sous-dossier contient les fichiers image appartenant à sa catégorie.

Dans la structure de dossiers illustrée ci-dessous, le répertoire de niveau supérieur est flower_photos. Il existe cinq sous-répertoires correspondant aux catégories que vous souhaitez prédire : marguerites, pissenlits, roses, tournesols et tulipes. Chacun de ces sous-répertoires contient des images appartenant à sa catégorie respective.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Configurer des fichiers de données image de détection d’objets

Model Builder s’attend à ce que les données d’image de détection d’objet soient au format JSON généré à partir de VoTT. Le fichier JSON se trouve dans le dossier vott-json-export dans l’emplacement cible spécifié dans les paramètres du projet.

Le fichier JSON se compose des informations suivantes générées à partir de VoTT :

Toutes les balises qui ont été créées
Les emplacements des fichiers image
Les informations sur le cadre englobant de l’image
La balise associée à l’image

Pour plus d’informations sur la préparation des données pour la détection d’objets, consultez Générer des données de détection d’objet à partir de VoTT.

Étapes suivantes

Suivez ces tutoriels pour créer des applications d’apprentissage automatique à l’aide de Model Builder :

Si vous entraînez un modèle à l’aide du code, découvrez comment charger des données à l’aide de l’API ML.NET.