Importer vos données de formation dans Machine Learning Studio (classique) à partir de différentes sources de données

S’APPLIQUE À :S’applique à Machine Learning Studio (classique) Ne s’applique pas à Azure Machine Learning

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Pour utiliser vos propres données dans Machine Learning Studio (classique) afin de développer et de tester une solution d’analyse prédictive, vous pouvez utiliser les données des ressources suivantes :

  • Fichier local : chargez à l’avance les données locales à partir de votre disque dur pour créer un module de jeu de données dans votre espace de travail
  • Sources de données en ligne : utilisez le module Importer les données pour accéder aux données à partir d’une des nombreuses sources en ligne pendant que votre expérience s’exécute
  • Expérience Machine Learning Studio (classique) : utiliser les données qui ont été enregistrées en tant que jeu de données dans Machine Learning Studio (classique)
  • Base de données SQL Server - Utiliser les données d’une base de données SQL Server sans avoir à copier les données manuellement

Notes

Un certain nombre d’exemples de jeux de données sont disponibles dans Machine Learning Studio (classique) et vous pouvez les utiliser comme données de formation. Pour plus d’informations, consultez Utilisation des exemples de jeux de données dans Machine Learning Studio (classique).

Préparer les données

Machine Learning Studio (classique) est conçu pour travailler avec des données tabulaires ou rectangulaires, comme des données texte délimitées ou structurées à partir d’une base de données, bien que dans certains cas des données non rectangulaires puissent être utilisées.

Il est préférable que vos données soient relativement propres avant leur importation dans Studio (classique). Par exemple, vous souhaitez prendre en charge des problèmes tels que des chaînes sans guillemets.

Toutefois, des modules sont disponibles dans Studio (classique), qui permettent d’effectuer certaines manipulations de données dans votre expérience après importation de vos données. En fonction des algorithmes d’apprentissage automatique que vous allez utiliser, vous devrez décider comment gérer les problèmes structurels des données tels que des valeurs manquantes et des données fragmentées. Certains modules existent pour vous aider à régler ces problèmes. Rechercher dans la section Transformation des données de la palette des modules ceux qui exécutent ces fonctions.

À tout stade de votre expérience, vous pouvez voir ou télécharger les données générées par un module en cliquant sur le port de sortie. En fonction du module, différentes options de téléchargement peuvent être disponibles. Vous pouvez également afficher les données dans votre navigateur web dans Studio (classique).

Formats et types de données pris en charge

Vous pouvez importer un certain nombre de types de données dans votre expérience, selon le mécanisme que vous utilisez pour importer les données et l’emplacement d’où elles proviennent :

  • Texte brut (.txt)
  • Comma-separated values (CSV) avec un en-tête (.csv) ou sans (. nh.csv)
  • Tab-separated values (TSV) avec un en-tête (.tsv) ou sans (. nh.tsv)
  • Fichier Excel
  • Table Azure
  • Table hive
  • Base de données SQL
  • Valeurs OData
  • Données SVMLight (.svmlight) (voir la définition SVMLight pour les informations relatives au format)
  • Données Attribute Relation File Format (ARFF) (.arff) (voir la définition ARFF pour les informations relatives au format)
  • Fichier zip (.zip)
  • Fichier d’espace de travail ou d’objet R (.RData)

Si vous importez des données dans un format tel que ARFF qui inclut des métadonnées, Studio (classique) utilise celles-ci pour définir le titre et le type de données de chaque colonne.

Si vous importez des données dans des formats tels que TSV ou CSV qui n’incluent pas ces métadonnées, Studio (classique) déduit le type de données de chaque colonne en échantillonnant les données. Si les données n’ont pas non plus de titre de colonne, Studio (classique) fournit des noms par défaut.

Vous pouvez spécifier de manière explicite ou modifier les titres et les types de données pour les colonnes à l’aide du module Modifier les métadonnées.

Les types de données reconnus par Studio (classique) sont les suivants :

  • String
  • Integer
  • Double
  • Boolean
  • DateTime
  • TimeSpan

Studio utilise un type de données interne appelé table de données pour passer des données entre les modules. Vous pouvez convertir de manière explicite vos données dans un format de table de données à l’aide du module Convertir en jeu de données.

Tout module qui accepte des formats autres que la table de données convertit silencieusement les données en table de données avant de les passer au module suivant.

Au besoin, vous pouvez convertir à nouveau le format de table de données au format CSV, TSV, ARFF ou SVMLight à l’aide d’autres modules de conversion. Recherchez dans la section Conversion des formats de données de la palette des modules ceux qui exécutent ces fonctions.

Capacités des données

Les modules de Machine Learning Studio (classique) prennent en charge les jeux de données d’une taille maximale de 10 Go de données numériques denses pour les scénarios d’utilisation courants. Si un module accepte plusieurs entrées, le total de toutes les tailles d’entrée est de 10 Go. Vous pouvez échantillonner des jeux de données plus importants par le biais de requêtes Hive ou Azure SQL Database ou encore via un prétraitement Learning by Counts avant d'importer les données.

Les types de données suivants peuvent être développés en jeux de données plus importants au moment de la normalisation des fonctionnalités et ils sont limités à moins de 10 Go :

  • Partiellement alloué
  • Par catégorie
  • Chaînes
  • Données binaires

Les modules suivants sont limités à des jeux de données inférieurs à 10 Go :

  • modules de recommandation
  • Module SMOTE (Synthetic Minority Oversampling Technique)
  • Modules de scripts : R, Python, SQL
  • Modules dont la taille des données de sortie peut être supérieure à la taille des données d’entrée, comme Join ou Feature Hashing
  • Validation croisée, réglage des hyperparamètres de modèle, régression ordinale et plusieurs classes de un contre tous, lorsque le nombre d’itérations est très élevé

Pour les tailles de jeux de données supérieures à quelques gigaoctets, chargez les données sur Stockage Azure ou Azure SQL Database. Vous pouvez aussi utiliser Azure HDInsight au lieu d’effectuer un chargement directement à partir d’un fichier local.

Vous trouverez des informations sur les données d’image dans la référence du module Importer des Images.

Importer à partir d’un fichier local

Vous pouvez charger un fichier de données à partir de votre disque dur pour vous en servir comme données de formation dans Studio (classique). Lorsque vous importez un fichier de données, vous créez un module de jeu de données prêt à être utilisé dans des expériences au sein de votre espace de travail.

Pour importer des données à partir d’un disque dur local, procédez comme suit :

  1. Cliquez sur +NOUVEAU en bas de la fenêtre de Studio (classique).
  2. Sélectionnez JEU DE DONNÉES et DEPUIS UN FICHIER LOCAL.
  3. Dans la boîte de dialogue Télécharger un nouveau jeu de données , recherchez le fichier que vous souhaitez télécharger.
  4. Saisissez un nom, identifiez le type de données puis saisissez éventuellement une description. Une description est recommandée : elle vous permet d’enregistrer des caractéristiques relatives aux données que vous souhaitez mémoriser pour une utilisation future.
  5. La case à cocher Il s'agit de la nouvelle version d'un jeu de donnée existant vous permet de mettre à jour un jeu de données existant avec de nouvelles données. Pour ce faire, cliquez simplement sur cette case à cocher, puis saisissez le nom d’un jeu de données existant.

Charger un nouveau jeu de données

Le temps de téléchargement dépend de la taille de vos données et de la vitesse de votre connexion au service. Si vous savez que le téléchargement du fichier prendra du temps, vous pouvez faire autre chose dans Studio (classique) en attendant. Cependant, la fermeture du navigateur avant la fin du chargements entraîne l’échec de celui-ci.

Une fois que vos données sont téléchargées, elles sont stockées dans un module de jeu de données et sont disponibles pour n'importe quelle expérience dans votre espace de travail.

Quand vous éditez une expérimentation, les jeux de données que vous avez chargés apparaissent sous Mes jeux de données dans la liste Jeux de données enregistrés de la palette du module. Vous pouvez glisser-déplacer le jeu de données dans le canevas de l’expérience en vue d’affiner l’analyse et Machine Learning.

Importer à partir de sources de données en ligne

En utilisant le module Importer des données, votre expérience peut importer des données à partir de diverses sources en ligne en cours d’exécution.

Notes

Cet article fournit des informations générales sur le module Importer les données. Pour plus d’informations sur les types de données auxquelles vous pouvez accéder, les formats, les paramètres et les réponses aux questions courantes, consultez la rubrique de référence pour le module Importer les données.

Le module Importer des données vous permet d’accéder aux données d’une des sources en ligne en cours d’expérience :

  • Une URL web avec HTTP
  • Hadoop avec HiveQL
  • Stockage Blob Azure
  • Table Azure
  • Azure SQL Database. SQL Managed Instance ou SQL Server
  • Un fournisseur de flux de données, actuellement, OData
  • Azure Cosmos DB

Ces données d’apprentissage étant chargées en cours d’expérience, elles ne sont disponibles que dans le cadre de celle-ci. En revanche, des données stockées dans un module de jeu de données sont disponibles pour toute expérience au sein de votre espace de travail.

Pour accéder à des sources de données en ligne dans votre expérience Studio (classique), ajoutez le module Importer des données module à votre expérience. Sélectionnez ensuite Lancer l’Assistant Importation de données sous Propriétés afin d’obtenir des instructions pas à pas pour sélectionner et configurer la source de données. Vous pouvez également sélectionner manuellement une source de données sous Propriétés et fournir les paramètres nécessaires pour accéder aux données.

Les sources de données en ligne prises en charge sont détaillées dans le tableau ci-dessous. Ce tableau récapitule également les formats de fichier pris en charge et les paramètres qui sont utilisés pour accéder aux données.

Important

Actuellement, les modules Importer les données et Exporter les données peuvent lire et écrire des données uniquement à partir d’un stockage Azure créé à l’aide du modèle de déploiement classique. En d’autres termes, le nouveau type de compte de stockage d’objets blob Azure qui offre un niveau d’accès au stockage chaud ou un niveau d’accès au stockage froid n’est pas encore pris en charge.

En règle générale, les comptes de stockage Azure que vous avez peut-être créés avant que cette option de service ne soit disponible ne devraient pas être affectés. Si vous avez besoin de créer un nouveau compte, sélectionnez Classique comme modèle de déploiement, ou utilisez Resource Manager et, comme Type de compte, sélectionnez Usage général plutôt que Stockage Blob.

Pour plus d’informations, consultez Stockage Blob Azure : niveaux de stockage chauds et froids.

Sources de données en ligne prises en charge

Le module Importer les données de Machine Learning Studio (classique) prend en charge les sources de données suivantes :

source de données Description Paramètres
URL Web via HTTP Lit les données au format CSV (valeurs séparées par des virgules), TSV (valeurs séparées par des tabulations), ARFF (format de fichier de relation d’attribut) et SVM-light (Machines vectorielles (SVM clair)), à partir de n’importe quelle URL web qui utilise le protocole HTTP URL : Indique le nom complet du fichier, notamment l’URL du site et le nom de fichier, avec n’importe quelle extension.

Format de données : Spécifie un des formats de données pris en charge : CSV, TSV, ARFF ou SVM-light. Lorsque les données ont une ligne d’en-tête, elle est utilisée pour attribuer des noms de colonne.
Hadoop/HDFS Lit les données à partir d’un stockage distribué dans Hadoop. Spécifiez les données souhaitées à l’aide de HiveQL, langage de requête de type SQL. Vous pouvez également utiliser HiveQL pour agréger et effectuer un filtrage des données avant d’ajouter les données à Studio (classique). Requête de base de données Hive : Spécifie la requête Hive utilisée pour générer les données.

URI du serveur HCatalog  : Spécifie le nom de votre cluster en utilisant le format <nom de votre cluster>. azurehdinsight.net.

Nom du compte utilisateur Hadoop : Spécifie le nom du compte utilisateur Hadoop utilisé pour configurer le cluster.

Mot de passe du compte utilisateur Hadoop : Spécifie les informations d’identification utilisées lors de la configuration du cluster. Pour plus d’informations, consultez Création de clusters Hadoop dans HDInsight.

Emplacement des données de sortie : Indique si les données sont stockées dans un système de fichiers distribué Hadoop (HDFS) ou dans Azure.
    Si vous stockez des données de sortie dans HDFS, spécifiez l'URI du serveur HDFS. (Veillez à utiliser le nom du cluster HDInsight sans le préfixe HTTPS://).

    Si vous stockez vos données de sortie dans Azure, vous devez spécifier le nom du compte de stockage Azure, la clé d’accès au stockage et le nom du conteneur de stockage.
Base de données SQL Lit les données stockées dans Azure SQL Database, SQL Managed Instance ou dans une base de données SQL Server s’exécutant sur une machine virtuelle Azure. Nom du serveur de base de données : Spécifie le nom du serveur sur lequel la base de données s’exécute.
    S’il s’agit d'une base de données Azure SQL, entrez le nom du serveur généré. En général, il se présente sous la forme <generated_identifier>.database.windows.net.

    Dans le cas d’un serveur SQL hébergé sur une machine virtuelle Azure, entrez tcp:<Virtual Machine DNS Name>, 1433

Nom de la base de données : Spécifie le nom de la base de données sur le serveur.

Nom du compte utilisateur du serveur : Spécifie un nom d’utilisateur pour un compte disposant des autorisations d’accès à la base de données.

Mot de passe du compte d’utilisateur du serveur : Spécifie le mot de passe du compte d’utilisateur.

Requête de base de données : entrez une instruction SQL qui décrit les données que vous souhaitez lire.
Base de données SQL locale Lit les données stockées dans une base de données SQL. Passerelle de données : Spécifie le nom de la passerelle de gestion de données installée sur un ordinateur à partir duquel elle peut accéder à votre base de données SQL Server. Pour plus d’informations sur la configuration de la passerelle, consultez Exécuter une analytique avancée avec Machine Learning Studio (classique) en utilisant les données d’un serveur SQL.

Nom du serveur de base de données : Spécifie le nom du serveur sur lequel la base de données s’exécute.

Nom de la base de données : Spécifie le nom de la base de données sur le serveur.

Nom du compte utilisateur du serveur : Spécifie un nom d’utilisateur pour un compte disposant des autorisations d’accès à la base de données.

Nom d’utilisateur et mot de passe : Cliquez sur Entrer les valeurs pour saisir les informations d’identification de votre base de données. Vous pouvez utiliser l’authentification intégrée Windows ou l’authentification SQL Server en fonction de la configuration de votre serveur SQL Server.

Requête de base de données : entrez une instruction SQL qui décrit les données que vous souhaitez lire.
table Azure Lit les données du service de tableau dans le stockage Azure.

Si vous lisez rarement de grandes quantités de données, utilisez le Service de Tableau Azure. Il fournit une solution de stockage ultra disponible, flexible, non relationnelle (NoSQL), économique et hautement évolutive.
Les options du module Importer les données changent selon que vous accédez à des informations publiques ou à un compte de stockage privé qui nécessite des informations d’identification de connexion. Cela est déterminé par le Type d'authentification qui peut avoir la valeur « PublicOrSAS » ou « Compte », chacun d'entre eux possède son propre ensemble de paramètres.

URI de signature d’accès partagé (SAP) ou public : Les paramètres sont les suivants :

    URI de table : Spécifie l’URL SAP ou publique de la table.

    Spécifie les lignes à analyser pour rechercher les noms de propriété : Les valeurs sont TopN pour analyser le nombre spécifié de lignes ou ScanAll pour obtenir toutes les lignes de la table.

    Si les données sont homogènes et prévisibles, nous vous recommandons de sélectionner TopN et d’entrer un chiffre pour N. Pour les tables volumineuses, ceci peut accélérer les temps de lecture.

    Si les données sont structurées avec des ensembles de propriétés qui varient en fonction de la profondeur et la position de la table, choisissez l’option ScanAll pour analyser toutes les lignes. Cela garantit l’intégrité de la propriété obtenue et de la conversion des métadonnées.

Compte de stockage privé : Les paramètres sont les suivants :

    Nom du compte : Spécifie le nom du compte contenant la table à lire.

    Clé du compte : Spécifie la clé de stockage associée au compte.

    Nom de la table : Spécifie le nom de la table contenant les données à lire.

    Lignes à analyser pour rechercher les noms de propriété : Les valeurs sont TopN pour analyser le nombre spécifié de lignes ou ScanAll pour obtenir toutes les lignes de la table.

    Si les données sont homogènes et prévisibles, nous vous recommandons de sélectionner TopN et d’entrer un chiffre pour N. Pour les tables volumineuses, ceci peut accélérer les temps de lecture.

    Si les données sont structurées avec des ensembles de propriétés qui varient en fonction de la profondeur et la position de la table, choisissez l’option ScanAll pour analyser toutes les lignes. Cela garantit l’intégrité de la propriété obtenue et de la conversion des métadonnées.

Stockage Blob Azure Lit les données stockées dans le service d'objet Blob dans le stockage Azure, notamment les images, le texte non structuré ou les données binaires.

Vous pouvez utiliser le service Blob pour exposer publiquement des données ou pour stocker en privé des données d'application. Vous pouvez accéder à vos données depuis n’importe où grâce à des connexions HTTP ou HTTPS.
Les options du module Importer les données changent selon que vous accédez à des informations publiques ou à un compte de stockage privé qui nécessite des informations d’identification de connexion. Cela est déterminé par le Type d’authentification qui peut avoir la valeur « PublicOrSAS » ou « Compte ».

URI de signature d’accès partagé (SAP) ou public : Les paramètres sont les suivants :

    URI : Spécifie l’URL SAP ou publique du Stockage Blob.

    Format du fichier : Spécifie le format des données dans le service BLOB. Les formats pris en charge sont CSV, TSV et ARFF.

Compte de stockage privé : Les paramètres sont les suivants :

    Nom du compte : Spécifie le nom du compte contenant l’objet Blob à lire.

    Clé du compte : Spécifie la clé de stockage associée au compte.

    Chemin d’accès au conteneur, répertoire ou Blob : Spécifie le nom de l’objet Blob contenant les données à lire.

    Format du fichier Blob : Spécifie le format des données dans le service Blob. Les formats de données pris en charge sont CSV, TSV, ARFF, CSV avec un codage spécifié et Excel.

      Si le format est CSV ou TSV, veillez à indiquer si le fichier contient une ligne d’en-tête.

      Vous pouvez utiliser l'option Excel pour lire des données à partir de classeurs Excel. Dans l'option format de données Excel, indiquez si les données se trouvent dans une plage de feuille de calcul Excel ou un tableau Excel. Dans l’option Feuille de calcul Excel ou table intégrée, spécifiez le nom de la feuille ou table à lire.

Fournisseur de flux de données Lit les données d’un fournisseur de flux pris en charge. Actuellement, seul le protocole Open Data Protocol (OData) est pris en charge. Type de contenu de données : Spécifie le format OData.

URL source : Spécifie l’URL complète du flux de données.
Par exemple, l’URL suivante lit dans l’exemple de base de données Northwind : https://services.odata.org/northwind/northwind.svc/

Importer à partir d’une autre expérience

Il se peut que vous ayez parfois besoin d’obtenir un résultat intermédiaire à partir d’une expérience et de l’utiliser dans le cadre d’une autre expérience. Pour ce faire, vous enregistrez le module en tant que jeu de données :

  1. Cliquez sur la sortie du module que vous souhaitez enregistrer en tant que jeu de données.
  2. Cliquez sur Enregistrer comme jeu de données.
  3. Lorsque vous y êtes invité, saisissez un nom et une description qui vous permet d'identifier facilement le jeu de données.
  4. Cliquez sur la coche OK .

Lorsque l'enregistrement est terminé, le jeu de données sera disponible pour être utilisé dans n'importe quelle expérience dans votre espace de travail. Vous pouvez le trouver dans la liste Jeux de données enregistrés dans la palette des modules.

Étapes suivantes

Déployer des services web Machine Learning Studio (classique) utilisant les modules Importer les données et Exporter les données