Importer à partir d’une URL web via HTTP

2019-05-06

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article explique comment utiliser le module importer des données dans Machine Learning Studio (classic) pour lire des données à partir d’une page Web publique en vue de les utiliser dans une expérience Machine Learning.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Les restrictions suivantes s’appliquent aux données publiées sur une page web :

Les données doivent être dans l’un des formats pris en charge : CSV, TSV, ARFF ou SvmLight. Les autres données génèrent des erreurs.
Aucune authentification n’est nécessaire ni prise en charge. Les données doivent être disponibles publiquement.

Comment importer des données via HTTP

Deux méthodes permettent d’obtenir des données : utilisez l’Assistant pour configurer la source de données ou configurez-la manuellement.

Utiliser l’Assistant Importation de données

Ajoutez le module Importer des données à votre expérience. Vous pouvez trouver le module dans Studio (Classic), dans la catégorie entrée et sortie des données .
Cliquez sur Launch Import Data Wizard (Lancer l’Assistant Importation de données) et sélectionnez URL web via HTTP.
Collez l’URL, puis sélectionnez un format de données.
Une fois la configuration terminée, cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.

Pour modifier une connexion de données existante, redémarrez l’Assistant. L’Assistant charge tous les détails de configuration précédents pour que vous n’ayez pas à recommencer à partir de zéro.

Définir manuellement les propriétés du module Importer des données

Les étapes suivantes décrivent la configuration manuelle de la source d’importation.

Ajoutez le module Importer des données à votre expérience. Vous pouvez trouver le module dans Studio (Classic), dans la catégorie entrée et sortie des données .
Pour Source de données, sélectionnez Web URL via HTTP (URL web via HTTP).
Pour URL, tapez ou collez l’URL complète de la page qui contient les données à charger.

L’URL doit inclure l’URL du site et le chemin d’accès complet de la page qui contient les données à charger avec l’extension et le nom de fichier.

Par exemple, la page suivante contient le jeu de données Iris du référentiel de l’Université de Californie, Irvine, d’apprentissage automatique :

https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
Pour Format de données, sélectionnez l’un des formats de données pris en charge dans la liste.

Nous vous recommandons de toujours vérifier les données au préalable afin de déterminer le format. La page Irvine de l’Université de Californie utilise le format CSV. Les autres formats de données pris en charge sont les suivants : TSV, ARFF et SvmLight.
Si les données sont au format CSV ou TSV, utilisez l’option Le fichier a une ligne d’en-tête pour indiquer si la source de données inclut une ligne d’en-tête. La ligne d’en-tête permet d’attribuer des noms de colonne.
Sélectionnez les options Use cached results (Utiliser les résultats mis en cache) si vous ne pensez pas que les données changeront beaucoup ou si vous souhaitez éviter de recharger les données à chaque exécution de l’expérience.

Lorsque cette option est sélectionnée, l’expérience charge les données lors de la première exécution du module et utilise ensuite une version mise en cache du DataSet.

Si vous souhaitez recharger le jeu de données à chaque itération du jeu de données d’expérimentation, désélectionnez l’option utiliser les résultats en cache . Les résultats sont également rechargés si des modifications sont apportées aux paramètres des données d’importation.
Exécutez l’expérience.

Résultats

À l’issue de l’opération, cliquez sur le jeu de données de sortie et sélectionnez Visualiser pour voir si les données ont bien été importées.

Exemples

Consultez ces exemples dans la Azure ai Gallery d’expériences machine learning qui obtiennent des données à partir de sites Web publics :

Exemple de reconnaissance de lettres: obtient un jeu de données d’apprentissage à partir du référentiel de machine learning public hébergé par UC Irvine.
Télécharger le jeu de données UCI: lit un jeu de données au format CSV.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Questions courantes

Puis-je filtrer les données à mesure qu’elles sont lues à partir de la source

Non. Cette option n’est pas prise en charge avec cette source de données.

après avoir lu les données dans Machine Learning Studio (classic), vous pouvez fractionner le jeu de données, utiliser l’échantillonnage, etc. pour obtenir uniquement les lignes souhaitées :

Écrivez un code R simple dans le script d’exécution r pour obtenir une partie des données par lignes ou par colonnes.
Utilisez le module fractionner les données avec une expression relative ou une expression régulière pour isoler les données souhaitées.
Si vous avez chargé plus de données que nécessaire, remplacez le DataSet mis en cache en lisant un nouveau DataSet et en l’enregistrant avec le même nom.

Comment éviter de recharger les mêmes données inutilement

Si vos données sources changent, vous pouvez actualiser le jeu de données et ajouter de nouvelles données en réexécutant les données d’importation.

Si vous ne souhaitez pas relire la source à chaque fois que vous exécutez l’expérimentation, sélectionnez l’option utiliser les résultats en cache pour la valeur true. Lorsque cette option a la valeur TRUE, le module vérifie si l’expérience a été exécutée précédemment à l’aide de la même source et des mêmes options d’entrée. Si une exécution précédente est trouvée, les données du cache sont utilisées, au lieu de recharger les données à partir de la source.

Pourquoi une ligne supplémentaire a-t-elle été ajoutée à la fin de mon jeu de données ?

Si le module importer des données rencontre une ligne de données suivie d’une ligne vide ou d’un caractère de nouvelle ligne finale, une ligne supplémentaire est ajoutée à la fin de la table. Cette nouvelle ligne contient les valeurs manquantes.

La raison de l’interprétation d’une nouvelle ligne finale en tant que nouvelle ligne est que les données d’importation ne peuvent pas déterminer la différence entre une ligne vide réelle et une ligne vide créée par l’utilisateur en appuyant sur entrée à la fin d’un fichier.

Étant donné que certains algorithmes de Machine Learning prennent en charge des données manquantes et traitent donc cette ligne comme un cas (qui, à son tour, peut affecter les résultats), vous devez utiliser nettoyer les données manquantes pour rechercher les valeurs manquantes (en particulier celles qui sont complètement vides) et les supprimer si nécessaire.

Avant de vérifier les lignes vides, vous pouvez également diviser le DataSet à l’aide de données fractionnées. Ceci sépare les lignes avec des valeurs manquantes partielles, qui représentent les valeurs manquantes réelles dans les données sources. Utilisez l'option Sélectionner les N lignes de tête pour lire la première partie du jeu de données dans un conteneur distinct à partir de la dernière ligne.

Pourquoi certains caractères de mon fichier source ne s’affichent pas correctement

Machine Learning prend en charge l’encodage UTF-8. Si votre fichier source utilisait un autre type d'encodage, les caractères peuvent ne pas être importés correctement.

Paramètres du module

Nom	Plage	Type	Default	Description
Source de données	Liste	Source ou récepteur de données	Stockage Blob Azure	la source de données peut être http, FTP, https ou FTPS anonyme, un fichier dans le stockage d’objets BLOB azure, une table azure, une Azure SQL Database, une base de données SQL Server locale, une table Hive ou un point de terminaison OData.
URL	n'importe laquelle	String	aucun	URL pour HTTP
Format de données	CSV TSV ARFF SvmLight	Format de données	CSV	Type de fichier de la source HTTP
Le CSV ou TSV comporte une ligne d'en-tête	TRUE/FALSE	Booléen	false	Indique si le fichier CSV ou TSV contient une ligne d’en-tête
Utiliser les résultats mis en cache	TRUE/FALSE	Booléen	FAUX	Le module s’exécute uniquement si le cache valide n’existe pas. Dans le cas contraire, les données mises en cache à partir de l’exécution précédente sont utilisées.

Sorties

Nom	Type	Description
Jeu de données de résultats	Table de données	Jeu de données avec des données téléchargées

Exceptions

Exception	Description
Erreur 0027	Une exception se produit quand deux objets qui doivent avoir la même taille ne l'ont pas.
Erreur 0003	Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0029	Une exception se produit lorsqu'un URI non valide est passé.
Erreur 0030	Une exception se produit lorsqu'il n'est pas possible de télécharger un fichier.
Erreur 0002	Une exception se produit si un ou plusieurs paramètres n'ont pas pu être analysés ou convertis à partir du type spécifié dans le type requis par la méthode cible.
Erreur 0048	Une exception se produit quand il n'est pas possible d'ouvrir un fichier.
Erreur 0046	Une exception se produit quand il n'est pas possible de créer un répertoire sur le chemin d'accès spécifié.
Erreur 0049	Une exception se produit quand il n'est pas possible d'analyser un fichier.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Importer des données
Exporter les données
Importer à partir d’une requête Hive
Importer à partir d’Azure SQL Database
Importer à partir de Table Azure
Importer à partir du Stockage Blob Azure
Importer à partir de fournisseurs de flux de données
Importer à partir d’une base de données SQL Server locale

Partager via