Importer à partir de fournisseurs de flux de données

Article
05/06/2019

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
En savoir plus sur Azure Machine Learning.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article explique comment utiliser le module importer des données dans Machine Learning Studio (classic) pour importer des données fournies au format OData dans une expérience Machine Learning.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

La création d’un point de terminaison OData pour un jeu de données est un moyen de rendre un modèle de données disponible à la consommation via une URL. Vous pouvez également spécifier les opérations OData prises en charge par le point de terminaison. Pour plus d’informations sur la création Odata de points de terminaison, consultez OData v4 (ASP.net).

Comment importer des données à partir d’un flux

Nous vous recommandons vivement de profiler vos données avant l’importation, pour vous assurer que le schéma est comme prévu. Le processus d’importation analyse un certain nombre de lignes principales pour déterminer le schéma, mais les lignes ultérieures peuvent contenir des colonnes supplémentaires, ou des données qui provoquent des erreurs.

Utiliser l’Assistant Importation de données

Le module propose un nouvel Assistant pour vous aider à choisir une option de stockage. Utilisez l’Assistant pour effectuer une sélection parmi les abonnements et les comptes existants et configurer rapidement toutes les options.

Ajoutez le module Importer des données à votre expérience. Vous pouvez trouver le module dans Studio (Classic), dans la catégorie entrée et sortie des données .
Cliquez sur lancer l’Assistant importation de données et suivez les invites.
Une fois la configuration terminée, pour copier les données dans votre expérience, cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.

Si vous avez besoin de modifier une connexion de données existante, l’Assistant charge tous les détails de configuration précédents afin que vous n’ayez pas à redémarrer à partir de zéro.

Définir manuellement les propriétés du module Importer des données

Vous pouvez également configurer manuellement la source d’importation.

Ajoutez le module Importer des données à votre expérience. Vous pouvez trouver ce module dans Studio (Classic), dans la catégorie entrée et sortie des données .
Pour source de données, sélectionnez fournisseur de flux de données.
Pour type de contenu de données, sélectionnez le type de flux. Actuellement, seuls les points de terminaison OData sont pris en charge.
Pour URL source, collez l’URL d’un site qui fournit des données au format requis.

Par exemple, l’instruction suivante obtient la liste des produits de l’exemple de base de données Northwind :

https://services.odata.org/northwind/northwind.svc/Products

Pour plus d’informations, consultez syntaxe OData.
Sélectionnez l’option utiliser les résultats mis en cache si vous n’avez pas besoin de recharger les données après la première exécution. Il s’agit d’une bonne option si les données ne sont pas censées changer entre les exécutions de l’expérience.

Si aucune autre modification n’est apportée aux paramètres de module, l’expérience charge les données lors de la première exécution du module et utilise ensuite une version mise en cache du DataSet.

Si vous devez actualiser régulièrement les données, désélectionnez cette option.
Exécutez l’expérience.

Résultats

À l’issue de l’opération, cliquez sur le jeu de données de sortie et sélectionnez Visualiser pour voir si les données ont bien été importées.

Lorsque importer des données charge les données de flux dans Studio (Classic), il déduit le type de données de chaque colonne en fonction des valeurs qu’elle contient, qu’elles soient numériques ou catégoriques.

Si un en-tête est présent, il est utilisé pour nommer les colonnes du jeu de données de sortie.
S’il n’existe aucun en-tête de colonne dans les données, les nouveaux noms de colonne sont générés à l’aide du format col1, col2,… ,coln .

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Syntaxe OData

La requête doit retourner une table plate. L’aplatissement des enregistrements OData imbriqués n’est pas pris en charge.

Certaines colonnes incluses dans les flux OData peuvent avoir des types de données qui ne sont pas pris en charge dans Studio (Classic), tels que des décimales. Vous pouvez ingérer les données sous forme de chaînes et les convertir ultérieurement à l’aide du module exécuter le script R ou de l' éditeur de métadonnées .

Pour plus d’informations sur la syntaxe et les URL OData, consultez conventions OData.org-URI

Questions courantes

Puis-je filtrer les données à mesure qu’elles sont lues à partir de la source ?

Le module importer des données ne prend généralement pas en charge le filtrage au fur et à mesure de la lecture des données. Toutefois, vous pouvez spécifier une condition de filtre dans le cadre de l’URL de ressource de flux.

Pour filtrer les données du flux, utilisez les instructions prises en charge par le protocole OData. Par exemple, cette URL utilise l' $filter expression pour obtenir uniquement les commandes relatives à l’employé dont l’ID est égal à 1.

https://services.odata.org/Northwind/Northwind.svc/Orders?$filter=Employee/EmployeeID eq 1

Pour obtenir plus d’exemples de syntaxe de filtre, consultez utilisation d’expressions de filtre dans les URI OData.

vous pouvez également récupérer toutes les données et les filtrer après les avoir chargées dans Machine Learning Studio (classic) :

Utilisez un script R personnalisé pour obtenir uniquement les données souhaitées.
Utilisez le module fractionner les données avec une expression relative ou une expression régulière pour isoler les données souhaitées, puis enregistrez-les en tant que DataSet.

Notes

Si vous constatez que vous avez chargé plus de données que nécessaire, vous pouvez remplacer le jeu de données mis en cache en lisant un nouveau jeu de données et en l'enregistrant avec le même nom que les données antérieures, plus volumineuses.

J’obtiens l’erreur, les informations d’identification sont requises pour la connexion à la source OData. Veuillez actualiser et fournir les informations d’identification pour continuer. Comment puis-je fournir des informations d’identification ? * *

Le module importer des données ne prend en charge que les points de terminaison OData avec accès anonyme. Si le service OData nécessite des informations d’identification, vous ne pouvez pas utiliser l’option OData pour récupérer les données.

Toutefois, si le service se trouve dans le même domaine, l’authentification peut parfois se produire automatiquement sans intervention de l’utilisateur.

en guise de solution de contournement, vous pouvez utiliser PowerQuery ou PowerPivot pour lire les données de flux, puis récupérer les données à partir de Excel.

Comment puis-je éviter de recharger inutilement les mêmes données ?

Si vos données sources changent, vous pouvez actualiser le jeu de données et ajouter de nouvelles données en réexécutant les données d’importation. Toutefois, si vous ne souhaitez pas relire la source chaque fois que vous exécutez l’expérience, définissez l’option Use cached results (Utiliser les résultats mis en cache) sur TRUE. Lorsque cette option a la valeur TRUE, le module vérifie si l’expérience a été exécutée précédemment à l’aide de la même source et les mêmes options d’entrée, et si une exécution précédente est trouvée, les données du cache sont utilisées, au lieu de recharger les données à partir de la source.

Pourquoi est-ce que j’obtiens un message d’erreur « le type Decimal n’est pas pris en charge » ?

Le decimal type de données n’est pas pris en charge dans machine learning. Cela est dû au fait que les données d’importation ne peuvent pas effectuer automatiquement des conversions qui aboutissent à une perte de précision.

Pour plus d’informations sur les types de données pris en charge, consultez types de données de module.

En guise de solution de contournement, vous pouvez lire les données en tant que type de données String, puis utiliser modifier les métadonnées pour convertir les décimales en données prises en charge avant de lire les données.

Pourquoi certains caractères du flux ne s’affichent-ils pas correctement ?

Machine Learning prend en charge l’encodage UTF-8. Si votre source utilise un autre type d’encodage, les caractères peuvent ne pas être importés correctement.

Pour contourner ce problème, vous pouvez enregistrer les données dans un fichier CSV dans stockage table Azure ou stockage BLOB Azure. Ensuite, utilisez l’option CSV avec encodage pour spécifier des paramètres pour les délimiteurs personnalisés, la page de codes, etc.

Paramètres du module

Nom	Plage	Type	Default	Description
Source de données	Liste	Source ou récepteur de données	Stockage Blob Azure	la source de données peut être http, FTP, https ou FTPS anonyme, un fichier dans le stockage d’objets BLOB azure, une table azure, une Azure SQL Database, une base de données SQL Server locale, une table Hive ou un point de terminaison OData.
Type de contenu de données	Liste (sous-ensemble)	Contenu de l’URL	OData	Type de format de données
URL de la source	n'importe laquelle	String		URL de Power Query source de données
Utiliser les résultats mis en cache	TRUE/FALSE	Booléen	false	description

Sorties

Nom	Type	Description
Jeu de données de résultats	Table de données	Jeu de données avec des données téléchargées

Exceptions

Exception	Description
Erreur 0003	Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0029	Une exception se produit lorsqu'un URI non valide est passé.
Erreur 0030	Une exception se produit lorsqu'il n'est pas possible de télécharger un fichier.
Erreur 0002	Une exception se produit si un ou plusieurs paramètres n'ont pas pu être analysés ou convertis à partir du type spécifié dans le type requis par la méthode cible.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Importer des données
Exporter les données
Importer à partir d’une URL web via HTTP
Importer à partir d’une requête Hive
Importer à partir d’Azure SQL Database
Importer à partir de Table Azure
Importer à partir du Stockage Blob Azure
Importer à partir d’une base de données SQL Server locale