Importer à partir d’une table Azure

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article explique comment utiliser le module importer des données dans Machine Learning Studio (classic) pour importer des données structurées ou semi-structurées à partir de tables Azure dans une expérience Machine Learning.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Le service de table Azure est un service de gestion des données dans Azure qui permet de stocker de grandes quantités de données non relationnelles structurées. Il s’agit d’un magasin de données NoSQL qui accepte les appels authentifiés provenant de l’intérieur et de l’extérieur d’Azure.

L’importation à partir du stockage de tables Azure nécessite que vous choisissiez l’un des deux types de comptes suivants : un compte de stockage accessible à l’aide d’une URL SAS ou un compte de stockage privé qui nécessite des informations d’identification de connexion.

Comment importer des données à partir de tables Azure

Utiliser l’Assistant Importation de données

Le module propose un nouvel Assistant pour vous aider à choisir une option de stockage, sélectionner parmi les abonnements et les comptes existants et configurer rapidement toutes les options.

  1. Ajoutez le module Importer des données à votre expérience. Vous pouvez trouver le module sous entrée et sortie de données.

  2. Cliquez sur lancer l’Assistant importation de données et suivez les invites.

  3. Une fois la configuration terminée, pour copier les données dans votre expérience, cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.

Si vous avez besoin de modifier une connexion de données existante, l’Assistant charge tous les détails de configuration précédents afin que vous n’ayez pas à redémarrer à partir de zéro

Définir manuellement les propriétés du module Importer des données

Les étapes suivantes décrivent la configuration manuelle de la source d’importation.

  1. Ajoutez le module Importer des données à votre expérience. vous pouvez trouver ce module dans le groupe entrée et sortie de données de la liste des éléments d’expérimentation dans Machine Learning Studio (classic).

  2. Pour source de données, sélectionnez table Azure.

  3. Pour Type d’authentification, choisissez Public (URL SAS) si vous savez que les informations ont été fournies en tant que source de données publique. Une URL SAS est une URL d’accès lié au temps que vous pouvez générer à l’aide d’un utilitaire de stockage Azure.

    Sinon, choisissez un Compte.

  4. Si vos données sont dans un objet Blob public qui est accessible à l’aide d’une URL SAS, vous n’avez pas besoin des informations d’identification supplémentaires, car la chaîne d’URL contient toutes les informations requises pour le téléchargement et l’authentification.

    Dans le champ URI de la table SAS , tapez ou collez l’URI complet qui définit le compte et l’objet BLOB public.

    Notes

    Dans une page accessible via une URL SAS, les données peuvent être stockées à l’aide des formats suivants : CSV, TSV et ARFF.

  5. Si vos données sont dans un privé compte, vous devez fournir les informations d’identification, y compris le nom du compte et la clé.

    • Pour nom du comptede la table, tapez ou collez le nom du compte qui contient l’objet BLOB auquel vous souhaitez accéder.

      Par exemple, si l’URL complète du compte de stockage est https://myshared.table.core.windows.net, vous devez saisir myshared.

    • Pour clé de compte de table, collez la clé d’accès associée au compte de stockage. \

      si vous ne connaissez pas la clé d’accès, consultez la section « affichage, copie et régénération des clés d’accès de stockage » dans cet article : à propos des comptes de stockage Azure.

    • Pour nomde la table, tapez le nom de la table spécifique que vous souhaitez lire.

  6. Choisissez une option qui indique le nombre de lignes que les données d’importation doivent analyser. L' importation de données utilise l’analyse pour obtenir la liste des colonnes dans les données et pour déterminer les types de données de la colonne.

    • TopN: analyse uniquement le nombre spécifié de lignes, en commençant par le haut du DataSet.

      Par défaut, 10 lignes sont analysées, mais vous pouvez augmenter ou diminuer cette valeur à l’aide de l’option Rows Count for TopN .

      Si les données sont homogènes et prévisibles, sélectionnez TopN et entrez un nombre pour N. Pour les tables volumineuses, cela peut entraîner des temps de lecture plus rapides.

    • ScanAll: analyser toutes les lignes de la table.

      Si les données sont structurées avec des ensembles de propriétés qui varient en fonction de la profondeur et la position de la table, choisissez l’option ScanAll pour analyser toutes les lignes. Cela garantit l’intégrité de la propriété obtenue et de la conversion des métadonnées.

  7. Indiquez si vous souhaitez que les données soient actualisées chaque fois que l’expérimentation est exécutée. Si vous sélectionnez l’option utiliser les résultats mis en cache (valeur par défaut), le module Importer les données lit les données de la source spécifiée lors de la première exécution de l’expérience, puis met en cache les résultats. En cas de modification des paramètres du module importer des données , les données sont rechargées.

    Si vous désélectionnez cette option, les données sont lues à partir de la source chaque fois que l’expérimentation est exécutée, que les données soient identiques ou non.

Exemples

Pour obtenir des exemples d’utilisation du module exporter des données , consultez la Azure ai Gallery.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Questions courantes

Comment puis-je éviter de recharger inutilement les mêmes données ?

Si vos données sources changent, vous pouvez actualiser le jeu de données et ajouter de nouvelles données en réexécutant les données d’importation. Toutefois, si vous ne souhaitez pas relire la source chaque fois que vous exécutez l’expérience, définissez l’option Use cached results (Utiliser les résultats mis en cache) sur TRUE. Lorsque cette option a la valeur TRUE, le module vérifie si l’expérience a été exécutée précédemment à l’aide de la même source et les mêmes options d’entrée, et si une exécution précédente est trouvée, les données du cache sont utilisées, au lieu de recharger les données à partir de la source.

Puis-je filtrer les données à mesure qu’elles sont lues à partir de la source ?

Le module importer des données ne prend pas en charge le filtrage au fur et à mesure de la lecture des données. L’exception est lue à partir de flux de données, ce qui vous permet parfois de spécifier une condition de filtre dans le cadre de l’URL du flux.

toutefois, vous pouvez modifier ou filtrer les données après les avoir lues dans Machine Learning Studio (classic) :

  • Utilisez un script R personnalisé pour modifier ou filtrer les données.
  • Utilisez le module fractionner les données avec une expression relative ou une expression régulière pour isoler les données souhaitées, puis enregistrez-les en tant que DataSet.

Notes

Si vous constatez que vous avez chargé plus de données que nécessaire, vous pouvez remplacer le jeu de données mis en cache en lisant un nouveau jeu de données et en l'enregistrant avec le même nom que les données antérieures, plus volumineuses.

Comment les données d’importation gèrent-elles les données chargées à partir de différentes régions géographiques ?

Si le compte de stockage d’objets BLOB ou de tables se trouve dans une région différente du nœud de calcul utilisé pour l’expérience Machine Learning, l’accès aux données peut être plus lent. En outre, vous êtes facturé pour l’entrée et la sortie des données de l’abonnement.

Pourquoi certains caractères de la table ne s’affichent-ils pas correctement ?

Machine Learning prend en charge l’encodage UTF-8. Si votre table utilise un autre encodage, les caractères peuvent ne pas être importés correctement.

Y a-t-il des caractères interdits ou des caractères qui sont modifiés lors de l’importation ?

Si les données d'attribut contiennent des guillemets ou des séquences de caractères d'échappement, ceux-ci sont gérés à l'aide des règles associées à ces caractères dans Microsoft Excel. Tous les autres caractères sont traités à l’aide des spécifications suivantes comme indications : RFC 4180.

Paramètres du module

Nom Plage Type Par défaut Par défaut
Source de données Liste Source ou récepteur de données Stockage Blob Azure la source de données peut être http, FTP, https ou FTPS anonyme, un fichier dans le stockage d’objets BLOB azure, une table azure, une Azure SQL Database, une base de données SQL Server locale, une table Hive ou un point de terminaison OData.
Type d'authentification PublicOrSas

Compte
tableAuthType Compte Spécifiez si les données se trouvent dans un conteneur public accessible via une URL SAS ou dans un compte de stockage privé qui requiert une authentification pour l’accès.

Options de stockage public ou SAS-public

Nom Plage Type Default Description
URI de Table n'importe laquelle String
Lignes à analyser pour les noms de propriété via SAS entier
Nombre de lignes pour TopN via SAS

Options de stockage privée du compte

Nom Plage Type Default Description
Nom du compte de la table
Clé du compte de la table n'importe laquelle SecureString
Nom de la table n'importe laquelle
Lignes à analyser pour les noms de propriété TopN

ScanAll
Nombre de lignes pour TopN n'importe laquelle entier

Sorties

Nom Type Description
Jeu de données de résultats Table de données Jeu de données avec des données téléchargées

Exceptions

Exception Description
Erreur 0027 Une exception se produit quand deux objets qui doivent avoir la même taille ne l'ont pas.
Erreur 0003 Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0029 Une exception se produit lorsqu'un URI non valide est passé.
Erreur 0030 Une exception se produit lorsqu'il n'est pas possible de télécharger un fichier.
Erreur 0002 Une exception se produit si un ou plusieurs paramètres n'ont pas pu être analysés ou convertis à partir du type spécifié dans le type requis par la méthode cible.
Erreur 0009 Une exception se produit si le nom du compte de stockage Azure ou le nom du conteneur est spécifié de manière incorrecte.
Erreur 0048 Une exception se produit quand il n'est pas possible d'ouvrir un fichier.
Erreur 0046 Une exception se produit quand il n'est pas possible de créer un répertoire sur le chemin d'accès spécifié.
Erreur 0049 Une exception se produit quand il n'est pas possible d'analyser un fichier.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Importer des données
Exporter les données
Importer à partir d’une URL web via HTTP
Importer à partir d’une requête Hive
Importer à partir d’Azure SQL Database
Importer à partir du Stockage Blob Azure
Importer à partir de fournisseurs de flux de données
Importer à partir d’une base de données SQL Server locale