Décompresser des jeux de données compressés

Article
05/06/2019

Décompresse les jeux de données d’un package zip dans le stockage utilisateur

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module décompresser les jeux de données zippés dans Machine Learning Studio (classic) pour télécharger des fichiers de script et de données au format compressé, puis les décompresser pour les utiliser dans une expérience.

L’objectif de ce module est de réduire les temps de transfert de données lors de l’utilisation de jeux de données très volumineux en enregistrant et en chargeant vos fichiers de données dans un format compressé. En règle générale, la compression de fichiers est une bonne option lorsque votre jeu de données est si volumineux que vous souhaitez utiliser la compression pour le téléchargement, afin de réduire le temps de téléchargement et les coûts associés.

Le module prend comme entrée un jeu de données dans votre espace de travail. Le jeu de données doit avoir été téléchargé dans un format compressé. Le module décompresse ensuite le jeu de données et ajoute les données à votre espace de travail.

Comment utiliser décompresser des datasets compressés

cette section décrit comment préparer vos données, puis les décompresser dans Machine Learning Studio (classic).

Étape 1. Préparer les fichiers

Avant de charger votre fichier, assurez-vous que les données du fichier peuvent être utilisées dans Machine Learning :

Assurez-vous que les données du fichier utilisent l’encodage UTF-8.

si le fichier est suffisamment petit, vous pouvez l’ouvrir dans Bloc-notes puis enregistrer le fichier dans l’encodage souhaité. De nombreux autres éditeurs de texte offrent des fonctionnalités similaires. pour les fichiers CSV, vous pouvez utiliser les commandes enregistrer sous ou exporter de Excel pour spécifier un format et un encodage de fichier.
Vérifiez que les fichiers de données utilisent un formatpris en charge, tel que CSV, TSV, ARFF ou SVMLight.
Compressez les données en ajoutant le fichier de données à un .ZIP ou. Fichier d’archive au format GZ. Les autres types d’archive ne sont pas pris en charge.
Supprimer la protection par mot de passe. Si l’un des fichiers ou le dossier compressé lui-même a été chiffré ou protégé par mot de passe, vous devez déverrouiller ou déchiffrer le fichier avant de le télécharger. Le module ne peut pas détecter les types de données chiffrées et ne prend pas en charge les boîtes de dialogue de saisie de mot de passe provenant de clients arbitraires.

Étape 2. Télécharger le jeu de données à votre espace de travail

Ensuite, chargez le jeu de données zippé dans votre espace de travail expérimentation.

Cliquez sur nouveau, sélectionnez DataSet, puis sélectionnez à partir d’un fichier local.
Localisez le fichier compressé à charger. Lorsque vous sélectionnez le fichier, le type doit être automatiquement défini sur fichier zip (.zip).

Étape 3. Ajouter un jeu de données zippé à l’expérimentation

Une fois que le jeu de données a été téléchargé complètement, ajoutez-le à votre expérience au format compressé.

dans le volet de navigation de gauche de Machine Learning Studio (classique), sélectionnez datasets enregistrés, puis développez mes jeux de données.
Recherchez le jeu de données zippé que vous venez de charger, puis faites-le glisser vers le canevas de l’expérience.

Étape 4. Décompresser le DataSet

La dernière étape consiste à décompresser le jeu de données.

Connecter le jeu de données zippé à l’entrée du module décompresser les jeux de données zippés .
Dans DataSet à décompresser, tapez le nom d’un jeu de données unique à décompresser.
- si vous avez enregistré une feuille de calcul avec le nom feuille1 en tant que Excel fichier CSV nommé Test.csv, le nom du jeu de données est Test.csv, et non feuil1.
- Le nom que vous tapez dans la zone de texte DataSet à décompresser doit être exactement le même que le nom du fichier d’origine avant sa compression, y compris l’extension de nom de fichier. Par exemple, si vous souhaitez décompresser un DataSet en fonction du fichier texte Users.txt, tapez Users.txt, et non des utilisateurs.
- Si vous placez plusieurs fichiers dans un dossier compressé, vous devez décompresser un jeu de données à la fois.
Conseil

Si vous laissez la propriété vide, le module récupère le nom du fichier à partir du fichier compressé, en supposant que le fichier d’archive compressé ne contient qu’un seul fichier source. Si l’archive compressée contient plusieurs fichiers, une erreur d’exécution est générée.
Pour format de fichier de jeu de données, spécifiez le format d’origine du DataSet : autrement dit, le format avant sa compression.

Vous pouvez charger et décompresser des jeux de données créés à l’aide de l’un de ces formats : CSV, ARFF, TSV, SvmLight.

Si cette propriété est laissée vide, le module identifie le DataSet à l’aide du nom du fichier source.
Sélectionnez l’option, le fichier comporte une ligne d’en-tête, si le jeu de données d’origine contenait une ligne d’en-tête. Dans le cas contraire, la première ligne de données est utilisée comme en-tête. Si ce n’est pas ce que vous souhaitez, ajoutez un en-tête avant l’entrée.

Cette option s’applique uniquement aux .CSV et. Fichiers TSV.

Notes

Si vous modifiez le format du fichier, cette option est réinitialisée.
Si le fichier est compressé, utilisez l’option de format de fichier de compression pour spécifier l’algorithme utilisé pour compresser ou développer le fichier.

Actuellement, les formats .ZIP et GZ (ou gzip) sont pris en charge.
Exécutez l’expérience.

Résultats

Pour vérifier que les données ont été correctement importées, cliquez avec le bouton droit sur le module groupes de données Zippés décompressés , puis sélectionnez visualiser .
Pour modifier le nom du jeu de données, cliquez avec le bouton droit sur le module groupes de données Zippés décompressés , puis sélectionnez enregistrer en tant que jeu de données. À ce stade, vous pouvez taper un nom différent.

Cette option est pratique si vous décompressez plusieurs jeux de données à partir d’un seul fichier ZIP.

Exemples

Pour illustrer le fonctionnement de ce module, nous avons créé un exemple de fichier .ZIP contenant quatre fichiers CSV différents. Tous les fichiers ont été enregistrés à partir de Excel.

Nom de fichier	Description
names-uni.csv	Fichier Unicode avec en-têtes de colonnes
names-utf.csv	Fichier UTF-8 avec en-têtes de colonnes
nonames-uni.csv	Fichier Unicode sans en-tête de colonne
nonames-utf8.csv	Fichier UTF-8 sans en-tête de colonne

L’intégralité du fichier compressé a été téléchargée, puis le module décompresser les jeux de données Zippés a été exécuté quatre fois pour extraire chacun des quatre fichiers, à l’aide des paramètres suivants :

DataSet à décompresser = names-uni.csv, le fichier comporte une ligne d’en-tête = true
DataSet à décompresser = names-utf8.csv, le fichier comporte une ligne d’en-tête = true
DataSet à décompresser = nonames-uni.csv, le fichier contient une ligne d’en-tête = false
DataSet à décompresser = nonames-utf8.csv, le fichier contient une ligne d’en-tête = false

Les résultats étaient les mêmes que prévu :

Nom de fichier	résultat Télécharger
names-uni.csv	Erreur 0049 : erreur lors de l’analyse du fichier. Le fichier n’est pas encodé au format Unicode (UTF-8)
names-utf8.csv	Opération réussie. Utilise les noms de colonnes d’origine du fichier source.
nonames-uni.csv	Erreur 0049 : erreur lors de l’analyse du fichier. Le fichier n’est pas encodé au format Unicode (UTF-8)
nonames-utf8.csv	Opération réussie. Noms de colonne col1, col2,... Coln est ajouté automatiquement au jeu de données.

Notes

Si vous utilisez l’option, le fichier comporte une ligne d’en-tête = true et le fichier source n’a en fait pas d’en-tête de colonne, la première ligne de données est utilisée comme en-tête de colonne.

Notes techniques

Vous ne pouvez pas utiliser ce module pour décompresser des packages R Zippés dans votre espace de travail. Les packages R doivent être téléchargés et utilisés comme fichiers compressés.

Pour plus d’informations sur l’utilisation des packages R compressés, consultez exécuter un script r.

Notes

Vous ne vous inquiétez pas de la différence entre UTF-8 et Unicode ? Consultez cet article de Wikipédia : qu’est-ce qu’UTF-8

Paramètres du module

Nom	Plage	Type	Default	Description
Format de fichier de compression	Zip Gzip	règle de compression	Zip	Algorithme de compression utilisé pour compresser ou développer le fichier.
Jeu de données à décompresser	Quelconque	String	aucun	nom du jeu de données à inscrire auprès d’Azure ML Studio (classic). Si le nom d’un jeu de données n’est pas spécifié, le nom est obtenu à partir du nom de fichier dans le fichier zippé.
Format de fichier du jeu de données	CSV TSV ARFF SVMLIGHT	Format de fichier	CSV	Format de fichier du jeu de données dans le fichier zippé
Le fichier comporte une ligne d'en-tête	TRUE/FALSE	Boolean	False	Affectez la valeur true uniquement si le fichier CSV/TSV contient une ligne d’en-tête

Entrées attendues

Nom	Type	Description
Dataset	Zip	Fichier zippé contenant les jeux de données

Output

Nom	Type	Description
Jeu de données de résultats	Table de données	Jeu de données de sortie

Voir aussi

Entrée et sortie de données

Partager via

Décompresser des jeux de données compressés

Vue d’ensemble du module

Comment utiliser décompresser des datasets compressés

Étape 1. Préparer les fichiers

Étape 2. Télécharger le jeu de données à votre espace de travail

Étape 3. Ajouter un jeu de données zippé à l’expérimentation

Étape 4. Décompresser le DataSet

Résultats

Exemples

Notes techniques

Paramètres du module

Entrées attendues

Output

Voir aussi

Ressources supplémentaires