Conversion de formats de données
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
cet article répertorie les modules fournis dans Machine Learning Studio (classic) pour la conversion de données entre différents formats de fichiers utilisés dans Machine Learning.
Les formats pris en charge sont les suivants :
- Format du jeu de données utilisé dans machine learning.
- Format ARFF utilisé par weka. Weka est un ensemble d’algorithmes de Machine Learning basés sur Java open source.
- Format SVMLight . Le format SVMLight a été développé pour l’infrastructure SVMLight pour machine learning. Il peut également être utilisé par vowpal Wabbit.
- Formats de fichiers plats séparés par des tabulations (TSV) et séparés par des virgules (CSV) qui sont pris en charge par la plupart des bases de données relationnelles. Ces formats sont également largement pris en charge par R et Python.
Lorsque vous convertissez des données dans ces formats, vous pouvez déplacer plus facilement les résultats et les données entre différents frameworks de Machine Learning ou mécanismes de stockage.
Notes
Ces modules de conversion de données convertient uniquement le DataSet complet dans un format spécifié. Si vous devez effectuer des conversions, des troncations, des conversions de formats de date et d’heure ou d’autres manipulations de valeurs, utilisez les modules dans la transformation de donnéesou consultez la liste des tâches associées.
Scénarios courants de conversion de données
en général, vous utilisez les modules de conversion de données si vous devez déplacer des données d’une expérience Machine Learning vers une autre Machine Learning outil ou plateforme. vous pouvez également utiliser les modules pour exporter des données à partir de Machine Learning dans un format qui peut être utilisé par une base de données ou d’autres outils. Par exemple :
Tâche | Propriété |
---|---|
vous devez enregistrer un jeu de données intermédiaire à utiliser dans Excel ou pour l’importer dans une base de données. | Utilisez le module CSV ou le module TSV pour préparer les données au format approprié. ensuite, téléchargez les données ou enregistrez-les dans stockage Azure. |
Vous souhaitez réutiliser les données de votre expérience dans du code R ou python. | Utilisez le module CSV ou le module TSV pour préparer les données. Ensuite, cliquez avec le bouton droit sur le DataSet converti pour récupérer le code Python dont vous avez besoin pour accéder au jeu de données. |
Vous portez votre expérience et vos données entre weka et Machine Learning. | Utilisez le module ARFF pour préparer les données. Ensuite, téléchargez les résultats. |
Vous devez préparer les données dans l’infrastructure SVMlight. | Utilisez le module Convert to SVMLight pour préparer les données. Ensuite, téléchargez les données résultantes. |
Créer des données à utiliser avec vowpal Wabbit. | Utilisez le format SVMLight . Modifiez ensuite les fichiers comme décrit dans l’article. Enregistrez le fichier dans le stockage d’objets BLOB Azure à utiliser avec un module vowpal Wabbit dans Machine Learning. |
Les données ne sont pas dans un format tabulaire. | Forcez-le à un format de jeu de données à l’aide du module convertir en jeu de données . |
Tâches associées
si vous devez importer des données dans Machine Learning ou transformer des données dans des colonnes individuelles, utilisez ces modules avant d’effectuer la conversion de données :
Tâche | Propriété |
---|---|
Importez des données à partir de mon ordinateur dans Machine Learning. | Télécharger les jeux de données au format CSV, comme décrit dans importer vos données d’apprentissage dans Machine Learning Studio (classic). |
Importez des données à partir d’une source de données Cloud, notamment Hadoop ou Azure. | Utilisez le module importer des données . |
Enregistrez Machine Learning jeux de données dans le stockage d’objets BLOB Azure, un cluster Hadoop ou tout autre stockage basé sur le Cloud. | Utilisez le module Exporter les données . |
Modifiez le type de données des colonnes ou effectuez un cast des colonnes en un autre format ou type. | dans Machine Learning, utilisez les modules modifier les métadonnées ou appliquer SQL Transformation . Si vous maîtrisez R ou python, essayez d' exécuter le script Python ou d’exécuter des modules de script r . |
Arrondir, regrouper ou normaliser des données numériques. | Utilisez les modules appliquer l’opération mathématique, Grouper les données dans les emplacementsou normaliser les données . |
Liste des modules
La catégorie conversions de format de données comprend les modules suivants :
- Convertit en ARFF: convertit les données d’entrée au format de fichier de relation d’attribut utilisé par l’ensemble d’outils weka.
- Convertir en CSV: convertit un DataSet au format de valeurs séparées par des virgules.
- Convertir en jeu dedonnées : convertit les entrées de données au format de jeu de données interne utilisé par machine learning.
- Convertir en SVMLight: convertit les données d’entrée dans le format utilisé par l’infrastructure SVMLight.
- Convertir en TSV: convertit les données d’entrée au format délimité par des tabulations.