Convertir au format CSV

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Convertit les données d'entrée au format de fichier de valeurs séparées par des virgules (CSV).

Catégorie : Conversions de format de données

Notes

S’applique à : Machine Learning Studio (classique) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

Cet article explique comment utiliser le module Convertir en CSV dans Machine Learning Studio (classique), pour convertir un jeu de données à partir d’Azure ML dans un format CSV qui peut être téléchargé, exporté ou partagé avec des modules de script R ou Python.

Plus d’informations sur le format CSV

Le format CSV, qui signifie « valeurs séparées par des virgules », est un format de fichier utilisé par de nombreux outils de Machine Learning externes. Bien que le format de jeu de données natif utilisé par Machine Learning soit basé sur la table de données .NET et peut donc être lu par les bibliothèques .NET, CSV est un format d’échange courant lors de l’utilisation de langages open source tels que R ou Python.

Même si vous effectuez la plupart de votre travail dans Machine Learning Studio (classique), il existe des moments où vous pouvez le trouver pratique pour convertir votre jeu de données en CSV à utiliser dans des outils externes. Par exemple :

  • Téléchargez le fichier CSV pour l’ouvrir avec Excel, ou importez-le dans une base de données relationnelle.
  • Enregistrez le fichier CSV dans le stockage cloud et connectez-vous à celui-ci depuis Power BI pour créer des visualisations.
  • Utilisez le format CSV pour préparer des données pour une utilisation dans R et Python. Cliquez simplement avec le bouton droit sur la sortie du module pour générer le code nécessaire pour accéder aux données directement depuis Python ou un notebook Jupyter.

Lorsque vous convertissez un jeu de données au format CSV, le fichier est enregistré dans votre espace de travail Azure ML. Vous pouvez utiliser un utilitaire de stockage Azure pour ouvrir et utiliser le fichier directement, ou vous pouvez cliquer avec le bouton droit sur la sortie du module et télécharger le fichier CSV sur votre ordinateur ou l’utiliser dans le code R ou Python.

Comment configurer Convertir au format CSV

  1. Ajoutez le module Convertir au format CSV à votre expérience. Vous trouverez ce module dans le groupe Conversions de format de données dans Studio (classique).

  2. Connectez-le à n’importe quel module qui génère un jeu de données.

  3. Exécutez l’expérience, ou cliquez sur le module Convertir en CSV , puis cliquez sur Exécuter sélectionné.

Résultats

Double-cliquez sur la sortie de Convertir au format CSV, puis sélectionnez une de ces options.

  • Télécharger : ouvre immédiatement une copie des données au format CSV que vous pouvez enregistrer dans un dossier local. Si vous ne spécifiez pas de dossier, un nom de fichier par défaut est appliqué et le fichier CSV est enregistré dans la bibliothèque Téléchargements locale.

    Si vous sélectionnez Télécharger le jeu de données, vous devez indiquer si vous souhaitez ouvrir le jeu de données ou l’enregistrer dans un fichier local.

    Si vous sélectionnez Ouvrir, le jeu de données est chargé à l’aide de l’application associée par défaut à des fichiers .CSV : par exemple, Microsoft Excel.

    Si vous sélectionnez Télécharger le jeu de données, par défaut, le fichier est enregistré avec le nom du module, ainsi qu’un GUID représentant l’ID de l’espace de travail. Toutefois, vous pouvez sélectionner l’option Enregistrer sous pendant le téléchargement et modifier le nom ou l’emplacement du fichier.

  • Enregistrer en tant que jeu de données : enregistre le fichier CSV dans l’espace de travail Azure ML en tant que jeu de données distinct.

  • Générer du code d’accès aux données : Azure ML génère deux ensembles de code pour accéder aux données, soit à l’aide de Python, soit à l’aide de R. Pour accéder aux données, copiez l’extrait de code dans votre application.

  • Ouvert dans un nouveau bloc-notes : un nouveau bloc-notes Jupyter est créé pour vous et le code inséré pour lire les données de votre espace de travail, à l’aide du langage de votre choix : Python 2, Python 3 ou R avec Microsoft R Open.

    Par exemple, si vous choisissez l’option R, l’exemple de code R est fourni qui charge le fichier CSV dans un cadre de données et affiche les premières lignes à l’aide de la head fonction.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

Exigences du format CSV

Le format de fichier CSV est un format populaire pris en charge par de nombreux frameworks Machine Learning. Le format est appelé « valeurs séparées par des virgules » ou « valeurs séparées par des caractères ».

Un fichier CSV stocke des données tabulaires (nombres et texte) sous forme de texte brut. Un fichier CSV se compose d'un nombre d'enregistrements, séparés par des sauts de ligne. Chaque enregistrement se compose de champs séparés par une virgule littérale. Dans certaines régions, le séparateur peut être un point-virgule.

En règle générale, tous les enregistrements ont un nombre identique de champs et les valeurs manquantes sont représentées sous forme de chaînes null ou vides.

Conseil

Vous pouvez facilement exporter des données à partir de Excel, d’Access ou d’une base de données relationnelle dans des fichiers CSV à utiliser dans Machine Learning. Bien que les noms de fichiers aient généralement l’extension .CSV, Machine Learning ne nécessite pas que cette extension de nom de fichier soit présente si vous souhaitez importer les données en tant que CSV. Vous pouvez importer XLSX, TXT et d’autres fichiers en tant que CSV. Toutefois, les champs du fichier doivent être mis en forme comme décrit dans la section précédente, et le fichier doit utiliser l’encodage UTF-8.

Questions et problèmes courants

Cette section décrit certains problèmes connus, questions courantes et solutions de contournement spécifiques au module Convertir en CSV .

Les en-têtes doivent être des lignes uniques

Le format de fichier CSV utilisé dans Machine Learning prend en charge une seule ligne d’en-tête. Vous ne pouvez pas insérer d’en-têtes à plusieurs lignes.

Séparateurs personnalisés pris en charge lors de l’importation, mais pas à l’exportation

Le module Convert to CSV ne prend pas en charge la génération de séparateurs de colonnes alternatifs, tels que le point-virgule (;), qui est souvent utilisé en Europe.

Toutefois, lorsque vous importez des données à partir de fichiers CSV dans un stockage externe, vous pouvez spécifier d’autres séparateurs. Dans le module Importer des données , sélectionnez le fichier CSV avec l’option encodages, puis choisissez un encodage pris en charge.

Séparation incorrecte des colonnes sur les données de chaîne contenant des virgules

Il s’agit d’un problème courant dans le traitement du texte qui peut être spécifié en tant que séparateur de colonne (onglets, espaces, virgules, etc.) peut également être trouvé de manière aléatoire dans les champs de texte. L’importation de texte à partir de CSV nécessite toujours une prudence pour éviter de séparer le texte entre les nouvelles colonnes inutiles.

Lorsque vous essayez d’exporter une colonne de données de chaîne qui contient des virgules, vous pouvez également rencontrer des problèmes. Machine Learning ne prend pas en charge la gestion spéciale ou la traduction spéciale de ces données, telles que l’insertion de chaînes entre guillemets. En outre, vous ne pouvez pas utiliser de caractères d’échappement avant qu’une virgule s’assure que les virgules sont gérées comme un caractère littéral.

Par conséquent, les nouveaux champs sont créés dans le fichier de sortie pour chaque virgule rencontrée dans le champ de chaîne. Pour éviter ce problème, il existe plusieurs solutions de contournement :

  • Utilisez le module De texte prétraitement pour supprimer les caractères de ponctuation des champs de chaîne.

  • Utilisez un script R personnalisé ou un script Python pour traiter du texte et vous assurer que les données peuvent être exportées correctement.

Encodage UTF-8 requis

Le module Convert to CSV prend uniquement en charge l'encodage de caractères UTF-8. Si vous devez exporter des données à l’aide d’un autre encodage, vous pouvez essayer d’utiliser les modules Execute R Script ou Execute Python Script pour générer une sortie personnalisée.

Le jeu de données n’a pas de noms de colonnes

Si le jeu de données que vous exportez vers un fichier CSV n’a pas de noms de colonnes, nous vous recommandons d’utiliser Modifier les métadonnées pour ajouter des noms de colonnes avant de le convertir. Vous ne pouvez pas ajouter de noms de colonnes dans le cadre du processus de conversion ou d’exportation.

SYLK : Le format de fichier n’est pas valide

Si la première colonne du jeu de données que vous convertissez en CSV a l’ID de nom, vous pouvez obtenir l’erreur suivante lorsque vous essayez d’ouvrir le fichier dans Excel :

« SYLK : Le format de fichier n’est pas valide ».

Pour éviter cette erreur, vous devez renommer la colonne.

J’ai besoin d’aide pour l’importation à partir de CSV

Pour l’importation, n’utilisez pas le module Exporter vers CSV . Utilisez plutôt le module Importer des données .

Pour plus d’informations générales sur l’importation à partir de CSV, consultez ces ressources :

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Output

Nom Type Description
Jeu de données de résultats CSV générique Jeu de données de sortie

Voir aussi

Conversion des formats de données
Liste alphabétique des modules