Partager via


Entrer des données manuellement

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Active l'entrée et la modification de petits jeux de données en tapant des valeurs

Catégorie : transformation/manipulation des données

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module entrer des données manuellement dans Machine Learning Studio (classic) pour créer un petit jeu de données en tapant des valeurs. Le jeu de données peut avoir plusieurs colonnes.

Ce module peut être utile dans des scénarios tels que les suivants :

Comment utiliser entrer des données manuellement

  1. Ajoutez le module Entrer des données manuellement à votre expérience. vous pouvez trouver ce module dans la catégorie entrée et sortie de données dans Machine Learning Studio (classique).

  2. Pour DataFormat, sélectionnez l’une des options suivantes. Ces options déterminent comment les données que vous fournissez doivent être analysées. Les exigences relatives à chaque format sont considérablement différentes. Veillez par conséquent à lire les rubriques connexes.

    • ARFF. Format de fichier de relation d’attribut, utilisé par Weka. Pour plus d’informations, consultez Convert to ARFF.

    • CSV. Format de valeurs séparées par des virgules. Pour plus d’informations, consultez Convertir au format CSV.

    • SVMLight. Format utilisé par Vowpal Wabbit et d’autres infrastructures de Machine Learning. Pour plus d’informations, consultez Convert to SVMLight.

    • TSV. Format de valeurs séparées par des tabulations. Pour plus d’informations, consultez la page convertir en TSV.

    Si vous choisissez un format et ne fournissez pas de données conformes aux spécifications de format, une erreur d’exécution se produit.

  3. Cliquez à l’intérieur de la zone de texte Données pour commencer à entrer des données. Les formats suivants requièrent une attention particulière :

    • CSV: pour créer plusieurs colonnes, collez-les dans un texte séparé par des virgules ou tapez plusieurs colonnes en utilisant des virgules entre les champs.

      Si vous sélectionnez l’option HasHeader, vous pouvez utiliser la première ligne de valeurs comme en-tête de colonne.

      Si vous désélectionnez cette option, les colonnes Names, col1, col2, etc., sont utilisées. Vous pouvez ajouter ou modifier des noms de colonnes ultérieurement à l’aide de Modifier les métadonnées.

    • TSV: pour créer plusieurs colonnes, collez-les dans du texte séparé par des tabulations ou tapez plusieurs colonnes à l’aide d’onglets entre les champs.

      Si vous sélectionnez l’option HasHeader, vous pouvez utiliser la première ligne de valeurs comme en-tête de colonne.

      Si vous désélectionnez cette option, les colonnes Names, col1, col2, etc., sont utilisées. Vous pouvez ajouter ou modifier des noms de colonnes ultérieurement à l’aide de Modifier les métadonnées.

    • ARFF : collez dans un fichier de format ARFF existant. Si vous tapez des valeurs directement, veillez à ajouter l’en-tête facultatif et les champs d’attributs requis au début des données.

      Par exemple, les lignes d’en-tête et d’attribut suivantes peuvent être ajoutées à une liste simple. L’en-tête de colonne serait SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: tapez ou collez des valeurs à l’aide du format SVMLight.

      Par exemple, l’exemple suivant représente les deux premières lignes du jeu de données Blood Donation, au format SVMight :

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Lorsque vous exécutez le module Entrer des données manuellement, ces lignes sont converties en un jeu de données de colonnes et de valeurs d’index comme suit :

      Col1 Col2 Col3 Col4 Étiquettes
      0,00016 0,004 0,999961 0,00784 1
      0 0,004 0,999955 0,008615 1
  4. Appuyez sur ENTRÉE après chaque ligne, pour aller à la ligne.

    Veillez à appuyer sur ENTRÉE après la dernière ligne.

    Si vous appuyez plusieurs fois sur ENTRÉE pour ajouter plusieurs lignes de fin vides, la dernière ligne vide est supprimée, mais les autres lignes vides sont considérées comme des valeurs manquantes.

    Si vous créez des lignes avec des valeurs manquantes, vous pouvez toujours les filtrer ultérieurement.

  5. Cliquez avec le bouton droit de la souris sur le module et sélectionnez Exécuter la sélection pour analyser les données et les charger dans votre espace de travail en tant que jeu de données.

    Pour afficher le jeu de données, cliquez sur le port de sortie et sélectionnez Visualiser.

Exemples

Pour obtenir des exemples d’utilisation de ce module dans Machine Learning, consultez la Azure ai Gallery:

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

  • Quel que soit le format enregistré, les données que vous entrez sont implicitement converties au format de jeu dedonnées (table de données) à utiliser dans les expériences. Toutefois, les données ne sont pas conservées en tant que DataSet enregistré, sauf si vous choisissez explicitement l’option enregistrer en tant que jeu de données.

    Si vous n’enregistrez pas les données manuellement dans entrer les données en tant que DataSet, elles sont supprimées du cache de l’espace de travail lorsque vous mettez fin à la session. Toutefois, vous pouvez réexécuter l’expérience pour rendre les données disponibles.

  • Si vous combinez manuellement les données de la Saisie des données avec un autre jeu de données, le dataset combiné ne peut pas avoir deux colonnes portant le même nom. S’il existe des noms de colonnes en double, un suffixe numérique est ajouté à la colonne du jeu de données de droite pour rendre les noms de colonne uniques.

    Par exemple, supposons que vous ayez deux instances de Entrez des données manuellement qui contiennent la colonne TestDataet que vous utilisiez le module Ajouter des colonnes pour les fusionner. La colonne de l’instance de gauche de entrer des données manuellement reste comme TestData, et la colonne de l’instance de droite de entrer les données manuellement est renommée TestData (2).

Voir aussi

Entrée et sortie de données
Liste alphabétique des modules