Convertir en jeu de données

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Convertit l’entrée de données au format de jeu de données interne utilisé par Microsoft Machine Learning

Catégorie : conversions de format de données

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module convertir en jeu de données dans Machine Learning Studio (classic) pour convertir les données dont vous pouvez avoir besoin pour une expérience au format interne utilisé par Studio (classique).

la Conversion n’est pas nécessaire dans la plupart des cas, car Machine Learning convertit implicitement les données au format de jeu de données natif lorsqu’une opération est effectuée sur les données.

Toutefois, l'enregistrement des données au format de jeu de données est recommandé si vous avez effectué une opération de normalisation ou de nettoyage sur un ensemble de données et que vous souhaitez vous assurer que les modifications seront utilisées dans les prochaines expériences.

Notes

Le module Convertir au format Dataset modifie uniquement le format des données et n'enregistre pas une nouvelle copie des données dans l'espace de travail. Pour enregistrer le jeu de données, double-cliquez sur le port de sortie, sélectionnez Enregistrer comme jeu de données, puis tapez un nouveau nom.

Comment utiliser le module Convertir en jeu de données

Nous vous recommandons d’utiliser le module Modifier les métadonnées pour préparer le jeu de données avant d’utiliser le module Convertir en jeu de données. Vous pouvez ajouter ou changer des noms de colonnes, ajuster des types de données, etc.

  1. Ajoutez le module convertir au jeu de données à votre expérience. vous pouvez trouver ce module dans la catégorie conversions de Format de données dans Machine Learning Studio (classic).

  2. Connectez-le à n’importe quel module qui génère un jeu de données.

    Tant que les données sont tabulaires, vous pouvez les convertir en jeu de données. cela comprend les données chargées à l’aide des données d' importation, les données créées à l’aide de la saisie manuelledes données, les données générées par le code dans les modules personnalisés, les jeux de données transformés à l’aide de la transformation applyou les jeux de données générés ou modifiés à l’aide de la transformation apply SQL

  3. Dans la liste déroulante Action, indiquez si vous souhaitez effectuer un nettoyage sur les données avant d’enregistrer le jeu de données :

    • Aucun : utilisez les données telles quelles.

    • SetMissingValue: spécifiez un espace réservé inséré dans le jeu de données partout où il existe une valeur manquante. L’espace réservé par défaut est le caractère de point d’interrogation ( ?), mais vous pouvez utiliser l’option de valeur manquante personnalisée pour taper une autre valeur.

    • Remplacer des valeurs : utilisez cette option pour spécifier une seule valeur exacte à remplacer par toute autre valeur exacte. Par exemple, en supposant que vos données contiennent la chaîne obs utilisée en tant qu’espace réservé pour les valeurs manquantes, vous pouvez spécifier une opération de remplacement personnalisée à l’aide des options suivantes :

      1. Définir remplacer par personnalisé

      2. Pour Valeur personnalisée, tapez la valeur que vous souhaitez rechercher. Dans ce cas, vous devez taper obs .

      3. Pour Nouvelle valeur, tapez la nouvelle valeur par laquelle remplacer la chaîne d’origine. Dans ce cas, vous pouvez taper ?

    Notez que l’opération Remplacer des valeurs s’applique uniquement aux correspondances exactes. Par exemple, ces chaînes ne sont pas affectées : obs., obsolete.

    • SparseOutput: indique que le jeu de données est fragmenté. En créant un vecteur de données éparses, vous pouvez vous assurer que les valeurs manquantes n’affectent pas une distribution de données éparses. Après avoir sélectionné cette option, vous devez indiquer comment les valeurs manquantes et les valeurs zéro doivent être gérées.

    Pour supprimer une valeur différente de zéro, cliquez sur l’option supprimer et tapez une seule valeur à supprimer. Vous pouvez supprimer des valeurs manquantes ou définir une valeur personnalisée à supprimer du vecteur. Seules les correspondances exactes sont supprimées. Par exemple, si vous tapez x dans la zone de texte Supprimer la valeur , la ligne xx n’est pas affectée.

    Par défaut, l’option Supprimer les zéros est définie sur True , ce qui signifie que toutes les valeurs zéro sont supprimées lors de la création de la colonne éparse.

  4. Exécutez l’expérience, ou cliquez avec le bouton droit sur le module convertir en DataSet , puis sélectionnez exécuter la sélection.

Résultats

  • Pour enregistrer le jeu de données résultant avec un nouveau nom, cliquez avec le bouton droit sur la sortie de Convertir en jeu de données et sélectionnez Enregistrer comme jeu de données.

Exemples

Vous pouvez voir des exemples d’utilisation du module convertir en jeu de données dans l' Azure ai Gallery:

  • Exemple CRM: lit à partir d’un dataset partagé et enregistre une copie du DataSet dans l’espace de travail local.

  • Exemple de retards de vol: enregistre un jeu de données qui a été nettoyé en remplaçant les valeurs manquantes afin que vous puissiez l’utiliser pour des expériences ultérieures.

Notes techniques

Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.

  • Un module qui accepte un jeu de données comme entrée peut également accepter des données au format CSV, TSV ou ARFF. Avant l'exécution d'un quelconque code de module, les entrées sont prétraitées, ce qui équivaut à exécuter le module Convertir au format Dataset sur l'entrée.

  • Vous ne pouvez pas effectuer de conversion depuis le format SVMLight au format de jeu de données.

  • Quand vous spécifiez une opération de remplacement personnalisé, l’opération de recherche et de remplacement s’applique à des valeurs complètes ; les correspondances partielles ne sont pas autorisées. Par exemple, vous pouvez remplacer un 3 par -1 ou 33, mais vous ne pouvez pas remplacer un 3 dans un nombre à deux chiffres, tel que 35.

  • Pour les opérations de remplacement personnalisé, le remplacement échoue silencieusement si vous utilisez comme remplacement tout caractère qui n’est pas conforme au type de données actuel de la colonne.

  • Si vous devez enregistrer des données qui utilisent des données numériques éparses et qui ont des valeurs manquantes, en interne, Studio (Classic) prend en charge les tableaux épars à l’aide d’un SparseVector, qui est une classe de la bibliothèque numérique Math.NET. Préparez vos données qui utilisent des zéros et qui ont des valeurs manquantes, puis utilisez Convert to DataSet avec les arguments SparseOutput et Remove NULLS = true.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Paramètres du module

Nom Plage Type Default Description
Action Liste Méthode d'action None Action à appliquer sur le jeu de données d'entrée

Output

Nom Type Description
Jeu de données de résultats Table de données Jeu de données de sortie

Voir aussi

Conversion des formats de données
Liste alphabétique des modules