Partager via


Joindre des données

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Joint deux jeux de données

Catégorie : transformation/manipulation des données

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module joindre des données dans Machine Learning Studio (classic) pour fusionner deux jeux de données à l’aide d’une opération de jointurede type base de données.

Pour effectuer une jointure sur deux jeux de données, ceux-ci doivent être liés par une colonne clé unique . Les clés composites ne sont pas prises en charge.

Configuration de Joindre des données

  1. dans Machine Learning Studio (classique), ajoutez les jeux de données que vous souhaitez combiner, puis faites glisser le module joindre les données dans votre expérience.

    Vous pouvez rechercher le module dans la catégorie Transformation des données, sous Manipulation.

  2. Connectez les jeux de données au module Joindre des données.

    Le module join Data ne prend pas en charge une jointure externe droite. par conséquent, si vous souhaitez vous assurer que les lignes d’un jeu de données particulier sont incluses dans la sortie, ce jeu de données doit se trouver sur l’entrée LeftHand.

  3. Cliquez sur lancer le sélecteur de colonne pour choisir une colonne clé unique pour le jeu de données sur l’entrée de gauche.

  4. Cliquez sur lancer le sélecteur de colonne pour choisir une colonne clé unique pour le jeu de données à l’entrée de droite.

  5. Sélectionnez l’option respecter la casse si vous vous joignez à une colonne de texte et que vous souhaitez vous assurer que la jointure conserve le respect de la casse.

    Par exemple, si vous sélectionnez cette option, A1000 est considéré comme une valeur de clé différente de celle a1000 de.

    Si vous désélectionnez cette option, le respect de la casse n’est pas appliqué et A1000 est considéré comme étant identique à a1000 .

  6. Utilisez la liste déroulante Type de jointure pour spécifier la méthode de combinaison des jeux de données. modes

    • Jointure interne: une jointure interne est l’opération de jointure typique. Elle renvoie les lignes combinées uniquement lorsque les valeurs des colonnes clés correspondent.

    • Jointure externe gauche : une jointure externe gauche renvoie les lignes jointes pour toutes les lignes issues de la table de gauche. Quand une ligne dans la table de gauche n'a pas de lignes correspondantes dans la table de droite, la ligne renvoyée contient les valeurs manquantes pour toutes les colonnes qui proviennent de la table de droite, sauf si vous spécifiez une valeur de remplacement pour les valeurs manquantes.

    • Jointure externe entière : une jointure externe complète renvoie toutes les lignes de la table de gauche (table1) et de la table de droite (table2).

      Pour chacune des lignes de la table de gauche qui n’ont pas de lignes correspondantes dans la table de droite, les résultats de la jointure incluent une ligne contenant des valeurs manquantes de la table de droite.

      Pour chacune des lignes de la table de droite qui n’ont pas de lignes correspondantes dans la table de gauche, les résultats de la jointure incluent une ligne contenant des valeurs manquantes pour toutes les colonnes de la table de gauche.

    • Semi-jointure gauche : une semi-jointure gauche renvoie uniquement les valeurs issues de la table de gauche lorsque les valeurs des colonnes clés correspondent.

  7. Pour l’option, conservez la clé de droite colonnes dans la table jointe:

    • Désélectionnez l’option permettant d’obtenir une colonne clé unique dans les résultats.
    • Laissez l’option sélectionnée pour afficher les clés des deux tables d’entrée.
  8. Exécutez l’expérience ou sélectionnez le module joindre les données et la série sélectionnée sélectionnéepour effectuer la jointure.

  9. Pour afficher les résultats, cliquez avec le bouton droit sur le module joindre les données , sélectionnez DataSet des résultats, puis cliquez sur visualiser.

Exemples

Vous pouvez voir des exemples d’utilisation de ce module dans l' Azure ai Gallery:

Notes techniques

Cette section décrit les détails de l’implémentation et fournit des réponses à certaines questions fréquemment posées.

Restrictions

  • Le jeu de données combiné ne peut pas comporter deux colonnes portant le même nom. Si les jeux de données de gauche et de droite ont des noms de colonnes en double, un suffixe numérique est ajouté aux noms de colonnes du jeu de données de droite pour les rendre uniques.

    Par exemple, si les deux jeux de données comportaient une colonne nommée Month, la colonne du jeu de données de gauche restera telle quelle et la colonne du DataSet de droite est renommée month (1).

  • L'algorithme utilisé pour la comparaison de valeurs de clés présente un hachage forcé.

  • Chaque colonne du jeu de données joint conserve un type catégoriel, si la colonne correspondante du jeu de données d'entrée est catégorielle.

  • Dans les jointures externes gauches, s'il existe des valeurs manquantes, un niveau catégoriel est créé dans le jeu de données de gauche pour ces valeurs. Cela est vrai même s'il n'existe pas de valeurs manquantes dans le jeu de données joint (de droite).

Comment puis-je joindre une table sur une clé composite ?

Si vous devez joindre une table qui utilise des clés composites (autrement dit, la clé primaire s’appuie sur deux colonnes indépendantes), utilisez un module tel que le suivant pour concaténer le contenu des deux colonnes clés :

  • Exécuter un script R

    Par exemple, utilisez du code comme suivantes à l’intérieur du script R pour concaténer la première et la deuxième colonnes du tableau d’entrée à l’aide d’un trait d’Union comme séparateur. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Appliquer une transformation SQL

    L’opérateur de concaténation dans SQLite est || .

Comment puis-je joindre des tables qui n’ont pas de clé ?

Si votre jeu de données n’a pas de colonne clé, vous pouvez toujours le combiner avec un autre jeu de données, soit en générant une clé, soit en utilisant le module Ajouter des colonnes .

Le module Add Columns se comporte comme R et peut fusionner deux jeux de données ligne par ligne, si les jeux de données ont le même nombre de lignes. Une erreur est générée si les jeux de données ont une taille différente.

Entrées attendues

Nom Type Description
Jeu de données 1 Table de données Premier jeu de données à joindre
Jeu de données 2 Table de données Second jeu de données à joindre

Paramètres du module

Nom Plage Type Default Description
Jointure de colonnes clés pour L Quelconque ColumnSelection Sélectionnez les colonnes de clé de jointure pour le premier jeu de données.
Jointure de colonnes clés pour R Quelconque ColumnSelection Sélectionnez les colonnes de clé de jointure pour le second jeu de données.
Respecter la casse Quelconque Boolean True Indiquez si une comparaison respectant la casse est autorisée dans les colonnes de clé.
Type de jointure Liste Type Jointure interne Choisissez un type de jointure.
Conservez les colonnes clés de droite dans la table jointe Quelconque Boolean True Indiquez s'il faut conserver les colonnes de clé du deuxième jeu de données dans le jeu de données joint.

Output

Nom Type Description
Jeu de données de résultats Table de données Résultat de l'opération de jointure

Exceptions

Exception Description
Erreur 0001 Une exception se produit si une ou plusieurs colonnes spécifiées du jeu de données sont introuvables.
Erreur 0003 Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides.
Erreur 0006 Une exception se produit si le paramètre est supérieur ou égal à la valeur spécifiée.
Erreur 0016 Une exception se produit si les jeux de données d'entrée qui sont transmis au module doivent avoir des types de colonnes compatibles, mais n'en ont pas.
Erreur 0017 Une exception se produit si une ou plusieurs colonnes spécifiées ont des types qui ne sont pas pris en charge par le module actif.
Erreur 0020 Une exception se produit si le nombre de colonnes dans certains des jeux de données transmis au module est trop petit.
Erreur 0028 Une exception se produit quand le jeu de colonnes contient des noms de colonnes dupliqués, ce qui n'est pas autorisé.
Erreur 0011 Une exception se produit si l'argument pour le jeu de colonnes transmis ne s'applique à aucune colonne du jeu de données.
Erreur 0027 Une exception se produit quand deux objets qui doivent avoir la même taille ne l'ont pas.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Manipulation
Transformation des données
Liste alphabétique des modules