Verknüpfen von Daten

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Verknüpft zwei Datasets

Kategorie: Datentransformation/-bearbeitung

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Join Data in Machine Learning Studio (klassisch) verwenden, um zwei Datasets mithilfe eines Joinvorgangs im Datenbankstil zusammenzuführen.

Um einen Join für zwei Datasets auszuführen, müssen sie durch eine einzelne Schlüsselspalte verknüpft werden. Zusammengesetzte Schlüssel werden nicht unterstützt.

Konfigurieren von „Join Data“ (Daten verknüpfen)

Fügen Sie in Machine Learning Studio (klassisch) die Datasets hinzu, die Sie kombinieren möchten, und ziehen Sie dann das Modul Join Data in Ihr Experiment.

Das Modul befindet sich in der Kategorie Datentransformation (unter Bearbeitung).
Verbinden Sie die Datasets mit dem Modul Join Data (Daten verknüpfen).

Das Modul Join Data unterstützt keinen rechten äußeren Join. Wenn Sie also sicherstellen möchten, dass Zeilen aus einem bestimmten Dataset in der Ausgabe enthalten sind, muss sich dieses Dataset in der linken Eingabe befinden.
Klicken Sie auf Launch column selector (Spaltenauswahl starten), um in der linken Eingabe eine einzelne Schlüsselspalte für das Dataset auszuwählen.
Klicken Sie auf Launch column selector (Spaltenauswahl starten), um eine einzelne Schlüsselspalte für das Dataset in der rechten Eingabe auszuwählen.
Wählen Sie die Option Übereinstimmungsfall aus, wenn Sie eine Textspalte verknüpfen und sicherstellen möchten, dass die Empfindlichkeit der Kleinschreibung beim Join erhalten bleibt.

Wenn Sie diese Option beispielsweise auswählen, A1000 wird als ein anderer Schlüsselwert als a1000betrachtet.

Wenn Sie diese Option deaktivieren, wird die Empfindlichkeit der Kleinschreibung nicht erzwungen und A1000 gilt als identisch mit a1000.
Geben Sie über die Dropdownliste Verknüpfungstyp an, wie die Datasets vereint werden sollen. Typen:
- Innerer Join: Ein innerer Join ist der typische Joinvorgang. Bei diesem Typ werden die vereinten Zeilen nur zurückgegeben, wenn die Werte der Schlüsselspalten übereinstimmen.
- Linker äußerer Join: Bei einem linken äußeren Join werden verknüpfte Zeilen für alle Zeilen aus der linken Tabelle zurückgegeben. Wenn eine Zeile in der linken Tabelle keine übereinstimmenden Zeilen in der rechten Tabelle hat, enthält die zurückgegebene Zeile fehlende Werte für alle Spalten, die aus der rechten Tabelle stammen, sofern Sie einen Ersatzwert für fehlende Werte angeben.
- Vollständiger äußerer Join: Bei einem vollständigen äußeren Join werden alle Zeilen aus der linken Tabelle (Tabelle 1) und aus der rechten Tabelle (Tabelle 2) zurückgegeben.
  
  Für jede Zeile in der linken Tabelle, die keine übereinstimmenden Zeilen in der rechten Tabelle enthält, enthalten die Joinergebnisse eine Zeile mit fehlenden Werten aus der rechten Tabelle.
  
  Für jede Zeile in der rechten Tabelle, die keine übereinstimmenden Zeilen in der linken Tabelle enthält, enthalten die Joinergebnisse eine Zeile mit fehlenden Werten für alle Spalten aus der linken Tabelle.
- Linke halbe Verknüpfung: Bei einer linken halben Verknüpfung werden nur die Werte aus der linken Tabelle zurückgegeben, wenn die Werte der Schlüsselspalten übereinstimmen.
Für die Option Behalten Sie die richtigen Schlüsselkolums in der verknüpften Tabelle bei:
- Deaktivieren Sie die Option, um eine einzelne Schlüsselspalte in den Ergebnissen abzurufen.
- Lassen Sie die Option ausgewählt, um die Schlüssel aus beiden Eingabetabellen anzuzeigen.
Führen Sie das Experiment aus, oder wählen Sie das Modul Join Data aus, und wählen Sie Ausgewählte ausführen aus, um den Join auszuführen.
Klicken Sie zum Anzeigen der Ergebnisse mit der rechten Maustaste auf das Modul Join Data , wählen Sie Results dataset (Ergebnisdataset) aus, und klicken Sie auf Visualize (Visualisieren).

Beispiele

Beispiele für die Verwendung dieses Moduls finden Sie im Azure KI-Katalog:

Erkennung von Milcharten: Joindaten werden verwendet, um die positiven Trainingsfälle mit den negativen Trainingsfällen zu kombinieren, nachdem der Anteil der Fälle angepasst wurde.
Vorhersage von Flugverspätungen: In diesem Beispiel wird Join Data verwendet, um nützliche Features aus externen Datasets zusammenzuführen.
Filmempfehlung: Zwei Datasets werden verknüpft, sodass wir die empfohlenen Filmtitel anstelle einer Film-ID präsentieren können.
Vorhersage der Leistung von Studenten: In diesem Beispiel wird Join Data verwendet, um neue Features zu nutzen.

Technische Hinweise

In diesem Abschnitt werden Implementierungsdetails und Antworten auf einige häufig gestellte Fragen beschrieben.

Beschränkungen

Das kombinierte Dataset kann keine zwei Spalten mit dem gleichen Namen enthalten. Wenn die linken und rechten Datasets doppelte Spaltennamen aufweisen, wird ein numerisches Suffix an die Spaltennamen des rechten Datasets angefügt, um sie eindeutig zu machen.

Wenn beispielsweise beide Datasets eine Spalte mit dem Namen Month aufweisen, bleibt die Spalte aus dem linken Dataset unverändert, und die Spalte aus dem rechten Dataset wird in Monat (1) umbenannt.
Der zum Vergleichen von Schlüsselwerten verwendete Algorithmus wird über Hashfunktion erzwungen.
Jede Spalte des verknüpften Datasets behält ihren Kategorietyp bei, sofern es sich bei der entsprechenden Spalte des Eingabedatasets um eine kategorisierte Spalte handelt.
Wenn bei Left Outer Joins Werte fehlen, wird im linken Dataset für fehlende Werte eine Kategorieebene erstellt. Dies gilt auch, wenn keine fehlenden Werte im verknüpften (rechten) Dataset vorhanden sind.

Wie kann ich eine Tabelle mit einem zusammengesetzten Schlüssel verbinden?

Wenn Sie eine Tabelle, die zusammengesetzte Schlüssel verwendet (d. b. der Primärschlüssel basiert auf zwei unabhängigen Spalten), verbinden müssen, verwenden Sie ein Modul wie das folgende, um den Inhalt der beiden Schlüsselspalten zu verketten:

Ausführen von R-Skripts

Verwenden Sie z. B. Code wie das Hinterblatt im R-Skript, um die erste und zweite Spalte des Eingabedatenrahmens mithilfe eines Bindestrichs als Trennzeichen zu verketten. paste(inputdf$Col1,inputdf$Col2,sep="-")
Anwenden der SQL-Transformation

Der Verkettungsoperator in SQLite ist ||.

Wie kann ich Tabellen verknüpfen, die keinen Schlüssel haben?

Wenn Ihr Dataset keine Schlüsselspalte enthält, können Sie es weiterhin mit einem anderen Dataset kombinieren, indem Sie entweder einen Schlüssel generieren oder das Modul Spalten hinzufügen verwenden.

Das Modul Add Columns verhält sich wie R und kann zwei Datasets zeilenweise zusammenführen, wenn die Datasets die gleiche Anzahl von Zeilen aufweisen. Wenn die Datasets eine andere Größe aufweisen, wird ein Fehler ausgelöst.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset1	Datentabelle	Erstes Dataset für die JOIN-Operation
Dataset2	Datentabelle	Zweites Dataset für die JOIN-Operation

Modulparameter

Name	Range	type	Standard	Beschreibung
Join key columns for L	Any	ColumnSelection		Wählen Sie die JOIN-Schlüsselspalten für das erste Dataset.
Join key columns for R	Any	ColumnSelection		Wählen Sie die JOIN-Schlüsselspalten für das zweite Dataset.
Groß-/Kleinschreibung beachten	Any	Boolean	True	Gibt an, ob in Schlüsselspalten ein Groß-/Kleinschreibungsvergleich zulässig ist.
Join-Typ	Liste	Type	Innere Verknüpfung	Wählen Sie einen JOIN-Typ.
Keep right key columns in joined table	Any	Boolean	True	Gibt an, ob die Schlüsselspalten aus dem zweiten Dataset im verknüpften Dataset beibehalten werden sollen.

Output

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Ergebnis der JOIN-Operation

Ausnahmen

Ausnahme	Beschreibung
Fehler 0001	Eine Ausnahme tritt auf, wenn mindestens eine angegebene Spalte des Datasets nicht gefunden werden konnte.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0006	Eine Ausnahme tritt auf, wenn der Parameter größer gleich dem angegebenen Wert ist.
Fehler 0016	Eine Ausnahme tritt auf, wenn die Eingabedatasets, die an das Modul übergeben werden, kompatible Spaltentypen aufweisen sollen, aber das nicht der Fall ist.
Fehler 0017	Eine Ausnahme tritt auf, wenn mindestens eine der angegebenen Spalten einen Typ aufweist, der vom aktuellen Modul nicht unterstützt wird.
Fehler 0020	Eine Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0028	Eine Ausnahme tritt auf, wenn ein Spaltensatz doppelte Spaltennamen enthält und dies nicht zulässig ist.
Fehler 0011	Eine Ausnahme tritt auf, wenn das Argument für den übergebenen Spaltensatz nicht für alle Datasetspalten gilt.
Fehler 0027	Eine Ausnahme tritt auf, wenn zwei Objekte gleich groß sein müssen, dies aber nicht der Fall ist.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Manipulation
Datentransformation
Modulliste von A bis Z

Share via