Udostępnij za pośrednictwem


Łączenie danych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Łączy dwa zestawy danych

Kategoria: Przekształcanie/manipulowanie danymi

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Join Data w programie Machine Learning Studio (wersja klasyczna) do scalania dwóch zestawów danych przy użyciu operacji łączenia w stylu bazy danych.

Aby wykonać sprzężenia na dwóch zestawach danych, muszą one być powiązane za pomocą jednej kolumny klucza. Klucze złożone nie są obsługiwane.

Jak skonfigurować sprzężenia danych

  1. W Machine Learning Studio (klasycznej) dodaj zestawy danych, które chcesz połączyć, a następnie przeciągnij moduł Join Data (Łączenie danych) do eksperymentu.

    Moduł można znaleźć w kategorii Przekształcanie danych w obszarze Manipulowanie.

  2. Połączenie zestawy danych do modułu Join Data (Dołączanie danych).

    Moduł Join Data (Sprzężenie danych) nie obsługuje prawego sprzężenia zewnętrznego, dlatego jeśli chcesz upewnić się, że wiersze z określonego zestawu danych są uwzględnione w danych wyjściowych, ten zestaw danych musi znajdować się w danych wejściowych po lewej stronie.

  3. Kliknij pozycję Launch column selector (Uruchom selektora kolumn), aby wybrać pojedynczą kolumnę klucza dla zestawu danych w danych wejściowych po lewej stronie.

  4. Kliknij pozycję Launch column selector (Uruchom selektora kolumn), aby wybrać kolumnę pojedynczego klucza dla zestawu danych po prawej stronie danych wejściowych.

  5. Wybierz opcję Dopasuj przypadek , jeśli łączysz się w kolumnie tekstowej i chcesz mieć pewność, że sprzężenia zachowują czułość wielkości liter.

    Jeśli na przykład wybierzesz tę opcję, A1000 zostanie uznana za inną wartość klucza niż a1000.

    Jeśli ta opcja zostanie odznaczona, rozeznanie wielkości liter nie będzie wymuszane i A1000 będzie traktowane tak samo jak .a1000

  6. Użyj listy rozwijanej Typ sprzężenia, aby określić sposób, w jaki zestawy danych mają być łączone. Typy:

    • Sprzężenie wewnętrzne: sprzężenie wewnętrzne jest typową operacją sprzężenia. Zwraca połączone wiersze tylko wtedy, gdy wartości kolumn kluczy są zgodne.

    • Lewe sprzężenie zewnętrzne: Lewe sprzężenie zewnętrzne zwraca połączone wiersze dla wszystkich wierszy z tabeli po lewej stronie. Jeśli wiersz w tabeli po lewej stronie nie ma pasujących wierszy w prawej tabeli, zwracany wiersz zawiera brakujące wartości dla wszystkich kolumn, które pochodzą z prawej tabeli, chyba że określisz wartość zastępczą dla brakujących wartości.

    • Pełne sprzężenie zewnętrzne: pełne sprzężenie zewnętrzne zwraca wszystkie wiersze z tabeli po lewej stronie (tabela1) i z prawej tabeli (table2).

      Dla każdego wiersza w tabeli po lewej stronie, które nie mają pasujących wierszy w prawej tabeli, wyniki sprzężenia zawierają wiersz zawierający brakujące wartości z prawej tabeli.

      Dla każdego wiersza w prawej tabeli, które nie mają pasujących wierszy w tabeli po lewej stronie, wyniki sprzężenia obejmują wiersz zawierający brakujące wartości dla wszystkich kolumn z tabeli po lewej stronie.

    • Lewe sprzężenia częściowe: Lewe sprzężenia częściowe zwraca tylko wartości z tabeli po lewej stronie, gdy wartości kolumn kluczy są zgodne.

  7. W przypadku opcji zachowaj odpowiednie elementy kluczy w tabeli sprzężenia:

    • Usuń zaznaczenie opcji , aby uzyskać pojedynczą kolumnę klucza w wynikach.
    • Pozostaw wybraną opcję, aby wyświetlić klucze z obu tabel wejściowych.
  8. Uruchom eksperyment lub wybierz moduł Join Data (Połącz dane) i wybierz pozycję Run Selected (Uruchom wybrane), aby wykonać sprzężenia.

  9. Aby wyświetlić wyniki, kliknij prawym przyciskiem myszy moduł Join Data (Połącz dane), wybierz pozycję Results dataset (Zestaw danych wyników), a następnie kliknij pozycję Visualize (Wizualizacja).

Przykłady

Możesz zobaczyć przykłady sposobu, w jaki ten moduł jest używany w Azure AI Gallery:

Uwagi techniczne

W tej sekcji opisano szczegóły implementacji i odpowiedzi na niektóre często zadawane pytania.

Ograniczenia

  • Połączony zestaw danych nie może mieć dwóch kolumn o tej samej nazwie. Jeśli zestawy danych po lewej i prawej stronie mają zduplikowane nazwy kolumn, do nazw kolumn prawego zestawu danych jest dołączany sufiks liczbowy, aby były unikatowe.

    Jeśli na przykład oba zestawy danych miały kolumnę o nazwie Month (Miesiąc), kolumna z lewego zestawu danych pozostałaby bez zmiany, a nazwa kolumny z prawego zestawu danych zostałaby zmieniona na Month (1).

  • Algorytm używany do porównywania wartości klucza jest wymuszany przy wyznaczaniu wartości skrótu.

  • Każda kolumna połączonego zestawu danych zachowuje typ kategorii, jeśli odpowiednia kolumna wejściowego zestawu danych jest podzielone na grupy.

  • Jeśli w lewym sprzężeniach zewnętrznych brakuje wartości, w lewym zestawie danych jest tworzony poziom kategorii dla brakujących wartości. Ta wartość jest prawdziwa, nawet jeśli w sprzężeniach (prawym) zestawie danych nie ma brakujących wartości.

Jak mogę połączyć tabelę z kluczem złożonym?

Jeśli musisz połączyć tabelę, która używa kluczy złożonych (czyli klucz podstawowy opiera się na dwóch niezależnych kolumnach), użyj modułu takiego jak następujący, aby połączyć zawartość dwóch kolumn klucza:

  • Wykonywanie skryptu języka R

    Możesz na przykład użyć kodu, takiego jak przypominający znak foll nienadający się do skryptu R, aby zsyłać pierwszą i drugą kolumnę wejściowej ramki danych przy użyciu łącznika jako separatora. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Stosowanie przekształcenia SQL

    Operatorem konkatacji w sqlite jest ||.

Jak mogę połączyć tabele, które nie mają klucza?

Jeśli zestaw danych nie ma kolumny klucza, nadal możesz połączyć ją z innym zestawem danych, generując klucz lub używając modułu Dodawanie kolumn .

Moduł Add Columns ( Dodawanie kolumn) zachowuje się jak R i może scalać dwa zestawy danych wiersz po wierszu, jeśli zestawy danych mają taką samą liczbę wierszy. Jeśli zestawy danych mają inny rozmiar, jest zwracany błąd.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych 1 Tabela danych Pierwszy zestaw danych do przyłączenia
Zestaw danych 2 Tabela danych Drugi zestaw danych do przyłączenia

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Sprzężenia kolumn klucza dla L Dowolne ColumnSelection Wybierz kolumny klucza sprzężenia dla pierwszego zestawu danych.
Sprzężenia kolumn klucza dla R Dowolne ColumnSelection Wybierz kolumny klucza sprzężenia dla drugiego zestawu danych.
Uwzględnij wielkość liter Dowolne Boolean Prawda Wskazuje, czy w kolumnach kluczy jest dozwolone porównywanie wielkości liter.
Typ sprzężenia Lista Typ Sprzężenie wewnętrzne Wybierz typ sprzężenia.
Zachowaj odpowiednie kolumny kluczy w tabeli sprzężenia Dowolne Boolean Prawda Wskaż, czy zachować kolumny klucza z drugiego zestawu danych w sprzężeniach zestawu danych.

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wynik operacji sprzężenia

Wyjątki

Wyjątek Opis
Błąd 0001 Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden element wejściowy ma wartość null lub jest pusty.
Błąd 0006 Wyjątek występuje, jeśli parametr jest większy lub równy określonej wartości.
Błąd 0016 Wyjątek występuje, jeśli wejściowe zestawy danych przekazywane do modułu powinny mieć zgodne typy kolumn, ale nie.
Błąd 0017 Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typy nieobsługiwane przez bieżący moduł.
Błąd 0020 Wyjątek występuje, gdy liczba kolumn w niektórych zestawach danych przekazywanych do modułu jest zbyt mała.
Błąd 0028 Wyjątek występuje, gdy zestaw kolumn zawiera zduplikowane nazwy kolumn i nie jest dozwolony.
Błąd 0011 Wyjątek występuje, jeśli argument przekazanego zestawu kolumn nie ma zastosowania do żadnych kolumn zestawu danych.
Błąd 0027 Wyjątek występuje, gdy dwa obiekty muszą mieć ten sam rozmiar, ale nie.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Manipulacji
Przekształcanie danych
Lista modułów A–Z