Udostępnij za pośrednictwem


Dzielenie danych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Partycjonuje wiersze zestawu danych na dwa odrębne zestawy

Kategoria: Przekształcanie danych / Przykład i dzielenie

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym temacie opisano sposób użycia modułu Split Data (Podział danych) w programie Machine Learning Studio (wersja klasyczna) w celu dzielenia zestawu danych na dwa odrębne zestawy.

Ten moduł jest szczególnie przydatny, gdy musisz oddzielić dane na zestaw szkoleniowy i testowy. Możesz również dostosować sposób dzielić dane. Niektóre opcje obsługują losowe przetwarzanie danych. Inne są dostosowane do określonego typu danych lub modelu.

Jak skonfigurować podział danych

Porada

Przed wybraniem trybu dzielenia przeczytaj wszystkie opcje, aby określić potrzebny typ podziału. Jeśli zmienisz tryb dzielenia, wszystkie inne opcje można zresetować.

  1. Dodaj moduł Split Data (Podział danych ) do eksperymentu w studio. Ten moduł można znaleźć w obszarze Przekształcanie danych w kategorii Przykład i Podział .

  2. Tryb dzielenia: wybierz jeden z następujących trybów, w zależności od typu posiadanych danych i sposobu ich dzielenia. Każdy tryb dzielenia ma inne opcje. Kliknij poniższe tematy, aby uzyskać szczegółowe instrukcje i przykłady.

    • Podziel wiersze: użyj tej opcji, jeśli chcesz podzielić dane na dwie części. Można określić procent danych do podzielenia w każdym dziele, ale domyślnie dane są dzielone na 50–50.

      Można również losowo ustawić wybór wierszy w każdej grupie i użyć próbkowania warstwowego. W przypadku próbkowania warstwowego należy wybrać jedną kolumnę danych, dla której wartości mają być równomiernie rozsyłane między dwa zestawy danych wynikowe.

    • Podział polecania: zawsze wybieraj tę opcję, jeśli przygotowujesz dane do użycia w systemie polecania. Ułatwia ona dzielenie zestawów danych na grupy szkoleniowe i testowe przy jednoczesnym zapewnieniu, że ważne wartości, takie jak pary elementów użytkownika lub klasyfikacje, są równomiernie podzielone między grupy.

    • Podział wyrażeń regularnych: wybierz tę opcję, jeśli chcesz podzielić zestaw danych przez przetestowanie pojedynczej kolumny dla wartości.

      Jeśli na przykład analizujesz tonacji, możesz sprawdzić obecność konkretnej nazwy produktu w polu tekstowym, a następnie podzielić zestaw danych na wiersze z docelową nazwą produktu i bez nich.

    • Podział wyrażeń względnych: użyj tej opcji zawsze, gdy chcesz zastosować warunek do kolumny liczbowej. Ta liczba może być polem daty/godziny, kolumną zawierającą kwoty wieku lub dolara, a nawet wartością procentową. Możesz na przykład podzielić zestaw danych w zależności od kosztu elementów, pogrupować osoby według zakresów wiekowych lub oddzielić dane według daty kalendarzowej.

Wymagania

  • Podział danych może tworzyć maksymalnie dwa zestawy danych jednocześnie, a te zestawy muszą być wyłączne.

    W związku z tym w przypadku złożonego podziału z wieloma warunkami i danymi wyjściowych może być konieczne dzielenie wielu modułów Split Data (Podział danych).

    Alternatywnie możesz użyć instrukcji CASE i modułu Apply SQL Transformation (Stosowanie SQL przekształcenia).

  • Ten moduł nie usuwa danych ani nie usuwa ich z zestawu danych. Po prostu dzieli dane określone między pierwsze i drugie dane wyjściowe modułu.

  • Dzielenie danych dla systemu polecania wiąże się z pewnymi dodatkowymi wymaganiami. Ogólnie rzecz biorąc, zestaw danych może składać się tylko z par elementów użytkownika lub trójlicie klasyfikacji elementów użytkownika. W związku z tym moduł Split Data ( Podział danych) nie może działać w przypadku zestawów danych, które mają więcej niż trzy kolumny, aby uniknąć nieporozumień z danymi typu funkcji. Jeśli zestaw danych zawiera zbyt wiele kolumn, może wystąpić ten błąd:

    Błąd 0022: Liczba wybranych kolumn w wejściowym zestawie danych nie jest równa x

    Aby obejść ten problem, możesz użyć opcji Wybierz kolumny w zestawie danych, aby usunąć niektóre kolumny, a następnie dodać kolumny później przy użyciu funkcji Dodaj kolumny. Alternatywnie, jeśli zestaw danych ma wiele funkcji, których chcesz użyć w modelu, podziel zestaw danych przy użyciu innej opcji i wytrenuj model przy użyciu polecenia Train Model (Trenowanie modelu), a nie Train Matchbox Recommender (Trenowanie polecenia matchbox).

Przykłady

Aby uzyskać przykłady sposobu , w jaki jest używany moduł Split Data (Podział danych), zobacz Azure AI Gallery:

  • Krzyżowa weryfikacja klasyfikacji binarnej: Zestaw danych dla dorosłych: 20% częstotliwości próbkowania jest stosowane w celu utworzenia mniejszego zestawu danych próbkowania losowego. (Oryginalny zestaw danych spisu zawierał ponad 30 000 wierszy; zestaw danych treningowych zawiera około 6500 wierszy). Zestaw danych jest czyszczony z brakującymi wartościami, a następnie przekazywany do pięciu różnych modeli w celu trenowania i krzyżowej walidacji.

Uwagi techniczne

Następujące wymagania mają zastosowanie do wszystkich zastosowań danych podzielonych:

  • Wejściowy zestaw danych musi zawierać co najmniej dwa wiersze lub w przypadku wystąpienia błędu.
  • Jeśli używasz opcji do określenia żądanej liczby wierszy, określona liczba musi być dodatnią liczbą całkowitą, a liczba musi być mniejsza niż łączna liczba wierszy w zestawie danych.
  • Jeśli określisz liczbę jako wartość procentową lub użyjemy ciągu zawierającego znak "%", wartość będzie interpretowana jako wartość procentowa. Wszystkie wartości procentowe muszą znajdować się w zakresie (0, 100), bez uwzględnienia wartości 0 i 100.
  • Jeśli określisz liczbę lub wartość procentową, która jest liczbą zmiennoprzecinkową mniejszą niż jeden, i nie użyjemy symbolu procentu (%), liczba jest interpretowana jako wartość proporcjonalna.
  • Jeśli używasz opcji podziału warstwowego, wyjściowe zestawy danych można podzielić dalej przez podgrupy, wybierając kolumnę warstwy.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Zestaw danych do podziału

Parametry modułu

Nazwa Typ Zakres Opcjonalne Opis Domyślny
Tryb dzielenia Tryb podziału Dzielenie wierszy, dzielenie polecania, wyrażenie regularne lub wyrażenie względne Wymagane Dzielenie wierszy Wybieranie metody dzielenia zestawu danych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników1 Tabela danych Zestaw danych, który zawiera wybrane wiersze
Zestaw danych wyników 2 Tabela danych Zestaw danych, który zawiera wszystkie pozostałe wiersze

Zobacz też

Przykład i podział
Partycjonowanie i próbkowanie
Lista modułów A–Z