Split Data Component (Podział składnika danych)

Artykuł
06/01/2023

W tym artykule opisano składnik w projektancie usługi Azure Machine Learning.

Użyj składnika Split Data (Podział danych), aby podzielić zestaw danych na dwa odrębne zestawy.

Ten składnik jest przydatny, gdy trzeba rozdzielić dane na zestawy treningowe i testowe. Możesz również dostosować sposób dzielenia danych. Niektóre opcje obsługują losowe generowanie danych. Inne są dostosowane do określonego typu danych lub typu modelu.

Konfigurowanie składnika

Porada

Przed wybraniem trybu dzielenia przeczytaj wszystkie opcje, aby określić potrzebny typ podziału. Jeśli zmienisz tryb dzielenia, wszystkie inne opcje mogą zostać zresetowane.

Dodaj składnik Split Data (Podział danych ) do potoku w projektancie. Ten składnik można znaleźć w obszarze Przekształcanie danych w kategorii Próbka i Podział .
Tryb dzielenia: wybierz jeden z następujących trybów, w zależności od typu posiadanych danych i sposobu ich dzielenia. Każdy tryb dzielenia ma różne opcje.
- Podziel wiersze: użyj tej opcji, jeśli chcesz podzielić dane na dwie części. Można określić procent danych do umieszczenia w każdym podziale. Domyślnie dane są podzielone 50/50.
  
  Można również losowo wybrać wiersze w każdej grupie i użyć próbkowania warstwowego. W warstwowym próbkowaniu należy wybrać jedną kolumnę danych, dla której wartości mają być rozdzielone równomiernie między dwa zestawy danych wynikowych.
- Podział wyrażeń regularnych: wybierz tę opcję, jeśli chcesz podzielić zestaw danych, testując pojedynczą kolumnę dla wartości.
  
  Jeśli na przykład analizujesz tonację, możesz sprawdzić obecność określonej nazwy produktu w polu tekstowym. Następnie można podzielić zestaw danych na wiersze z docelową nazwą produktu i wierszami bez docelowej nazwy produktu.
- Podział wyrażeń względnych: użyj tej opcji zawsze, gdy chcesz zastosować warunek do kolumny liczbowej. Może to być pole daty/godziny, kolumna zawierająca kwoty wieku lub dolara, a nawet wartość procentowa. Możesz na przykład podzielić zestaw danych na podstawie kosztów elementów, pogrupować osoby według przedziałów wiekowych lub oddzielić dane według daty kalendarza.

Dzielenie wierszy

Dodaj składnik Split Data (Podział danych ) do potoku w projektancie i połącz zestaw danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Podziel wiersze.
Ułamek wierszy w pierwszym wyjściowym zestawie danych: użyj tej opcji, aby określić, ile wierszy przejdzie do pierwszych (po lewej stronie) danych wyjściowych. Wszystkie inne wiersze zostaną wprowadzone do danych wyjściowych drugiej (po prawej stronie).

Współczynnik reprezentuje procent wierszy wysłanych do pierwszego wyjściowego zestawu danych, dlatego należy wprowadzić liczbę dziesiętną z zakresu od 0 do 1.

Jeśli na przykład wprowadzisz wartość 0,75 , zestaw danych zostanie podzielony na 75/25. W tym podziale 75 procent wierszy zostanie wysłanych do pierwszego wyjściowego zestawu danych. Pozostałe 25 procent zostanie wysłanych do drugiego wyjściowego zestawu danych.
Wybierz opcję Podział losowy , jeśli chcesz losowo wybrać dane w dwóch grupach. Jest to preferowana opcja podczas tworzenia zestawów danych szkoleniowych i testowych.
Inicjator losowy: ten parametr zostanie zignorowany, jeśli losowy podział ma wartość false. W przeciwnym razie wprowadź nieujemną wartość całkowitą, aby uruchomić sekwencję pseudorandom wystąpień do użycia. To domyślne inicjator jest używane we wszystkich składnikach, które generują liczby losowe.

Określenie inicjatora sprawia, że wyniki można odtworzyć. Jeśli musisz powtórzyć wyniki operacji dzielenia, należy określić ten sam numer inicjatora dla generatora liczb losowych.
Podział warstwowy: ustaw tę opcję na true , aby upewnić się, że dwa wyjściowe zestawy danych zawierają reprezentatywną próbkę wartości w kolumnie strata lub kolumnie klucza stratification.

W przypadku próbkowania warstwowego dane są podzielone tak, aby każdy wyjściowy zestaw danych pobierał mniej więcej taki sam procent każdej wartości docelowej. Możesz na przykład upewnić się, że zestawy treningowe i testowe są w przybliżeniu zrównoważone w odniesieniu do wyniku lub do innego kolumny (na przykład płci).
Prześlij potok.

Wybieranie wyrażenia regularnego

Dodaj składnik Split Data (Podział danych ) do potoku i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Podział wyrażeń regularnych.
W polu Wyrażenie regularne wprowadź prawidłowe wyrażenie regularne.

Wyrażenie regularne powinno być zgodne ze składnią języka Python dla wyrażeń regularnych.
Prześlij potok.

Na podstawie podanego wyrażenia regularnego zestaw danych jest podzielony na dwa zestawy wierszy: wiersze z wartościami zgodnymi z wyrażeniem i wszystkimi pozostałymi wierszami.

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Wyrażenia regularnego .

Jedno całe słowo

Ten przykład umieszcza w pierwszym zestawie danych wszystkie wiersze zawierające tekst Gryphon w kolumnie Text. Umieszcza inne wiersze w drugim danych wyjściowych funkcji Split Data (Podział danych).

    \"Text" Gryphon

Podciąg

Ten przykład szuka określonego ciągu w dowolnej pozycji w drugiej kolumnie zestawu danych. Pozycja jest oznaczona tutaj przez wartość indeksu 1. W dopasowaniu jest uwzględniana wielkość liter.

(\1) ^[a-f]

Pierwszy zestaw danych wyników zawiera wszystkie wiersze, w których kolumna indeksu zaczyna się od jednego z następujących znaków: a, , b, cd, e, . f Wszystkie inne wiersze są kierowane do drugiego danych wyjściowych.

Wybieranie wyrażenia względnego

Dodaj składnik Split Data (Podział danych ) do potoku i połącz go jako dane wejściowe z zestawem danych, który chcesz podzielić.
W obszarze Tryb dzielenia wybierz pozycję Wyrażenie względne.
W polu Wyrażenie relacyjne wprowadź wyrażenie, które wykonuje operację porównania w pojedynczej kolumnie.

Dla kolumny liczbowej:
- Kolumna zawiera liczby dowolnego typu danych liczbowych, w tym typy danych daty i godziny.
- Wyrażenie może odwoływać się do maksymalnie jednej nazwy kolumny.
- Użyj znaku ampersand , &dla operacji AND. Użyj znaku potoku , |dla operacji OR.
- Obsługiwane są następujące operatory: <, , >, >=<=, ==!=.
- Nie można grupować operacji przy użyciu elementów ( i ).
Dla kolumny Ciąg:
- Obsługiwane są następujące operatory: ==, !=.
Prześlij potok.

Wyrażenie dzieli zestaw danych na dwa zestawy wierszy: wiersze z wartościami, które spełniają warunek, i wszystkie pozostałe wiersze.

W poniższych przykładach pokazano, jak podzielić zestaw danych przy użyciu opcji Wyrażenie względne w składniku Split Data (Podział danych ).

Rok kalendarzowy

Typowym scenariuszem jest podzielenie zestawu danych według lat. Poniższe wyrażenie wybiera wszystkie wiersze, w których wartości w kolumnie Year są większe niż 2010.

\"Year" > 2010

Wyrażenie daty musi uwzględniać wszystkie części dat uwzględnione w kolumnie danych. Format dat w kolumnie danych musi być spójny.

Na przykład w kolumnie daty używającej formatu mmddyyyywyrażenie powinno wyglądać mniej więcej tak:

\"Date" > 1/1/2010

Indeks kolumn

Poniższe wyrażenie pokazuje, jak za pomocą indeksu kolumny wybrać wszystkie wiersze w pierwszej kolumnie zestawu danych zawierające wartości mniejsze lub równe 30, ale nie równe 20.

(\0)<=30 & !=20

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.