Udostępnij za pośrednictwem


Partycjonowanie i próbkowanie

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Tworzy wiele partycji zestawu danych na podstawie próbkowania

Kategoria: Przekształcanie danych / Przykład i dzielenie

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Partycja i przykład w programie Machine Learning Studio (wersja klasyczna), aby wykonać próbkowanie zestawu danych lub utworzyć partycje na podstawie zestawu danych.

Próbkowanie jest ważnym narzędziem w uczeniu maszynowym, ponieważ umożliwia zmniejszenie rozmiaru zestawu danych przy zachowaniu tego samego współczynnika wartości. Ten moduł obsługuje kilka powiązanych zadań, które są ważne w uczeniu maszynowym:

  • Podzielenie danych na wiele podsekcji o tym samym rozmiarze.

    Partycje mogą być przeznaczone do krzyżowej weryfikacji lub do przypisywania przypadków do grup losowych.

  • Podzielenie danych na grupy, a następnie praca z danymi z określonej grupy.

    Po losowym przypisaniu przypadków do różnych grup może być konieczne zmodyfikowanie funkcji skojarzonych tylko z jedną grupą.

  • Pobierania próbek.

    Możesz wyodrębnić procent danych, zastosować próbkowanie losowe lub wybrać kolumnę do równoważenia zestawu danych i wykonać próbkowanie warstwowe na jego wartościach.

  • Tworzenie mniejszego zestawu danych do testowania.

    Jeśli masz dużą liczbę danych, możesz użyć tylko pierwszych n wierszy podczas konfigurowania eksperymentu, a następnie przełączyć się na używanie pełnego zestawu danych podczas kompilowania modelu. Możesz również użyć próbkowania, aby utworzyć mniejszy zestaw danych do użycia w programie.

Jak skonfigurować partycję i przykład

Ten moduł obsługuje wiele metod dzielenia danych na partycje lub próbkowania. Najpierw wybierz metodę , a następnie ustaw dodatkowe opcje wymagane przez metodę .

  • Uzyskiwanie najwyższej liczby wierszy

Uzyskiwanie N górnych wierszy z zestawu danych

Ten tryb umożliwia uzyskiwanie tylko pierwszych n wierszy. Ta opcja jest przydatna, jeśli chcesz przetestować eksperyment na niewielkiej liczbie wierszy i nie musisz w żaden sposób równoważyć ani próbkować danych.

  1. Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.

  2. Tryb partycji lub próbki: ustaw tę opcję na Head.

  3. Liczba wierszy do wybrania: wpisz liczbę wierszy do zwrócenia.

    Liczba wierszy, które określisz, musi być nieujemną liczbą całkowitą. Jeśli liczba wybranych wierszy jest większa niż liczba wierszy w zestawie danych, zwracany jest cały zestaw danych.

  4. Uruchom eksperyment.

Moduł zwraca pojedynczy zestaw danych zawierający tylko określoną liczbę wierszy. Wiersze są zawsze odczytywane z góry zestawu danych.

Tworzenie przykładu danych

Ta opcja obsługuje proste próbkowanie losowe lub warstwowe próbkowanie losowe. Jest to przydatne, jeśli chcesz utworzyć mniejszy reprezentatywny przykładowy zestaw danych do testowania.

  1. Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.

  2. Tryb partycji lub próbkowania: ustaw tę wartość na Próbkowanie.

  3. Częstotliwość próbkowania: wpisz wartość z wartości od 0 do 1. Ta wartość określa procent wierszy ze źródłowego zestawu danych, które powinny zostać uwzględnione w wyjściowym zestawie danych.

    Jeśli na przykład chcesz uzyskać tylko połowę oryginalnego zestawu danych, wpisz , aby wskazać, 0.5 że częstotliwość próbkowania powinna być na poziomie 50%.

    Wiersze wejściowego zestawu danych są mieszane i selektywnie umieszczane w wyjściowym zestawie danych, zgodnie z określonym proporcją.

  4. Losowy iniekt do próbkowania: opcjonalnie wpisz liczbę całkowitą do użycia jako wartość iniekcyjną.

    Ta opcja jest ważna, jeśli chcesz, aby wiersze były za każdym razem dzielone w ten sam sposób. Wartość domyślna to 0, co oznacza, że początkowy iniekt jest generowany na podstawie zegara systemowego. Może to prowadzić do nieco innych wyników za każdym razem, gdy uruchamiasz eksperyment.

  5. Podział warstwowy na próbkowanie: wybierz tę opcję, jeśli ważne jest, aby wiersze w zestawie danych były dzielone równomiernie przez kilka kolumn klucza przed próbkowaniem.

    Dla kolumny klucza warstwy do próbkowania wybierz pojedynczą kolumnę warstwy do użycia podczas dzielenia zestawu danych. Wiersze w zestawie danych są następnie dzielone w następujący sposób:

    1. Wszystkie wiersze wejściowe są grupowane (warstwowane) według wartości w określonej kolumnie warstwy.

    2. Wiersze są mieszane w obrębie każdej grupy.

    3. Każda grupa jest selektywnie dodawana do wyjściowego zestawu danych w celu spełnienia określonego współczynnika.

    Aby uzyskać więcej informacji na temat próbkowania warstwowego, zobacz sekcję Uwagi techniczne.

  6. Uruchom eksperyment.

    W przypadku tej opcji moduł wyprowadza pojedynczy zestaw danych, który zawiera reprezentatywne próbkowanie danych.

    Pozostała, nieprzypróbkowana część zestawu danych nie jest wyjściowa. Można jednak utworzyć sprzężenia dla zestawów danych, korzystając z modułu Apply SQL Transformation (Stosowanie przekształcenia danych), aby określić, które wiersze były nieużywane.

Dzielenie danych na partycje

Użyj tej opcji, jeśli chcesz podzielić zestaw danych na podzestawy danych. Ta opcja jest również przydatna, gdy chcesz utworzyć niestandardową liczbę składań do krzyżowej weryfikacji lub podzielić wiersze na kilka grup.

  1. Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna) i połącz zestaw danych.

  2. W przypadku opcji Tryb partycji lub próbki wybierz pozycję Przypisz do składanych.

  3. Użyj zamiany w partycjonowania: wybierz tę opcję, jeśli chcesz umieścić próbkowany wiersz z powrotem w puli wierszy do ponownego użycia. W związku z tym ten sam wiersz może być przypisany do kilku kropek.

    Jeśli nie używasz zastępowania (opcja domyślna), próbkowany wiersz nie jest umieszczany z powrotem w puli wierszy do ponownego użycia. W związku z tym każdy wiersz można przypisać tylko do jednego składania.

  4. Podział losowy: wybierz tę opcję, jeśli chcesz, aby wiersze zostały losowo przypisane do składanych wierszy.

    Jeśli nie wybierzesz tej opcji, wiersze zostaną przypisane do składanych przy użyciu metody działania okrężnego.

  5. Iniekt losowy: opcjonalnie wpisz liczbę całkowitą, która ma być wartością iniekcyjną. Ta opcja jest ważna, jeśli chcesz, aby wiersze były za każdym razem dzielone w ten sam sposób. W przeciwnym razie wartość domyślna 0 oznacza, że zostanie użyty losowy początkowy iniekt.

  6. Określ metodę partycjonatora: określ sposób podziału danych na poszczególne partycje przy użyciu tych opcji:

    • Partycjonuj równomiernie: użyj tej opcji, aby umieścić taką samą liczbę wierszy w każdej partycji. Aby określić liczbę partycji wyjściowych, wpisz liczbę całościową w polu tekstowym Określ liczbę składanych składanych części.

    • Partycjonowanie z dostosowanymi proporcjami: użyj tej opcji, aby określić rozmiar każdej partycji jako listę rozdzieloną przecinkami.

      Jeśli na przykład chcesz utworzyć trzy partycje z pierwszą partycją zawierającą 50% danych, a pozostałe dwie partycje każda zawierająca 25% danych, kliknij pole tekstowe Lista proporcji rozdzielonych przecinkami i wpisz następujące liczby:.5, .25, .25

      Suma wszystkich rozmiarów partycji musi się sumować do dokładnie 1.

      • W przypadku wprowadzenia liczb, które dodają mniej niż 1, tworzona jest dodatkowa partycja do przechowywania pozostałych wierszy. Jeśli na przykład wpiszemy wartości .2 i .3, tworzona jest trzecia partycja, która przechowuje pozostałe 50 procent wszystkich wierszy.

      • W przypadku wprowadzenia liczb, które dodają więcej niż 1, po uruchomieniu eksperymentu zostanie uruchomiony błąd.

  7. Podział warstwowy: wybierz tę opcję, jeśli chcesz rozwarstwieć wiersze po podzieleniu, a następnie wybierz kolumnę warstwy.

    Aby uzyskać więcej informacji na temat próbkowania warstwowego, zobacz sekcję Uwagi techniczne.

  8. Uruchom eksperyment.

    W przypadku tej opcji moduł wyprowadza wiele zestawów danych podzielonych na partycje przy użyciu określonych reguł.

Używanie danych ze wstępnie zdefiniowanej partycji

Ta opcja jest używana, gdy zestaw danych został podzielony na wiele partycji i teraz chcesz załadować każdą partycję po kolei w celu dalszej analizy lub przetwarzania.

  1. Dodaj moduł Partition (Partycja) i Sample (Przykład ) do eksperymentu w programie Studio (wersja klasyczna).

  2. Połączenie dane wyjściowe poprzedniego wystąpienia partycji i przykładu. To wystąpienie musi użyć opcji Przypisz do składanych , aby wygenerować część partycji.

  3. Tryb partycji lub próbki: wybierz pozycję Wybierz pozycję Zwiń.

  4. Określ składanie, z którego ma zostać pobrana próbka: wybierz partycję do użycia, wpisując jej indeks. Indeksy partycji są oparte na 1. Jeśli na przykład zestaw danych zostałby podzielony na trzy części, partycje miałyby indeksy 1, 2 i 3.

    W przypadku wpisania nieprawidłowej wartości indeksu zostanie podniesiony błąd czasu projektowania: "Błąd 0018: Zestaw danych zawiera nieprawidłowe dane".

    Oprócz grupowania zestawu danych według składań można rozdzielić zestaw danych na dwie grupy: składanie docelowe i wszystkie inne. Aby to zrobić, wpisz indeks pojedynczego kropki, a następnie wybierz opcję Wybierz uzupełnienie wybranego składania, aby uzyskać wszystkie dane oprócz danych w określonym składaniu.

  5. Jeśli pracujesz z wieloma partycjami, musisz dodać dodatkowe wystąpienia modułu Partycja i Przykład, aby obsługiwać każdą partycję.

    Załóżmy na przykład, że wcześniej podzieliliśmy pacjentów na pięć kropek przy użyciu wieku. Aby pracować z poszczególnymi składami, potrzebujesz pięciu kopii modułu Partition (Partycja) i Sample ( Przykład) i w każdej z nich wybierasz inny składanie.

    Porada

    W przykładowym eksperymencie Split Partition (Podział partycji) i Sample (Przykład) pokazano tę technikę.

  6. Uruchom eksperyment.

    W przypadku tej opcji moduł wyprowadza pojedynczy zestaw danych zawierający tylko wiersze przypisane do tego składania.

Uwaga

Oznaczeń składanych nie można wyświetlać bezpośrednio; Są one obecne tylko w metadanych.

Przykłady

Przykłady sposobu, w jaki jest używany ten moduł, można znaleźć w Azure AI Gallery:

  • Krzyżowe sprawdzanie poprawności klasyfikacji binarnej: 20% częstotliwości próbkowania jest stosowane w celu utworzenia mniejszego zestawu danych próbkowania losowego. Oryginalny zestaw danych spisu zawierał ponad 30 000 wierszy; Próbkowany zestaw danych ma około 6500.

  • Krzyżowa weryfikacja regresji: dane są losowo i równomiernie przypisywane do pięciu kropek, bez warstwyfikacji, a wyniki są używane do krzyżowego sprawdzania poprawności.

  • Podziel partycję i przykład: Pokazuje wiele sposobów użycia partycjonowania i próbkowania. Najpierw opcja Przypisz do składanych służy do przypisywania wierszy w zestawie danych do jednej z trzech grup o równomiernym rozmiarze. Następnie trzy kolejne wystąpienia partycji i przykładu są dodawane przy użyciu trybu wyboru składania w celu zastosowania operacji do podzestawów danych

    • W pierwszym składaniu (indeks 1) wiersze są dzielone losowo.
    • W drugim składaniu (indeks 2) wiersze są dzielone według edukacji.
    • W trzecim składaniu (indeks 3) wiersze są dzielone według wieku.

Uwagi techniczne

  • Kolumna warstwy musi być podzielone na kategorie z wartościami dyskretnymi. Jeśli kolumna nie jest jeszcze podzielone na kategorii i wystąpi błąd, użyj funkcji Edytuj metadane , aby zmienić właściwości kolumny.

  • Określana kolumna warstwy nie może zawierać danych ciągłych, czyli danych liczbowych z wartościami zmiennoprzecinjącymi w każdej komórce. W przeciwnym razie moduł nie może przetworzyć danych i zwraca błąd.

    Przyczyną jest to, że każda kolumna używana do warstwyfikacji musi mieć skończony zestaw możliwych wartości. Jeśli określona kolumna warstwy zawiera jakiekolwiek wartości zmiennoprzecinczne, a kolumna nie jest typu podzielonego na kategorii, potencjalnie zawiera nieskończoną liczbę wartości.

  • Jeśli kolumna warstwy zawiera wartości logiczne i chcesz je zinterpretować jako podzielone na kategorii, musisz użyć modułu Edytowanie metadanych, aby zmienić etykietę metadanych.

  • Jeśli kolumna warstwy zawiera ciąg lub dane liczbowe ze zbyt wieloma unikatowymi wartościami, ta kolumna nie jest dobrym kandydatem do próbkowania warstwowego.

Więcej informacji na temat próbkowania warstwowego

Próbkowanie warstwowe zapewnia, że podzbiory danych mają reprezentatywne próbkowanie wybranej kolumny warstwy. Ta technika jest przydatna na przykład wtedy, gdy chcesz mieć pewność, że dane treningowe zawierają taki sam rozkład wartości wiekowych, jak dane testowe, lub odwrotnie. Można też rozwarstwieć kolumnę płci w badaniu zdrowotnym, aby zapewnić równomierne dystrybuowanie mężczyzn i kobiet podczas partycjonowania danych. Warstwyfikacja zapewnia, że proporcje wybranych wartości są zachowywane.

Wartości, na których należy oddzielić dane, należy określić, wybierając pojedynczą kolumnę, która będzie służyć jako kolumna warstwy.

Ten moduł wymaga, aby kolumna warstwy była kolumną kategorii. Jeśli chcesz użyć kolumny z wartościami całkowitymi dla warstwy, najlepszym rozwiązaniem jest przypisanie do tej kolumny typu podzielonego na grupy. Można to zrobić za pomocą schematu danych przed dodaniem ich do programu Machine Learning Studio (wersja klasyczna) lub zaktualizować metadane kolumny za pomocą funkcji Edytuj metadane.

Kolumny z danymi ciągłymi (czyli dane liczbowe z wartościami zmiennoprzecinjącymi w każdej komórce) nie mogą być używane jako kolumny warstwy. Jeśli wystąpi błąd, możesz użyć funkcji Grupuj dane w pojemniki, aby podzielić wartości na odrębne zakresy, a następnie użyć funkcji Edytuj metadane, aby zagwarantować, że kolumna będzie traktowana jako podzielone na kategorie.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Zestaw danych do podziału

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Tryb partycji lub próbki Lista Metody próbkowania Próbkowanie Wybieranie partycji lub trybu próbkowania
Używanie zastępowania w partycjonowania Dowolne Wartość logiczna Fałsz Wskaż, czy składanie powinno być rozłączne (wartość domyślna — brak zastępowania) lub nakładające się (true — użyj zamiany)
Podział losowy Dowolne Boolean Prawda Wskazanie, czy podział jest losowy
Iniekt losowy Dowolne Liczba całkowita 0 Określanie ininicjatora dla generatora liczb losowych
Określanie metody partycjonatora Lista Metody partycjonowania Partycjonowanie równomiernie Wybierz pozycję Partition Evenly ( Partycjonuj równomiernie), aby podzielić na składania o równym rozmiarze, lub pozycję Partition with customized proportions to partition into folds of customized size (Partycjonowanie z dostosowanymi proporcjami na składanie o dostosowanym rozmiarze)
Określ liczbę składań do równomiernego podziału na >= 1 Liczba całkowita 5 Wybierz liczbę partycji, na które chcesz podzielić
Podział warstwowy Lista Typ Prawda/Fałsz Fałsz Wskazanie, czy podział jest warstwowy
Kolumna klucza warstwy Dowolne ColumnSelection Zawiera klucz warstwy
Lista proporcji rozdzielonych przecinkami Dowolne Ciąg Lista proporcji rozdzielonych przecinkami
Podział warstwowy w celu dostosowania przypisania składania Dowolne Typ Prawda/Fałsz Fałsz Wskazanie, czy podział jest warstwowany dla dostosowanych przypisań składania
Kolumna klucza warstwy dla dostosowanego przypisania składania Dowolne ColumnSelection Zawiera klucz warstwy dla dostosowanych przypisań składania
Określ, z którego składana ma zostać pobrana próbka >= 1 Liczba całkowita 1 Zawiera indeks składania do próbkowania
Wybieranie uzupełnienia wybranego składania Dowolne Wartość logiczna Fałsz Wybierz uzupełnienie określonego składania
Częstotliwość próbkowania Dowolne Float 0,01 Wybieranie częstotliwości próbkowania
Losowy iniekt do próbkowania Dowolne Liczba całkowita 0 Określanie iniekcjatora dla generatora liczb losowych do próbkowania
Podział warstwowy na próbkowanie Dowolne Prawda/fałsz Fałsz Wskazanie, czy podział jest warstwowany na próbkowanie
Kolumna klucza warstwy do próbkowania Dowolne ColumnSelection Zawiera klucz warstwy do próbkowania
Liczba wierszy do wybrania >= 0 Liczba całkowita 10 Wybierz maksymalną liczbę rekordów, które będą dozwolone do przekazania do następnego modułu

Dane wyjściowe

Nazwa Typ Opis
oDataset Tabela danych Zestaw danych wynikowy z podziału

Zobacz też

Przykład i podział
Dzielenie danych
Edytowanie metadanych
Grupowanie danych w pojemniki