Udostępnij za pośrednictwem


Konwertowanie na zestaw danych

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Konwertuje dane wejściowe na wewnętrzny format zestawu danych używany przez usługę Microsoft Machine Learning

Kategoria: Konwersje formatu danych

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu Konwertuj na zestaw danych w programie Machine Learning Studio (wersja klasyczna) w celu przekonwertowania dowolnych danych, które mogą być potrzebne do eksperymentu, na format wewnętrzny używany przez program Studio (klasyczny).

Konwersja nie jest wymagana w większości przypadków, ponieważ Machine Learning niejawnie konwertuje dane na ich natywny format zestawu danych, gdy na danych jest wykonywana dowolna operacja.

Jednak zapisywanie danych w formacie zestawu danych jest zalecane, jeśli wykonano pewnego rodzaju normalizację lub czyszczenie zestawu danych i chcesz mieć pewność, że zmiany zostaną użyte w dalszych eksperymentach.

Uwaga

Konwersja na zestaw danych zmienia tylko format danych i nie zapisuje nowej kopii danych w obszarze roboczym. Aby zapisać zestaw danych, kliknij dwukrotnie port wyjściowy, wybierz pozycję Zapisz jako zestaw danych i wpisz nową nazwę.

Jak używać funkcji Konwertuj na zestaw danych

Zalecamy przygotowanie zestawu danych przed użyciem funkcji Konwertuj na zestaw danych za pomocą modułu Edytowanie metadanych. Nazwy kolumn można dodawać lub zmieniać, dostosowywać typy danych itd.

  1. Dodaj moduł Convert to Dataset (Konwertuj na zestaw danych) do eksperymentu. Ten moduł można znaleźć w kategorii Konwersje formatu danych w programie Machine Learning Studio (wersja klasyczna).

  2. Połączenie do dowolnego modułu, który wyprowadza zestaw danych.

    Tak długo, jak dane są tabelaryka, można przekonwertować je na zestaw danych. Obejmuje to dane ładowane przy użyciu funkcji Importuj dane, dane utworzone przy użyciu ręcznego wprowadzania danych, dane wygenerowane przez kod w modułach niestandardowych, zestawy danych przekształcone przy użyciu funkcji Zastosuj przekształcenie lub zestawy danych, które zostały wygenerowane lub zmodyfikowane przy użyciu funkcji Zastosuj SQL Transformation.

  3. Na liście rozwijanej Akcja wskaż, czy chcesz wyczyścić dane przed zapisaniem zestawu danych:

    • Brak: użyj danych bez żadnych danych.

    • SetMissingValue: określ symbol zastępczy wstawiany do zestawu danych wszędzie tam, gdzie brakuje wartości. Domyślnym symbolem zastępczym jest znak zapytania (?), ale możesz użyć opcji Niestandardowa brakująca wartość, aby wpisać inną wartość.

    • ReplaceValues: użyj tej opcji, aby określić dokładną wartość, która ma zostać zastąpiona dowolną inną dokładną wartością. Na przykład przy założeniu, że dane zawierają ciąg obs używany jako symbol zastępczy brakujących wartości, można określić niestandardową operację zastępowania przy użyciu tych opcji:

      1. Ustaw wartość zamień na niestandardową

      2. W przypadku wartości niestandardowej wpisz wartość, którą chcesz znaleźć. W tym przypadku należy wpisać .obs

      3. W przypadku wartości Nowa wpisz nową wartość, aby zastąpić oryginalny ciąg ciągiem . W takim przypadku możesz wpisać ?

    Należy pamiętać, że operacja ReplaceValues ma zastosowanie tylko do dokładnych dopasowania. Na przykład nie będzie to miało wpływu na następujące ciągi: obs., obsolete.

    • SparseOutput: wskazuje, że zestaw danych jest rozrzedny. Tworząc rozrzedny wektor danych, można się upewnić, że brakujące wartości nie wpływają na rozrzedną dystrybucję danych. Po wybraniu tej opcji należy wskazać sposób obsługi brakujących wartości i wartości zerowych.

    Aby usunąć dowolną wartość inną niż zero, kliknij opcję Usuń i wpisz pojedynczą wartość do usunięcia. Możesz usunąć brakujące wartości lub ustawić wartość niestandardową do usunięcia z wektora. Zostaną usunięte tylko dokładne dopasowania. Na przykład wpisanie w x polu tekstowym Usuńxx wartość nie będzie miało wpływu na wiersz.

    Domyślnie opcja Usuń Truezera jest ustawiona na wartość , co oznacza, że wszystkie wartości zerowe są usuwane po utworzeniu kolumny rozrzedowej.

  4. Uruchom eksperyment lub kliknij prawym przyciskiem myszy moduł Konwertuj na zestaw danych i wybierz pozycję Uruchom wybraną.

Wyniki

  • Aby zapisać wynikowy zestaw danych pod nową nazwą, kliknij prawym przyciskiem myszy dane wyjściowe konwertuj na zestaw danych i wybierzpolecenie Zapisz jako zestaw danych.

Przykłady

Możesz zobaczyć przykłady sposobu, w jaki moduł Konwertuj na zestaw danych jest używany w Azure AI Gallery:

  • Przykład CRM: odczytuje z udostępnionego zestawu danych i zapisuje kopię zestawu danych w lokalnym obszarze roboczym.

  • Przykład opóźnienia lotu: zapisuje zestaw danych, który został wyczyszczony przez zastąpienie brakujących wartości, aby można było ich używać w przyszłych eksperymentach.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

  • Każdy moduł, który przyjmuje zestaw danych jako dane wejściowe, może również pobierać dane w formatach CSV, TSV lub ARFF. Przed wykonaniem kodu modułu wykonywane jest wstępne przetwarzanie danych wejściowych, co jest równoważne uruchomieniu modułu Convert to Dataset (Konwertuj na zestaw danych) dla danych wejściowych.

  • Nie można przekonwertować formatu SVMLight na zestaw danych.

  • Podczas określania niestandardowej operacji zastępowania operacja wyszukiwania i zastępowania ma zastosowanie do pełnych wartości; częściowe dopasowania nie są dozwolone. Na przykład można zastąpić cyfrę 3 cyfrą -1 lub cyfrą 33, ale nie można zastąpić cyfry 3 cyfrą dwucyfrową, taką jak 35.

  • W przypadku niestandardowych operacji zastępowania zamiana nie powiedzie się w trybie dyskretnym, jeśli użyjemy jako zamiennika dowolnego znaku, który nie jest zgodny z bieżącym typem danych kolumny.

  • Jeśli musisz zapisać dane, które wykorzystują dane liczbowe, które są rozrzednione i mają brakujące wartości, wewnętrznie program Studio (klasyczny) obsługuje tablice rozrzednione przy użyciu funkcji SparseVector, która jest klasą w bibliotece Math.NET numerycznej. Przygotuj dane, które używają zer i ma brakujące wartości, a następnie użyj polecenia Konwertuj na zestaw danych z argumentami SparseOutput i Remove Zeros = TRUE.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Akcja Lista Action, metoda Brak Akcja do zastosowania do wejściowego zestawu danych

Dane wyjściowe

Nazwa Typ Opis
Zestaw danych wyników Tabela danych Wyjściowy zestaw danych

Zobacz też

Konwersje formatu danych
Lista modułów A–Z