Konwertowanie na wartości wskaźnika

W tym artykule opisano składnik projektanta usługi Azure Machine Edukacja.

Użyj składnika Konwertuj na wartości wskaźnika w projektancie usługi Azure Machine Edukacja, aby przekonwertować kolumny zawierające wartości kategorii na serię kolumn wskaźników binarnych.

Operacja Konwertuj na wartości wskaźnika umożliwia konwersję danych kategorii na wartości wskaźnika reprezentowane przez binarne lub wiele wartości. Ten proces jest jednym z kroków przetwarzania wstępnego danych, które są często używane dla modeli klasyfikacji.

Ten składnik generuje również definicję przekształcenia używanego do konwersji na wartości wskaźnika. Możesz ponownie użyć tej transformacji w innych zestawach danych, które mają ten sam schemat, przy użyciu składnika Zastosuj transformację.

Jak skonfigurować konwertowanie na wartości wskaźnika

  1. Znajdź pozycję Konwertuj na wartości wskaźnika i przeciągnij ją do wersji roboczej potoku. Ten składnik można znaleźć w kategorii Przekształcanie danych.

    Uwaga

    Składnik Edit Metadata (Edytuj metadane) można użyć przed składnikiem Convert to Indiciator Values (Konwertuj na wartości indykiatora), aby oznaczyć kolumny docelowe jako kategorialne.

  2. PołączeniePrzekonwertuj na składnik Wartości wskaźnika do zestawu danych zawierającego kolumny, które chcesz przekonwertować.

  3. Wybierz pozycję Edytuj kolumnę , aby wybrać co najmniej jedną kolumnę kategorii.

  4. Wybierz opcję Zastąp kolumny kategorii, jeśli chcesz wyświetlić tylko nowe kolumny logiczne. Domyślnie ta opcja jest wyłączona.

    Napiwek

    Jeśli wybierzesz opcję zastąpienia, kolumna źródłowa nie zostanie faktycznie usunięta ani zmodyfikowana. Zamiast tego nowe kolumny są generowane i prezentowane w wyjściowym zestawie danych, a kolumna źródłowa pozostaje dostępna w obszarze roboczym. Jeśli chcesz zobaczyć oryginalne dane, możesz użyć składnika Dodaj kolumny w dowolnym momencie, aby dodać kolumnę źródłową z powrotem.

  5. Prześlij potok.

Wyniki

Załóżmy, że masz kolumnę z wynikami wskazującymi, czy serwer ma wysokie, średnie lub niskie prawdopodobieństwo awarii.

Identyfikator serwera Wynik błędu
10301 Niski
10302 Śred.
10303 Wys.

Po zastosowaniu funkcji Konwertuj na wartości wskaźnika projektant konwertuje pojedynczą kolumnę etykiet na wiele kolumn zawierających wartości logiczne:

Identyfikator serwera Wynik niepowodzenia — niski Wynik niepowodzenia — średni rozmiar Wynik błędu — wysoki
10301 1 0 0
10302 0 1 0
10303 0 0 1

Oto jak działa konwersja:

  • W kolumnie Ocena błędu opisującego ryzyko istnieją tylko trzy możliwe wartości (Wysoka, Średnia i Niska) i brak brakujących wartości. Dlatego tworzone są dokładnie trzy nowe kolumny.

  • Nowe kolumny wskaźnika są nazwane na podstawie nagłówków kolumn i wartości kolumny źródłowej przy użyciu tego wzorca: <kolumna> źródłowa — <wartość> danych.

  • Kolumna wskaźnika powinna zawierać wartość 1 w dokładnie jednej kolumnie wskaźnika, a 0 we wszystkich innych kolumnach wskaźników, ponieważ każdy serwer może mieć tylko jedną ocenę ryzyka.

Teraz możesz użyć trzech kolumn wskaźników jako funkcji w modelu uczenia maszynowego.

Składnik zwraca dwa dane wyjściowe:

  • Zestaw danych wyników: zestaw danych z przekonwertowanymi kolumnami wartości wskaźnika. Kolumny, które nie są zaznaczone do czyszczenia, są również "przekazywane".
  • Przekształcanie wartości wskaźnika: przekształcenie danych używane do konwertowania na wartości wskaźnika, które można zapisać w obszarze roboczym i zastosować do nowych danych później.

Stosowanie zapisanej operacji wartości wskaźnika do nowych danych

Jeśli często trzeba powtarzać operacje wartości wskaźników, możesz zapisać kroki manipulowania danymi jako przekształcenie, aby użyć go ponownie z tym samym zestawem danych. Jest to przydatne, jeśli często trzeba ponownie importować, a następnie czyścić dane, które mają ten sam schemat.

  1. Dodaj składnik Zastosuj transformację do potoku.

  2. Dodaj zestaw danych, który chcesz wyczyścić, i połącz zestaw danych z portem wejściowym po prawej stronie.

  3. Rozwiń grupę Przekształcanie danych w okienku po lewej stronie projektanta. Znajdź zapisaną transformację i przeciągnij ją do potoku.

  4. Połączenie zapisane przekształcenie na lewym porcie wejściowym Zastosuj przekształcenie.

    Po zastosowaniu zapisanego przekształcenia nie można wybrać kolumn do przekształcenia. Wynika to z faktu, że transformacja została zdefiniowana i jest stosowana automatycznie do typów danych określonych w oryginalnej operacji.

  5. Prześlij potok.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Porady dotyczące użycia

  • Tylko kolumny oznaczone jako kategorialne można przekonwertować na kolumny wskaźników. Jeśli zostanie wyświetlony następujący błąd, prawdopodobnie jedna z wybranych kolumn nie jest kategoryczna:

    Błąd 0056: Kolumna o nazwie <nazwa> kolumny nie znajduje się w dozwolonej kategorii.

    Domyślnie większość kolumn ciągów jest obsługiwana jako funkcje ciągu, dlatego należy jawnie oznaczyć je jako kategorialne przy użyciu funkcji Edytuj metadane.

  • Nie ma limitu liczby kolumn, które można przekonwertować na kolumny wskaźników. Jednak ze względu na to, że każda kolumna wartości może zwracać wiele kolumn wskaźników, możesz przekonwertować i przejrzeć tylko kilka kolumn naraz.

  • Jeśli kolumna zawiera brakujące wartości, zostanie utworzona oddzielna kolumna wskaźnika dla brakującej kategorii z następującą nazwą: <kolumna> źródłowa — Brak

  • Jeśli kolumna przekonwertowana na wartości wskaźnika zawiera liczby, muszą być oznaczone jako kategorialne, jak każda inna kolumna funkcji. Po wykonaniu tych czynności liczby są traktowane jako wartości dyskretne. Jeśli na przykład masz kolumnę liczbową z wartościami MPG od 25 do 30, dla każdej wartości dyskretnej zostanie utworzona nowa kolumna wskaźnika:

    Tworzenie Autostrada mpg -25 Autostrada mpg -26 Autostrada mpg -27 Autostrada mpg -28 Autostrada mpg -29 Autostrada mpg -30
    Contoso Cars 0 0 0 0 0 1
  • Aby uniknąć dodawania zbyt wielu wymiarów do zestawu danych. Zalecamy, aby najpierw sprawdzić liczbę wartości w kolumnie oraz odpowiednio pojemnik lub kwantyzować dane.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Edukacja.