Edytowanie składnika metadanych
W tym artykule opisano składnik zawarty w projektancie usługi Azure Machine Learning.
Użyj składnika Edytuj metadane, aby zmienić metadane skojarzone z kolumnami w zestawie danych. Wartość i typ danych zestawu danych zmienią się po użyciu składnika Edytuj metadane.
Typowe zmiany metadanych mogą obejmować:
Traktowanie kolumn logicznych lub liczbowych jako wartości kategorii.
Wskazuje, która kolumna zawiera etykietę klasy lub zawiera wartości, które chcesz kategoryzować lub przewidywać.
Oznaczanie kolumn jako funkcji.
Zmiana wartości daty/godziny na wartości liczbowe lub odwrotnie.
Zmienianie nazw kolumn.
Użyj opcji Edytuj metadane w dowolnym momencie, aby zmodyfikować definicję kolumny, zazwyczaj w celu spełnienia wymagań dotyczących składnika podrzędnego. Na przykład niektóre składniki działają tylko z określonymi typami danych lub wymagają flag w kolumnach, takich jak IsFeature
lub IsCategorical
.
Po wykonaniu wymaganej operacji można zresetować metadane do stanu pierwotnego.
Konfigurowanie edycji metadanych
W projektancie usługi Azure Machine Learning dodaj składnik Edytuj metadane do potoku i połącz zestaw danych, który chcesz zaktualizować. Składnik można znaleźć w kategorii Przekształcanie danych.
Kliknij pozycję Edytuj kolumnę w prawym panelu składnika i wybierz kolumnę lub zestaw kolumn do pracy. Możesz wybrać kolumny indywidualnie według nazwy lub indeksu lub wybrać grupę kolumn według typu.
Wybierz opcję Typ danych, jeśli chcesz przypisać inny typ danych do wybranych kolumn. Może być konieczne zmianę typu danych dla niektórych operacji. Jeśli na przykład źródłowy zestaw danych zawiera liczby obsługiwane jako tekst, musisz zmienić je na typ danych liczbowych przed użyciem operacji matematycznych.
Obsługiwane typy danych to String, Integer, Double, Boolean i DateTime.
W przypadku wybrania wielu kolumn należy zastosować zmiany metadanych do wszystkich wybranych kolumn. Załóżmy na przykład, że wybierzesz dwie lub trzy kolumny liczbowe. Można je zmienić na typ danych ciągu i zmienić ich nazwę w jednej operacji. Nie można jednak zmienić jednej kolumny na typ danych ciągu i inną kolumnę z liczby zmiennoprzecinkowej na liczbę całkowitą.
Jeśli nie określisz nowego typu danych, metadane kolumny pozostaną niezmienione.
Typ i wartości kolumny zostaną zmienione po wykonaniu operacji Edytuj metadane. Oryginalny typ danych można odzyskać w dowolnym momencie, używając opcji Edytuj metadane, aby zresetować typ danych kolumny.
Uwaga
Format DateTime jest zgodny z wbudowanym formatem daty/godziny języka Python.
Jeśli zmienisz dowolny typ liczby na typ DateTime , pozostaw puste pole Format daty/godziny. Obecnie nie można określić docelowego formatu danych.Wybierz opcję Kategoria, aby określić, że wartości w wybranych kolumnach powinny być traktowane jako kategorie.
Na przykład może istnieć kolumna zawierająca liczby 0, 1 i 2, ale wiesz, że liczby w rzeczywistości oznaczają "Palacz", "Niepalące" i "Nieznane". W takim przypadku, flagując kolumnę jako kategorię, upewnij się, że wartości są używane tylko do grupowania danych, a nie w obliczeniach liczbowych.
Użyj opcji Pola, jeśli chcesz zmienić sposób, w jaki usługa Azure Machine Learning używa danych w modelu.
Funkcja: użyj tej opcji, aby oznaczyć kolumnę jako funkcję w składnikach, które działają tylko na kolumnach funkcji. Domyślnie wszystkie kolumny są początkowo traktowane jako funkcje.
Etykieta: użyj tej opcji, aby oznaczyć etykietę, która jest również nazywana przewidywalnym atrybutem lub zmienną docelową. Wiele składników wymaga, aby w zestawie danych znajduje się dokładnie jedna kolumna etykiety.
W wielu przypadkach usługa Azure Machine Learning może wnioskować, że kolumna zawiera etykietę klasy. Ustawiając te metadane, możesz upewnić się, że kolumna jest prawidłowo identyfikowana. Ustawienie tej opcji nie powoduje zmiany wartości danych. Zmienia to tylko sposób, w jaki niektóre algorytmy uczenia maszynowego obsługują dane.
Napiwek
Czy masz dane, które nie mieszczą się w tych kategoriach? Na przykład zestaw danych może zawierać wartości, takie jak unikatowe identyfikatory, które nie są przydatne jako zmienne. Czasami takie identyfikatory mogą powodować problemy w przypadku użycia w modelu.
Na szczęście usługa Azure Machine Learning przechowuje wszystkie dane, dzięki czemu nie trzeba usuwać takich kolumn z zestawu danych. Jeśli musisz wykonać operacje na specjalnym zestawie kolumn, po prostu tymczasowo usuń wszystkie inne kolumny przy użyciu składnika Select Columns in Dataset (Wybieranie kolumn w zestawie danych ). Później możesz scalić kolumny z powrotem do zestawu danych przy użyciu składnika Dodaj kolumny .
Użyj poniższych opcji, aby wyczyścić poprzednie wybory i przywrócić metadane do wartości domyślnych.
Wyczyść funkcję: użyj tej opcji, aby usunąć flagę funkcji.
Wszystkie kolumny są początkowo traktowane jako funkcje. W przypadku składników wykonujących operacje matematyczne może być konieczne użycie tej opcji, aby zapobiec traktowaniu kolumn liczbowych jako zmiennych.
Wyczyść etykietę: użyj tej opcji, aby usunąć metadane etykiety z określonej kolumny.
Wyczyść wynik: użyj tej opcji, aby usunąć metadane oceny z określonej kolumny.
Obecnie nie można jawnie oznaczyć kolumny jako wyniku w usłudze Azure Machine Learning. Jednak niektóre operacje powodują, że kolumna jest oflagowana wewnętrznie jako wynik. Ponadto niestandardowy składnik języka R może zwracać wartości wyników.
W polu Nowe nazwy kolumn wprowadź nową nazwę wybranej kolumny lub kolumn.
Nazwy kolumn mogą używać tylko znaków obsługiwanych przez kodowanie UTF-8. Puste ciągi, wartości null lub nazwy składające się całkowicie z spacji nie są dozwolone.
Aby zmienić nazwę wielu kolumn, wprowadź nazwy jako listę rozdzielaną przecinkami w kolejności indeksów kolumn.
Wszystkie wybrane kolumny muszą zostać zmienione. Nie można pominąć ani pominąć kolumn.
Prześlij potok.
Następne kroki
Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.