Przekształcanie danych w projektancie usługi Azure Machine Learning

Artykuł
09/01/2024

Z tego artykułu dowiesz się, jak przekształcać i zapisywać zestawy danych w projektancie usługi Azure Machine Learning, aby przygotować własne dane do uczenia maszynowego.

Użyjesz przykładowego zestawu danych klasyfikacji binarnej spisu osób dorosłych, aby przygotować dwa zestawy danych: jeden zestaw danych zawierający informacje o spisie dla dorosłych tylko z Stany Zjednoczone, a drugi zestaw danych zawierający informacje spisowe od dorosłych innych niż USA.

Ten artykuł obejmuje następujące zagadnienia:

Przekształć zestaw danych, aby przygotować go do trenowania.
Wyeksportuj wynikowe zestawy danych do magazynu danych.
Wyświetl wyniki.

Ten artykuł z instrukcjami jest wymaganiem wstępnym dotyczącym sposobu ponownego trenowania modeli projektanta . W tym artykule dowiesz się, jak używać przekształconych zestawów danych do trenowania wielu modeli przy użyciu parametrów potoku.

Ważne

Jeśli nie obserwujesz elementów graficznych wymienionych w tym dokumencie, takich jak przyciski w studio lub projektancie, być może nie masz odpowiedniego poziomu uprawnień do obszaru roboczego. Skontaktuj się z administratorem subskrypcji platformy Azure, aby sprawdzić, czy udzielono Ci poprawnego poziomu dostępu. Aby uzyskać więcej informacji, zobacz Zarządzanie użytkownikami i rolami.

Przekształcanie zestawu danych

W tej sekcji dowiesz się, jak zaimportować przykładowy zestaw danych i podzielić dane na zestawy danych amerykańskich i innych niż USA. Odwiedź stronę importowania danych , aby uzyskać więcej informacji na temat importowania własnych danych do projektanta.

Importuj dane

Wykonaj następujące kroki, aby zaimportować przykładowy zestaw danych:

Zaloguj się do usługi Azure Machine Learning Studio i wybierz obszar roboczy, którego chcesz użyć
Przejdź do projektanta. Wybierz pozycję Utwórz nowy potok przy użyciu klasycznych wstępnie utworzonych składników , aby utworzyć nowy potok
Po lewej stronie kanwy potoku na karcie Składnik rozwiń węzeł Przykładowe dane
Przeciągnij i upuść zestaw danych klasyfikacji Danych binarnych o dochodach dla dorosłych na kanwę
Wybierz prawym przyciskiem pozycję Składnik zestawu danych Adult Census Income i wybierz pozycję Podgląd danych
Użyj okna podglądu danych, aby eksplorować zestaw danych. Zanotuj specjalne wartości kolumn "native-country"

Dzielenie danych

W tej sekcji użyjesz składnika Split Data (Podział danych), aby zidentyfikować i podzielić wiersze zawierające kolumnę "Stany Zjednoczone" w kolumnie "native-country"

Po lewej stronie kanwy na karcie składnik rozwiń sekcję Przekształcanie danych i znajdź składnik Split Data (Podział danych).
Przeciągnij składnik Split Data (Podział danych) na kanwę i upuść ten składnik poniżej składnika zestawu danych
Łączenie składnika zestawu danych ze składnikiem Split Data
Wybierz składnik Split Data (Podział danych), aby otworzyć okienko Split Data (Podział danych)
Po prawej stronie kanwy na ikonie Parametry ustaw tryb podziału na Wyrażenie regularne
Wprowadź wyrażenie regularne:\"native-country" United-States

Tryb wyrażenia regularnego testuje pojedynczą kolumnę dla wartości. Odwiedź stronę referencyjną powiązanego składnika algorytmu, aby uzyskać więcej informacji na temat składnika Split Data

Potok powinien wyglądać podobnie do tego zrzutu ekranu:

Zrzut ekranu przedstawiający sposób konfigurowania potoku i składnika Split Data

Zapisywanie zestawów danych

Po skonfigurowaniu potoku w celu podzielenia danych należy określić, gdzie mają być utrwalane zestawy danych. W tym przykładzie użyj składnika Eksportuj dane , aby zapisać zestaw danych w magazynie danych. Aby uzyskać więcej informacji na temat magazynów danych, odwiedź stronę Nawiązywanie połączenia z usługami Azure Storage.

Po lewej stronie kanwy na palecie składników rozwiń sekcję Dane wejściowe i wyjściowe i znajdź składnik Eksportuj dane
Przeciągnij i upuść dwa składniki eksportu danych poniżej składnika Split Data
Łączenie każdego portu wyjściowego składnika Split Data z innym składnikiem Eksportuj dane

Potok powinien wyglądać podobnie do następującego:
Wybierz składnik Eksportuj dane połączony z lewym portem składnika Split Data (Podział danych), aby otworzyć okienko Eksportowanie danych

W przypadku składnika Split Data kolejność portów wyjściowych jest ważna. Pierwszy port wyjściowy zawiera wiersze, w których wyrażenie regularne ma wartość true. W tym przypadku pierwszy port zawiera wiersze dochodu opartego na Stanach Zjednoczonych, a drugi port zawiera wiersze dla dochodu innego niż USA
W okienku szczegółów składnika po prawej stronie kanwy ustaw następujące opcje:

Typ magazynu danych: Azure Blob Storage

Magazyn danych: wybierz istniejący magazyn danych lub wybierz pozycję "Nowy magazyn danych", aby utworzyć nowy magazyn danych

Ścieżka: /data/us-income

Format pliku: csv

Uwaga

W tym artykule założono, że masz dostęp do magazynu danych zarejestrowanego w bieżącym obszarze roboczym usługi Azure Machine Learning. Aby uzyskać instrukcje dotyczące konfigurowania magazynu danych, odwiedź stronę Nawiązywanie połączenia z usługami Azure Storage

Jeśli nie masz go teraz, możesz utworzyć magazyn danych. Na przykład ten artykuł zapisuje zestawy danych na domyślnym koncie magazynu obiektów blob skojarzonym z obszarem roboczym. Zapisuje zestawy danych w kontenerze azureml w nowym folderze o nazwie data
Wybierz składnik Eksportuj dane połączony z prawym portem składnika Split Data (Podział danych), aby otworzyć okienko Eksportowanie danych
Po prawej stronie kanwy w okienku szczegółów składnika ustaw następujące opcje:

Typ magazynu danych: Azure Blob Storage

Magazyn danych: wybierz wcześniejszy magazyn danych

Ścieżka: /data/non-us-income

Format pliku: csv
Sprawdź, czy składnik Eksportuj dane połączony z lewym portem podzielonych danych ma ścieżkę /data/us-income
Sprawdź, czy składnik Eksportuj dane połączony z właściwym portem ma ścieżkę /data/non-us-income

Potok i ustawienia powinny wyglądać następująco:

Przesyłanie zadania

Po skonfigurowaniu potoku w celu podzielenia i wyeksportowania danych prześlij zadanie potoku.

Wybierz pozycję Konfiguruj i prześlij w górnej części kanwy
Wybierz opcję Utwórz nową w okienku Podstawowe zadania potoku, aby utworzyć eksperyment

Eksperymenty logicznie grupują powiązane zadania potoku. Jeśli uruchomisz ten potok w przyszłości, użyj tego samego eksperymentu do celów rejestrowania i śledzenia
Podaj opisową nazwę eksperymentu — na przykład "split-census-data"
Wybierz pozycję Przejrzyj i prześlij, a następnie wybierz pozycję Prześlij.

Wyświetlanie wyników

Po zakończeniu działania potoku możesz przejść do magazynu obiektów blob w witrynie Azure Portal, aby wyświetlić wyniki. Możesz również wyświetlić wyniki pośrednie składnika Split Data ( Podział danych ), aby potwierdzić, że dane są prawidłowo podzielone.

Wybierz składnik Split Data (Podział danych)
W okienku szczegółów składnika po prawej stronie kanwy wybierz kartę Dane wyjściowe i dzienniki
Wybierz listę rozwijaną Pokaż dane wyjściowe
Wybierz ikonę wizualizacji obok pozycji Zestaw danych wyników1
Sprawdź, czy kolumna "native-country" zawiera tylko wartość "Stany Zjednoczone"
Wybierz ikonę wizualizacji obok pozycji Zestaw danych wyników2
Sprawdź, czy kolumna "native-country" nie zawiera wartości "Stany Zjednoczone"

Czyszczenie zasobów

Aby kontynuować pracę z drugą częścią tego ponownego trenowania modeli za pomocą projektanta usługi Azure Machine Learning, pomiń tę sekcję.

Ważne

Możesz użyć zasobów utworzonych jako wymagania wstępne dla innych samouczków usługi Azure Machine Learning i artykułów z instrukcjami.

Usuń wszystko

Jeśli nie planujesz używać utworzonych elementów, usuń całą grupę zasobów, aby nie ponosić żadnych opłat.

W witrynie Azure Portal wybierz pozycję Grupy zasobów po lewej stronie okna.
Na liście wybierz utworzoną grupę zasobów.
Wybierz pozycję Usuń grupę zasobów.

Usunięcie grupy zasobów powoduje również usunięcie wszystkich zasobów utworzonych w projektancie.

Usuwanie pojedynczych zasobów

W projektancie, w którym utworzono eksperyment, usuń poszczególne zasoby, wybierając je, a następnie wybierając przycisk Usuń .

Docelowy obiekt obliczeniowy utworzony w tym miejscu automatycznie skaluje się do zera węzłów, gdy nie jest używany. Ta akcja jest podejmowana w celu zminimalizowania opłat. Jeśli chcesz usunąć docelowy obiekt obliczeniowy, wykonaj następujące kroki:

Usuwanie zasobów

Zestawy danych można wyrejestrować z obszaru roboczego, wybierając każdy zestaw danych i wybierając pozycję Wyrejestruj.

Wyrejestrowywanie zestawu danych

Aby usunąć zestaw danych, przejdź do konta magazynu przy użyciu witryny Azure Portal lub Eksplorator usługi Azure Storage i ręcznie usuń te zasoby.

Następne kroki

W tym artykule przedstawiono sposób przekształcania zestawu danych i zapisywania go w zarejestrowanym magazynie danych.

Przejdź do następnej części tej serii instrukcji z użyciem funkcji Ponowne trenowanie modeli za pomocą projektanta usługi Azure Machine Learning, aby użyć przekształconych zestawów danych i parametrów potoku do trenowania modeli uczenia maszynowego.

Udostępnij za pośrednictwem