Samouczek: trenowanie modelu klasyfikacji bez kodu w języku AutoML w Azure Machine Learning studio

Dowiedz się, jak trenować model klasyfikacji bez kodu AutoML przy użyciu zautomatyzowanego uczenia maszynowego usługi Azure Machine Learning w Azure Machine Learning studio. Ten model klasyfikacji przewiduje, że klient zasubskrybuje depozyt terminowy z instytucją finansową.

Dzięki zautomatyzowanemu uczeniu maszynowemu można zautomatyzować zadania wymagające dużej ilości czasu. Zautomatyzowane uczenie maszynowe szybko iteruje wiele kombinacji algorytmów i hiperparametrów, aby ułatwić znalezienie najlepszego modelu na podstawie wybranej metryki sukcesu.

W tym samouczku nie napiszesz żadnego kodu. Do przeprowadzenia trenowania użyjesz interfejsu studio. Dowiesz się, jak wykonywać następujące zadania:

  • Tworzenie obszaru roboczego usługi Azure Machine Learning.
  • Uruchamianie eksperymentu zautomatyzowanego uczenia maszynowego.
  • Eksplorowanie szczegółów modelu.
  • Wdróż zalecany model.

Wypróbuj również zautomatyzowane uczenie maszynowe dla następujących innych typów modeli:

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, utwórz bezpłatne konto.

  • Pobierz plik danych bankmarketing_train.csv . Kolumna y wskazuje, czy klient zasubskrybował depozyt terminowy, który później został zidentyfikowany jako kolumna docelowa przewidywania w tym samouczku.

Tworzenie obszaru roboczego

Obszar roboczy usługi Azure Machine Learning to podstawowy zasób w chmurze używany do eksperymentowania, trenowania i wdrażania modeli uczenia maszynowego. Łączy ona subskrypcję platformy Azure i grupę zasobów z łatwo używanym obiektem w usłudze.

Istnieje wiele sposobów tworzenia obszaru roboczego. W tym samouczku utworzysz obszar roboczy za pomocą Azure Portal konsoli internetowej do zarządzania zasobami platformy Azure.

  1. Zaloguj się do Azure Portal przy użyciu poświadczeń subskrypcji platformy Azure.

  2. W lewym górnym rogu Azure Portal wybierz trzy paski, a następnie pozycję + Utwórz zasób.

    Zrzut ekranu przedstawiający pozycję + Utwórz zasób.

  3. Użyj paska wyszukiwania, aby znaleźć usługę Azure Machine Learning.

  4. Wybierz pozycję Azure Machine Learning.

    Zrzut ekranu przedstawia wyniki wyszukiwania, aby wybrać pozycję Machine Learning.

  5. W okienku Machine Learning wybierz pozycję Utwórz , aby rozpocząć.

  6. Podaj następujące informacje, aby skonfigurować nowy obszar roboczy:

    Pole Opis
    Nazwa obszaru roboczego Wprowadź unikatową nazwę identyfikującą obszar roboczy. W tym przykładzie używamy dokumentów docs-ws. Nazwy muszą być unikatowe w całej grupie zasobów. Użyj nazwy, która jest łatwa do przywoływania i rozróżniania obszarów roboczych utworzonych przez inne osoby.
    Subskrypcja Wybierz subskrypcję platformy Azure, której chcesz użyć.
    Grupa zasobów Użyj istniejącej grupy zasobów w subskrypcji lub wprowadź nazwę, aby utworzyć nową grupę zasobów. Grupa zasobów przechowuje powiązane zasoby dla rozwiązania platformy Azure. W tym przykładzie używamy pliku docs-aml.
    Region (Region) Wybierz lokalizację znajdującą się najbliżej użytkowników i zasoby danych, aby utworzyć obszar roboczy.
    Konto magazynu Konto magazynu jest używane jako domyślny magazyn danych dla obszaru roboczego. Możesz utworzyć nowy zasób usługi Azure Storage lub wybrać istniejący zasób w subskrypcji.
    Magazyn kluczy Magazyn kluczy służy do przechowywania wpisów tajnych i innych poufnych informacji potrzebnych przez obszar roboczy. Możesz utworzyć nowy zasób usługi Azure Key Vault lub wybrać istniejący zasób w subskrypcji.
    Application Insights Obszar roboczy używa aplikacja systemu Azure Insights do przechowywania informacji monitorowania dotyczących wdrożonych modeli. Możesz utworzyć nowy zasób usługi aplikacja systemu Azure Insights lub wybrać istniejący zasób w subskrypcji.
    Rejestr kontenerów Rejestr kontenerów służy do rejestrowania obrazów platformy Docker używanych w szkoleniach i wdrożeniach. Możesz utworzyć zasób lub wybrać istniejący w subskrypcji.
  7. Po zakończeniu konfigurowania obszaru roboczego wybierz pozycję Przejrzyj i utwórz.

  8. Wybierz pozycję Utwórz , aby utworzyć obszar roboczy.

    Ostrzeżenie

    Utworzenie obszaru roboczego w chmurze może potrwać kilka minut.

    Po zakończeniu procesu zostanie wyświetlony komunikat o powodzeniu wdrożenia.

  9. Aby wyświetlić nowy obszar roboczy, wybierz pozycję Przejdź do zasobu.

  10. W widoku portalu obszaru roboczego wybierz pozycję Uruchom studio, aby przejść do Azure Machine Learning studio.

Ważne

Zanotuj obszar roboczy i subskrypcję. Będą one potrzebne, aby upewnić się, że utworzysz eksperyment w odpowiednim miejscu.

Zaloguj się do studia

Wykonasz następujące kroki konfigurowania i uruchamiania eksperymentu za pośrednictwem Azure Machine Learning studio w https://ml.azure.comwitrynie , skonsolidowanego interfejsu internetowego, który zawiera narzędzia uczenia maszynowego do wykonywania scenariuszy nauki o danych dla praktyków nauki o danych na wszystkich poziomach umiejętności. Program Studio nie jest obsługiwany w przeglądarkach programu Internet Explorer.

  1. Zaloguj się do Azure Machine Learning studio.

  2. Wybierz subskrypcję i utworzony obszar roboczy.

  3. Wybierz pozycję Rozpocznij.

  4. W okienku po lewej stronie wybierz pozycję Zautomatyzowane uczenie maszynowe w sekcji Autor .

    Ponieważ jest to pierwszy eksperyment zautomatyzowanego uczenia maszynowego, zobaczysz pustą listę i linki do dokumentacji.

    Strona Wprowadzenie

  5. Wybierz pozycję +Nowe zadanie zautomatyzowanego uczenia maszynowego.

Tworzenie i ładowanie zestawu danych

Przed skonfigurowaniem eksperymentu przekaż plik danych do obszaru roboczego w postaci zestawu danych usługi Azure Machine Learning. Dzięki temu można upewnić się, że dane są odpowiednio sformatowane dla eksperymentu.

  1. Utwórz nowy zestaw danych, wybierając pozycję Z plików lokalnych z listy rozwijanej +Utwórz zestaw danych .

    1. W formularzu Informacje podstawowe podaj nazwę zestawu danych i podaj opcjonalny opis. Interfejs zautomatyzowanego uczenia maszynowego obsługuje obecnie tylko zestawy danych tabelarycznych, więc typ zestawu danych powinien być domyślny dla tabeli.

    2. Wybierz pozycję Dalej w lewym dolnym rogu

    3. W formularzu Wyboru magazynu danych i pliku wybierz domyślny magazyn danych, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego, workspaceblobstore (Azure Blob Storage). W tym miejscu przekażesz plik danych, aby udostępnić go obszarowi roboczemu.

    4. Wybierz pozycję Przekaż pliki z listy rozwijanej Przekaż .

    5. Wybierz plik bankmarketing_train.csv na komputerze lokalnym. Jest to plik pobrany jako warunek wstępny.

    6. Wybierz pozycję Dalej w lewym dolnym rogu, aby przekazać go do domyślnego kontenera, który został automatycznie skonfigurowany podczas tworzenia obszaru roboczego.

      Po zakończeniu przekazywania formularz Ustawienia i wersja zapoznawcza jest wstępnie wypełniany na podstawie typu pliku.

    7. Sprawdź, czy formularz Ustawienia i podgląd został wypełniony w następujący sposób, a następnie wybierz przycisk Dalej.

      Pole Opis Wartość samouczka
      Format pliku Definiuje układ i typ danych przechowywanych w pliku. Rozdzielany
      Ogranicznik Co najmniej jeden znak określający granicę między oddzielnymi, niezależnymi regionami w postaci zwykłego tekstu lub innych strumieni danych. Przecinek
      Encoding Określa, jakiego bitu do tabeli schematu znaków używać do odczytywania zestawu danych. UTF-8
      Nagłówki kolumn Wskazuje, jak będą traktowane nagłówki zestawu danych, jeśli istnieje. Wszystkie pliki mają te same nagłówki
      Pomijanie wierszy Wskazuje, ile, jeśli istnieje, wiersze są pomijane w zestawie danych. Brak
    8. Formularz Schemat umożliwia dalszą konfigurację danych dla tego eksperymentu. W tym przykładzie wybierz przełącznik dla day_of_week, aby go nie uwzględnić. Wybierz opcję Dalej. Formularz schematu

    9. W formularzu Potwierdź szczegóły sprawdź, czy informacje są zgodne z informacjami, które zostały wcześniej wypełnione w obszarze Informacje podstawowe, Magazyn danych i wybór pliku oraz Ustawienia i formularze podglądu .

    10. Wybierz pozycję Utwórz , aby ukończyć tworzenie zestawu danych.

    11. Wybierz zestaw danych po wyświetleniu go na liście.

    12. Przejrzyj podgląd danych , aby upewnić się, że nie uwzględniliśmy day_of_week następnie wybierz pozycję Zamknij.

    13. Wybierz opcję Dalej.

Konfigurowanie zadania

Po załadowaniu i skonfigurowaniu danych możesz skonfigurować eksperyment. Ta konfiguracja obejmuje zadania projektowe eksperymentów, takie jak wybranie rozmiaru środowiska obliczeniowego i określenie kolumny, którą chcesz przewidzieć.

  1. Wybierz przycisk radiowy Utwórz nowy .

  2. Wypełnij formularz Konfigurowanie zadania w następujący sposób:

    1. Wprowadź tę nazwę eksperymentu: my-1st-automl-experiment

    2. Wybierz pozycję y jako kolumnę docelową, co chcesz przewidzieć. Ta kolumna wskazuje, czy klient subskrybował depozyt terminowy, czy nie.

    3. Wybierz klaster obliczeniowy jako typ obliczeniowy.

    4. +Nowy , aby skonfigurować docelowy obiekt obliczeniowy. Docelowy obiekt obliczeniowy to lokalne lub oparte na chmurze środowisko zasobów używane do uruchamiania skryptu szkoleniowego lub hostowania wdrożenia usługi. W tym eksperymencie używamy zasobów obliczeniowych opartych na chmurze.

      1. Wypełnij formularz Wybierz maszynę wirtualną , aby skonfigurować obliczenia.

        Pole Opis Wartość samouczka
        Lokalizacja Twój region, z którego chcesz uruchomić maszynę Zachodnie stany USA 2
        Warstwa maszyny wirtualnej Wybierz priorytet, jaki powinien mieć eksperyment Dedykowane
        Typ maszyny wirtualnej Wybierz typ maszyny wirtualnej dla zasobów obliczeniowych. Procesor CPU (centralna jednostka przetwarzania)
        Rozmiar maszyny wirtualnej Wybierz rozmiar maszyny wirtualnej dla obliczeń. Lista zalecanych rozmiarów jest udostępniana na podstawie danych i typu eksperymentu. Standard_DS12_V2
      2. Wybierz przycisk Dalej , aby wypełnić formularz Konfigurowanie ustawień.

        Pole Opis Wartość samouczka
        Nazwa obiektu obliczeniowego Unikatowa nazwa, która identyfikuje kontekst obliczeniowy. automl-compute
        Minimalna/maksymalna liczba węzłów Aby profilować dane, należy określić co najmniej 1 węzły. Minimalne węzły: 1
        Maksymalna liczba węzłów: 6
        Bezczynność sekund przed skalowaniem w dół Czas bezczynności przed automatycznym skalowaniem klastra w dół do minimalnej liczby węzłów. 120 (wartość domyślna)
        Ustawienia zaawansowane Ustawienia służące do konfigurowania i autoryzacji sieci wirtualnej na potrzeby eksperymentu. Brak
      3. Wybierz pozycję Utwórz, aby utworzyć docelowy obiekt obliczeniowy.

        Ukończenie tej czynności zajmuje kilka minut.

        Strona Ustawienia

      4. Po utworzeniu wybierz nowy docelowy obiekt obliczeniowy z listy rozwijanej.

    5. Wybierz opcję Dalej.

  3. W formularzu Wybierz zadanie i ustawienia wypełnij konfigurację eksperymentu zautomatyzowanego uczenia maszynowego, określając typ zadania uczenia maszynowego i ustawienia konfiguracji.

    1. Wybierz pozycję Klasyfikacja jako typ zadania uczenia maszynowego.

    2. Wybierz pozycję Wyświetl dodatkowe ustawienia konfiguracji i wypełnij pola w następujący sposób. Te ustawienia umożliwiają lepszą kontrolę nad zadaniem trenowania. W przeciwnym razie wartości domyślne są stosowane na podstawie wyboru eksperymentu i danych.

      Dodatkowe konfiguracje Opis Wartość samouczka
      Metryka podstawowa Metryka oceny mierzona przez algorytm uczenia maszynowego. AUC_weighted
      Wyjaśnienie najlepszego modelu Automatycznie pokazuje czytelność najlepszego modelu utworzonego przez zautomatyzowane uczenie maszynowe. Włącz
      Zablokowane algorytmy Algorytmy, które mają zostać wykluczone z zadania trenowania Brak
      Dodatkowe ustawienia klasyfikacji Te ustawienia pomagają zwiększyć dokładność modelu Etykieta klasy dodatniej: Brak
      Kryterium zakończenia Jeśli kryteria zostaną spełnione, zadanie szkoleniowe zostanie zatrzymane. Czas zadania trenowania (godziny): 1
      Próg wyniku metryki: Brak
      Współbieżność Maksymalna liczba iteracji równoległych wykonanych na iterację Maksymalna liczba współbieżnych iteracji: 5

      Wybierz pozycję Zapisz.

    3. Wybierz opcję Dalej.

  4. W formularzu [Optional] Validate and test ([Opcjonalnie] Sprawdź poprawność i testowanie ,

    1. Wybierz k-fold krzyżowe sprawdzanie poprawności jako typ walidacji.
    2. Wybierz wartość 2 jako liczbę krzyżowych walidacji.
  5. Wybierz pozycję Zakończ , aby uruchomić eksperyment. Zostanie otwarty ekran Szczegóły zadania z stanem zadania u góry po rozpoczęciu przygotowywania eksperymentu. Ten stan jest aktualizowany w miarę postępu eksperymentu. Powiadomienia są również wyświetlane w prawym górnym rogu programu Studio, aby poinformować Cię o stanie eksperymentu.

Ważne

Przygotowanie trwa 10–15 minut , aby przygotować przebieg eksperymentu. Po uruchomieniu kolejne 2–3 minuty dla każdej iteracji zajmuje więcej czasu.

W środowisku produkcyjnym prawdopodobnie odejdziesz nieco. Jednak na potrzeby tego samouczka zalecamy rozpoczęcie eksplorowania przetestowanych algorytmów na karcie Modele , gdy pozostałe są nadal uruchomione.

Eksplorowanie modeli

Przejdź do karty Modele , aby zobaczyć przetestowane algorytmy (modele). Domyślnie modele są uporządkowane według wyniku metryki w miarę ich ukończenia. W tym samouczku model, który ocenia najwyższą wartość na podstawie wybranej metryki AUC_weighted , znajduje się na początku listy.

Podczas oczekiwania na zakończenie wszystkich modeli eksperymentów wybierz nazwę Algorytm ukończonego modelu, aby zapoznać się ze szczegółami wydajności.

Poniżej przedstawiono przechodzenie przez karty Szczegóły i Metryki , aby wyświetlić właściwości, metryki i wykresy wydajności wybranego modelu.

Szczegóły iteracji uruchamiania

Wyjaśnienia modelu

Podczas oczekiwania na ukończenie modeli możesz również przyjrzeć się objaśnieniom modelu i zobaczyć, które funkcje danych (pierwotne lub inżynierowane) miały wpływ na przewidywania określonego modelu.

Te wyjaśnienia modelu można wygenerować na żądanie i są podsumowane na pulpicie nawigacyjnym wyjaśnień modelu, który jest częścią karty Wyjaśnienia (wersja zapoznawcza).

Aby wygenerować wyjaśnienia modelu,

  1. Wybierz pozycję Zadanie 1 u góry, aby wrócić do ekranu Modele .

  2. Wybierz kartę Modele .

  3. Na potrzeby tego samouczka wybierz pierwszy model MaxAbsScaler, LightGBM .

  4. Wybierz przycisk Wyjaśnij model u góry. Po prawej stronie zostanie wyświetlone okienko Wyjaśnij model .

  5. Wybierz utworzony wcześniej element automl-compute . Ten klaster obliczeniowy inicjuje zadanie podrzędne w celu wygenerowania wyjaśnień modelu.

  6. Wybierz pozycję Utwórz u dołu. Zielony komunikat o powodzeniu pojawia się w górnej części ekranu.

    Uwaga

    Zadanie objaśnienia trwa około 2–5 minut.

  7. Wybierz przycisk Wyjaśnienia (wersja zapoznawcza). Ta karta jest wypełniana po zakończeniu przebiegu objaśnienia.

  8. Po lewej stronie rozwiń okienko i wybierz wiersz, który jest wyświetlany jako nieprzetworzone w obszarze Funkcje.

  9. Wybierz kartę Zagreguj ważność funkcji po prawej stronie. Ten wykres pokazuje, które funkcje danych miały wpływ na przewidywania wybranego modelu.

    W tym przykładzie czas trwania wydaje się mieć największy wpływ na przewidywania tego modelu.

    Pulpit nawigacyjny wyjaśnienia modelu

Wdrażanie najlepszego modelu

Interfejs zautomatyzowanego uczenia maszynowego umożliwia wdrożenie najlepszego modelu jako usługi internetowej w kilku krokach. Wdrożenie to integracja modelu, dzięki czemu może przewidywać nowe dane i identyfikować potencjalne obszary możliwości.

W tym eksperymencie wdrożenie w usłudze internetowej oznacza, że instytucja finansowa ma teraz iteracyjne i skalowalne rozwiązanie internetowe do identyfikowania potencjalnych klientów z depozytami stałymi.

Sprawdź, czy przebieg eksperymentu został ukończony. W tym celu wróć do strony nadrzędnego zadania, wybierając pozycję Zadanie 1 w górnej części ekranu. Stan Ukończono jest wyświetlany w lewym górnym rogu ekranu.

Po zakończeniu przebiegu eksperymentu strona Szczegóły zostanie wypełniona sekcją Podsumowanie najlepszego modelu . W tym kontekście eksperymentu funkcja VotingEnsemble jest uznawana za najlepszy model na podstawie metryki AUC_weighted .

Wdrożenie tego modelu trwa około 20 minut. Proces wdrażania obejmuje kilka kroków, w tym rejestrowanie modelu, generowanie zasobów i konfigurowanie ich dla usługi internetowej.

  1. Wybierz pozycję VotingEnsemble , aby otworzyć stronę specyficzną dla modelu.

  2. Wybierz menu Wdróż w lewym górnym rogu i wybierz pozycję Wdróż w usłudze internetowej.

  3. Wypełnij okienko Wdrażanie modelu w następujący sposób:

    Pole Wartość
    Nazwa wdrożenia my-automl-deploy
    Opis wdrożenia Moje pierwsze wdrożenie eksperymentu zautomatyzowanego uczenia maszynowego
    Typ środowiska obliczeniowego Wybieranie wystąpienia kontenera platformy Azure (ACI)
    Włącz uwierzytelnianie Wyłącz.
    Korzystanie z wdrożeń niestandardowych Wyłącz. Umożliwia automatyczne generowanie domyślnego pliku sterownika (skryptu oceniania) i pliku środowiska.

    W tym przykładzie użyjemy wartości domyślnych dostępnych w menu Zaawansowane .

  4. Wybierz pozycję Wdróż.

    Zielony komunikat o powodzeniu pojawia się w górnej części ekranu Zadanie , a w okienku Podsumowanie modelu w obszarze Stan wdrożenia zostanie wyświetlony komunikat o stanie. Wybierz pozycję Odśwież okresowo, aby sprawdzić stan wdrożenia.

Teraz masz działającą usługę internetową do generowania przewidywań.

Przejdź do następnych kroków , aby dowiedzieć się więcej na temat korzystania z nowej usługi internetowej i przetestować przewidywania przy użyciu usługi Power BI wbudowanej w obsłudze usługi Azure Machine Learning.

Czyszczenie zasobów

Pliki wdrożenia są większe niż pliki danych i plików eksperymentów, więc kosztują więcej do przechowywania. Usuń tylko pliki wdrożenia, aby zminimalizować koszty na koncie lub jeśli chcesz zachować obszar roboczy i pliki eksperymentów. W przeciwnym razie usuń całą grupę zasobów, jeśli nie planujesz używać żadnych plików.

Usuwanie wystąpienia wdrożenia

Usuń tylko wystąpienie wdrożenia z usługi Azure Machine Learning na stronie https://ml.azure.com/, jeśli chcesz zachować grupę zasobów i obszar roboczy na potrzeby innych samouczków i eksploracji.

  1. Przejdź do usługi Azure Machine Learning. Przejdź do obszaru roboczego i po lewej stronie w okienku Zasoby wybierz pozycję Punkty końcowe.

  2. Wybierz wdrożenie, które chcesz usunąć, a następnie wybierz pozycję Usuń.

  3. Wybierz pozycję Kontynuuj.

Usuwanie grupy zasobów

Ważne

Utworzone zasoby mogą być używane jako wymagania wstępne w innych samouczkach usługi Azure Machine Learning i artykułach z instrukcjami.

Jeśli nie planujesz korzystać z żadnych utworzonych zasobów, usuń je, aby nie ponosić żadnych opłat:

  1. W witrynie Azure Portal na końcu z lewej strony wybierz pozycję Grupy zasobów.

  2. Z listy wybierz utworzoną przez siebie grupę zasobów.

  3. Wybierz pozycję Usuń grupę zasobów.

    Zrzut ekranu przedstawiający opcje usuwania grupy zasobów w witrynie Azure Portal.

  4. Wpisz nazwę grupy zasobów. Następnie wybierz pozycję Usuń.

Następne kroki

W tym samouczku zautomatyzowanego uczenia maszynowego użyto zautomatyzowanego interfejsu uczenia maszynowego usługi Azure Machine Learning do utworzenia i wdrożenia modelu klasyfikacji. Aby uzyskać więcej informacji i kolejnych kroków, zobacz następujące artykuły:

Uwaga

Ten zestaw danych marketingu bankowego jest udostępniany w ramach licencji Creative Commons (CCO: Public Domain). Wszelkie prawa w indywidualnej zawartości bazy danych są licencjonowane w ramach licencji zawartości bazy danych i dostępne na platformie Kaggle. Ten zestaw danych był pierwotnie dostępny w bazie danych UCI Machine Learning Database.

[Moro et al., 2014] S. Moro, P. Cortez i P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing (Podejście oparte na danych do prognozowania powodzenia telemarketingu bankowego). Decision Support Systems, Elsevier, 62:22-31, czerwiec 2014.