Udostępnij za pośrednictwem


Analizowanie danych przy użyciu usługi Azure Machine Learning

W tym samouczku użyto projektanta usługi Azure Machine Learning do utworzenia predykcyjnego modelu uczenia maszynowego. Model jest oparty na danych przechowywanych w Azure Synapse. Scenariusz samouczka polega na przewidywaniu, czy klient prawdopodobnie kupi rower, a nie tak Adventure Works, sklep rowerowy, może zbudować docelową kampanię marketingową.

Wymagania wstępne

Do wykonania kroków opisanych w tym samouczku potrzebne są:

Pobieranie danych

Używane dane są w widoku dbo.vTargetMail w adventureWorksDW. Aby użyć magazynu danych w tym samouczku, dane są najpierw eksportowane do konta Azure Data Lake Storage, ponieważ Azure Synapse obecnie nie obsługuje zestawów danych. Azure Data Factory można użyć do wyeksportowania danych z magazynu danych do Azure Data Lake Storage przy użyciu działania kopiowania. Użyj następującego zapytania do importowania:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

Gdy dane są dostępne w Azure Data Lake Storage, magazyny danych w usłudze Azure Machine Learning są używane do łączenia się z usługami Azure Storage. Wykonaj poniższe kroki, aby utworzyć magazyn danych i odpowiedni zestaw danych:

  1. Uruchom Azure Machine Learning studio z Azure Portal lub zaloguj się przy Azure Machine Learning studio.

  2. Kliknij pozycję Magazyny danych w okienku po lewej stronie w sekcji Zarządzanie , a następnie kliknij pozycję Nowy magazyn danych.

    Zrzut ekranu przedstawiający okienko po lewej stronie interfejsu usługi Azure Machine Learning

  3. Podaj nazwę magazynu danych, wybierz typ "Azure Blob Storage", podaj lokalizację i poświadczenia. Następnie kliknij pozycję Utwórz.

  4. Następnie kliknij pozycję Zestawy danych w okienku po lewej stronie w sekcji Zasoby . Wybierz pozycję Utwórz zestaw danych z opcją Z magazynu danych.

  5. Określ nazwę zestawu danych i wybierz typ, który ma być tabelaryczny. Następnie kliknij przycisk Dalej , aby przejść do przodu.

  6. W sekcji Wybierz lub utwórz magazyn danych wybierz opcję Wcześniej utworzony magazyn danych. Wybierz utworzony wcześniej magazyn danych. Kliknij przycisk Dalej i określ ścieżkę i ustawienia pliku. Pamiętaj, aby określić nagłówek kolumny, jeśli pliki zawierają jeden.

  7. Na koniec kliknij pozycję Utwórz , aby utworzyć zestaw danych.

Konfigurowanie eksperymentu projektanta

Następnie wykonaj poniższe kroki, aby uzyskać konfigurację projektanta:

  1. Kliknij kartę Projektant w okienku po lewej stronie w sekcji Autor.

  2. Wybierz pozycję Łatwe w użyciu wstępnie utworzone składniki , aby utworzyć nowy potok.

  3. W okienku ustawień po prawej stronie określ nazwę potoku.

  4. Ponadto wybierz docelowy klaster obliczeniowy dla całego eksperymentu w ustawieniach przycisku do wcześniej aprowizowanego klastra. Zamknij okienko Ustawienia.

Importowanie danych

  1. Wybierz podtabę Zestawy danych w okienku po lewej stronie poniżej pola wyszukiwania.

  2. Przeciągnij utworzony wcześniej zestaw danych na kanwę.

    Zrzut ekranu przedstawiający składnik zestawu danych na kanwie.

Czyszczenie danych

Aby wyczyścić dane, upuść kolumny, które nie są istotne dla modelu. Wykonaj następujące czynności:

  1. Wybierz podtabę Składniki w okienku po lewej stronie.

  2. Przeciągnij składnik Select Columns in Dataset (Wybieranie kolumn w zestawie danych) w obszarze Manipulowanie przekształcaniem < danych na kanwę. Połącz ten składnik ze składnikiem Zestaw danych .

    Zrzut ekranu przedstawiający składnik wyboru kolumny na kanwie.

  3. Kliknij składnik, aby otworzyć okienko właściwości. Kliknij pozycję Edytuj kolumnę, aby określić kolumny, które chcesz usunąć.

  4. Wyklucz dwie kolumny: CustomerAlternateKey i GeographyKey. Kliknij pozycję Zapisz

    Zrzut ekranu przedstawiający porzucone kolumny.

Tworzenie modelu

Dane są podzielone na 80–20: 80%, aby wytrenować model uczenia maszynowego i 20% w celu przetestowania modelu. Algorytmy "Dwuklasowe" są używane w tym problemie klasyfikacji binarnej.

  1. Przeciągnij składnik Split Data (Podział danych ) na kanwę.

  2. W okienku właściwości wprowadź wartość 0.8 w polu Ułamek wierszy w pierwszym wyjściowym zestawie danych.

    Zrzut ekranu przedstawiający współczynnik podziału wynoszący 0,8.

  3. Przeciągnij składnik Dwuklasowe wzmocnione drzewo decyzyjne do kanwy.

  4. Przeciągnij składnik Train Model (Trenowanie modelu ) na kanwę. Określ dane wejściowe, łącząc je ze składnikami Dwuklasowego Wzmocnione drzewo decyzyjne (algorytm uczenia maszynowego) i Podziel dane (dane do trenowania algorytmu).

  5. W obszarze Train Model model (Trenowanie modelu) w opcji Kolumna etykieta w okienku Właściwości wybierz pozycję Edytuj kolumnę. Wybierz kolumnę BikeBuyer jako kolumnę, aby przewidzieć i wybrać pozycję Zapisz.

    Zrzut ekranu przedstawiający kolumnę etykiety z wybraną pozycją BikeBuyer.

    Zrzut ekranu przedstawiający składnik Train Model connected to Two-Class Boosted Decision Tree (Trenowanie składnika modelu) i Split Data components (Podział danych).

Ocenianie modelu

Teraz przetestuj, jak model działa na danych testowych. Dwa różne algorytmy zostaną porównane, aby zobaczyć, który z nich działa lepiej. Wykonaj następujące czynności:

  1. Przeciągnij składnik Score Model (Generowanie wyników modelu ) na kanwę i połącz go ze składnikami Train Model (Trenowanie modelu ) i Split Data (Podział danych ).

  2. Przeciągnij dwuklasowy Bayes Averaged Perceptron do kanwy eksperymentu. Porównasz sposób działania tego algorytmu w porównaniu z Two-Class Wzmocnione drzewo decyzyjne.

  3. Skopiuj i wklej składniki Train Model (Trenowanie modelu ) i Score Model (Generowanie wyników ) na kanwie.

  4. Przeciągnij składnik Evaluate Model na kanwę, aby porównać dwa algorytmy.

  5. Kliknij przycisk Prześlij, aby skonfigurować przebieg potoku.

    Zrzut ekranu przedstawiający wszystkie pozostałe składniki na kanwie.

  6. Po zakończeniu przebiegu kliknij prawym przyciskiem myszy składnik Evaluate Model (Ocena modelu ), a następnie kliknij pozycję Visualize Evaluation results (Wizualizacja wyników oceny).

    Zrzut ekranu przedstawiający wyniki.

Podane metryki są krzywą ROC, diagramem kompletności precyzji i krzywą podnoszenia. Spójrz na te metryki, aby zobaczyć, że pierwszy model działał lepiej niż drugi. Aby przyjrzeć się przewidywaniu pierwszego modelu, kliknij prawym przyciskiem myszy składnik Score Model (Generowanie wyników modelu), a następnie kliknij pozycję Visualize Scored dataset (Wizualizuj wygenerowany wynik), aby wyświetlić przewidywane wyniki.

Zobaczysz jeszcze dwie kolumny dodane do zestawu danych testowych.

  • Scored Probabilities (Sklasyfikowane prawdopodobieństwo): prawdopodobieństwo, że klient jest nabywcą roweru.
  • Scored Labels (Sklasyfikowane etykiety): klasyfikacja dokonana przez model — nabywca roweru (1) lub nie (0). Ustawiony próg prawdopodobieństwa etykietowania wynosi 50% i można go dostosować.

Porównaj kolumnę BikeBuyer (rzeczywista) z etykietami scored (prediction), aby zobaczyć, jak dobrze model wykonał. Następnie możesz użyć tego modelu do przewidywania dla nowych klientów. Ten model można opublikować jako usługę internetową lub zapisać wyniki z powrotem do Azure Synapse.

Następne kroki

Aby dowiedzieć się więcej na temat usługi Azure Machine Learning, zobacz Wprowadzenie do usługi Machine Learning na platformie Azure.

Dowiedz się więcej o wbudowanym ocenianiu w magazynie danych tutaj.