Udostępnij za pośrednictwem


Etap modelowania cyklu życia procesu Nauka o danych zespołowego

W tym artykule opisano cele, zadania i elementy dostarczane skojarzone z etapem modelowania procesu zespołowego Nauka o danych (TDSP). Ten proces zapewnia zalecany cykl życia, którego zespół może używać do tworzenia struktury projektów nauki o danych. Cykl życia przedstawia główne etapy wykonywane przez zespół, często iteracyjne:

  • Informacje biznesowe
  • Pozyskiwanie i zrozumienie danych
  • Modelowania
  • Wdrożenie
  • Akceptacja klienta

Oto wizualna reprezentacja cyklu życia TDSP:

Diagram przedstawiający etapy cyklu życia TDSP.

Cele

Cele etapu modelowania to:

  • Określanie optymalnych funkcji danych dla modelu uczenia maszynowego.

  • Utwórz informacyjny model uczenia maszynowego, który przewiduje cel najdokładniej.

  • Utwórz model uczenia maszynowego, który jest odpowiedni dla środowiska produkcyjnego.

Jak wykonać zadania

Etap modelowania ma trzy główne zadania:

  • Inżynieria cech: tworzenie funkcji danych na podstawie danych pierwotnych w celu ułatwienia trenowania modelu.

  • Trenowanie modelu: znajdź model, który najdokładniej odpowiada na pytanie, porównując metryki sukcesu modeli.

  • Ocena modelu: określ, czy model jest odpowiedni dla środowiska produkcyjnego.

Inżynieria cech

Inżynieria cech obejmuje włączenie, agregację i przekształcenie nieprzetworzonych zmiennych w celu utworzenia funkcji używanych w analizie. Jeśli chcesz uzyskać wgląd w sposób tworzenia modelu, musisz zbadać podstawowe funkcje modelu.

Ten krok wymaga kreatywnej kombinacji wiedzy fachowej i szczegółowych informacji uzyskanych z kroku eksploracji danych. Inżynieria cech to równoważenie działania znajdowania i dołączania zmiennych informacyjnych, ale jednocześnie stara się uniknąć zbyt wielu niepowiązanych zmiennych. Zmienne informacyjne poprawiają wynik. Niepowiązane zmienne wprowadzają niepotrzebny szum do modelu. Należy również wygenerować te funkcje dla nowych danych uzyskanych podczas oceniania. W związku z tym generowanie tych funkcji może zależeć tylko od danych dostępnych w momencie oceniania.

Trenowanie modelu

Istnieje wiele algorytmów modelowania, których można użyć, w zależności od typu pytania, na które próbujesz odpowiedzieć. Aby uzyskać wskazówki dotyczące wybierania wstępnie utworzonego algorytmu, zobacz ściągawka dotycząca algorytmów uczenia maszynowego dla projektanta usługi Azure Machine Learning. Inne algorytmy są dostępne za pośrednictwem pakietów open source w języku R lub Python. Chociaż ten artykuł koncentruje się na usłudze Azure Machine Learning, wskazówki, które zawiera, są przydatne w przypadku wielu projektów uczenia maszynowego.

Proces trenowania modelu obejmuje następujące kroki:

  • Podziel dane wejściowe losowo na modelowanie na zestaw danych treningowych i zestaw danych testowych.

  • Tworzenie modeli przy użyciu zestawu danych treningowych.

  • Oceń trenowanie i zestaw danych testowych. Użyj serii konkurencyjnych algorytmów uczenia maszynowego. Użyj różnych skojarzonych parametrów dostrajania (znanych jako zamiatanie parametrów), które są przeznaczone do odpowiadania na pytanie interesujące z bieżącymi danymi.

  • Określ najlepsze rozwiązanie, aby odpowiedzieć na pytanie, porównując metryki sukcesu między metodami alternatywnymi.

Aby uzyskać więcej informacji, zobacz Trenowanie modeli za pomocą usługi Machine Learning.

Uwaga

Unikaj wycieku: może to spowodować wyciek danych, jeśli uwzględnisz dane spoza zestawu danych treningowych, który umożliwia modelowi lub algorytmowi uczenia maszynowego tworzenie nierealistycznie dobrych przewidywań. Wyciek jest częstym powodem, dla którego analitycy danych są zdenerwowani, gdy otrzymują wyniki predykcyjne, które wydają się zbyt dobre, aby być prawdziwe. Te zależności mogą być trudne do wykrycia. Unikanie wycieków często wymaga iteracji między tworzeniem zestawu danych analizy, tworzeniem modelu i ocenianiem dokładności wyników.

Ocena modelu

Po wyszkoleniu modelu analityk danych w zespole koncentruje się na ocenie modelu.

  • Określ, czy model działa wystarczająco na potrzeby produkcji. Oto kilka kluczowych pytań, które należy zadać:

    • Czy model odpowiada na pytanie z wystarczającą pewnością, biorąc pod uwagę dane testowe?

    • Czy należy wypróbować jakiekolwiek alternatywne podejścia?

    • Czy należy zebrać więcej danych, wykonać więcej inżynierii funkcji lub eksperymentować z innymi algorytmami?

  • Interpretowanie modelu: użyj zestawu SDK języka Python usługi Machine Learning, aby wykonać następujące zadania:

    • Wyjaśnij całe zachowanie modelu lub poszczególne przewidywania na komputerze osobistym lokalnie.

    • Włącz techniki interpretowania dla funkcji zaprojektowanych.

    • Wyjaśnij zachowanie całego modelu i poszczególnych przewidywań na platformie Azure.

    • Przekaż wyjaśnienia do historii uruchamiania usługi Machine Learning.

    • Użyj pulpitu nawigacyjnego wizualizacji, aby wchodzić w interakcje z wyjaśnieniami modelu, zarówno w notesie Jupyter, jak i w obszarze roboczym usługi Machine Learning.

    • Wdróż objaśnienie oceniania obok modelu, aby obserwować wyjaśnienia podczas wnioskowania.

  • Ocena sprawiedliwości: użyj pakietu open source open source języka Python fairlearn z usługą Machine Learning , aby wykonać następujące zadania:

    • Oceń uczciwość prognoz modelu. Ten proces pomaga zespołowi dowiedzieć się więcej o sprawiedliwości w uczeniu maszynowym.

    • Przekazywanie, wyświetlanie listy i pobieranie szczegółowych informacji dotyczących oceny sprawiedliwości do i z usługi Machine Learning Studio.

    • Zobacz pulpit nawigacyjny oceny sprawiedliwości w usłudze Machine Learning Studio, aby wchodzić w interakcje ze szczegółowymi informacjami dotyczącymi sprawiedliwości modeli.

Integracja z platformą MLflow

Usługa Machine Learning integruje się z platformą MLflow w celu obsługi cyklu życia modelowania. Używa ona śledzenia MLflow do eksperymentów, wdrażania projektu, zarządzania modelami i rejestru modeli. Ta integracja zapewnia bezproblemowy i wydajny przepływ pracy uczenia maszynowego. Następujące funkcje w usłudze Machine Learning ułatwiają obsługę tego elementu cyklu życia modelowania:

Literatura z przeglądem równorzędnym

Naukowcy publikują badania na temat TDSP w literaturze z przeglądem równorzędnym. Cytaty stanowią okazję do zbadania innych aplikacji lub podobnych pomysłów dotyczących dostawcy TDSP, w tym etapu cyklu życia modelowania.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

W tych artykułach opisano inne etapy cyklu życia TDSP: