Etap analizy biznesowej cyklu życia procesu Nauka o danych zespołowego
W tym artykule opisano cele, zadania i elementy dostarczane skojarzone z etapem zrozumienia biznesowego procesu Nauka o danych zespołu (TDSP). Ten proces zapewnia zalecany cykl życia, którego zespół może używać do tworzenia struktury projektów nauki o danych. Cykl życia przedstawia główne etapy wykonywane przez zespół, często iteracyjne:
- Informacje biznesowe
- Pozyskiwanie i zrozumienie danych
- Modelowania
- Wdrożenie
- Akceptacja klienta
Oto wizualna reprezentacja cyklu życia TDSP:
Cele
Cele etapu zrozumienia biznesowego to:
Określ kluczowe zmienne, które służą jako cele modelu. Określ metryki obiektów docelowych, które określają powodzenie projektu.
Zidentyfikuj odpowiednie źródła danych, do których firma ma dostęp lub musi uzyskać dostęp.
Jak wykonać zadania
Etap zrozumienia biznesowego obejmuje dwa główne zadania:
Definiowanie celów: współpracuj z klientem i innymi uczestnikami projektu, aby zrozumieć i zidentyfikować problemy biznesowe. Formułuj pytania definiujące cele biznesowe, które mogą być przeznaczone dla technik nauki o danych.
Identyfikowanie źródeł danych: znajdź odpowiednie dane, które ułatwiają udzielenie odpowiedzi na pytania definiujące cele projektu.
Definiowanie celów
Głównym celem tego etapu jest zidentyfikowanie kluczowych zmiennych biznesowych, które należy przewidzieć w analizie. Te zmienne są nazywane celami modelu, a skojarzone z nimi metryki są używane do określenia sukcesu projektu. Na przykład celem może być prognoza sprzedaży lub prawdopodobieństwo oszustwa zamówienia.
Aby zdefiniować cele projektu, zadaj i uściślij ostre pytania, które są istotne, specyficzne i jednoznaczne. Nauka o danych to proces, który używa nazw i liczb do odpowiadania na takie pytania. Zwykle używasz nauki o danych lub uczenia maszynowego, aby odpowiedzieć na pięć typów pytań:
- Ile lub ile? (regresja)
- Która kategoria? (klasyfikacja)
- Która grupa? (klastrowanie)
- Czy jest to niezwykłe? (wykrywanie anomalii)
- Którą opcję należy podjąć? (zalecenie)
Określ, które z tych pytań należy zadać, i jak odpowiadanie na nie może pomóc w osiągnięciu celów biznesowych.
Aby zdefiniować zespół projektu, określ role i obowiązki swoich członków. Opracuj plan punktu kontrolnego wysokiego poziomu, na którym iterujesz w miarę odnajdywania dodatkowych informacji.
Należy zdefiniować metryki powodzenia. Na przykład możesz chcieć spełnić przewidywanie współczynnika zmian klientów z dokładnością wynoszącą x procent do końca projektu trzymiesięczny. Dzięki tym danym możesz zaoferować promocje klientów, aby zmniejszyć współczynnik zmian. Metryki muszą mieć wartość SMART:
- Specific
- Mz możliwością złagodzenia
- Zmożliwością chievable
- Relevant
- Time-bound
Identyfikowanie źródeł danych
Zidentyfikuj źródła danych zawierające znane przykłady odpowiedzi na pytania. Poszukaj następujących danych:
- Dane, które są istotne dla pytania. Czy masz miary elementu docelowego i funkcji, które są powiązane z obiektem docelowym?
- Dane, które są dokładną miarą celu modelu i interesującymi go funkcjami.
Na przykład istniejący system może nie mieć danych, których potrzebuje, aby rozwiązać problem i osiągnąć cel projektu. W takiej sytuacji może być konieczne znalezienie zewnętrznych źródeł danych lub zaktualizowanie systemów w celu zbierania nowych danych.
Integracja z platformą MLflow
Na etapie zrozumienia biznesowego zespół nie korzysta z narzędzi MLflow, ale pośrednio może korzystać z dokumentacji i możliwości śledzenia eksperymentów platformy MLflow. Te funkcje mogą udostępniać szczegółowe informacje i kontekst historyczny, aby ułatwić dopasowanie projektu do celów biznesowych.
Artifacts
Na tym etapie twój zespół zapewnia następujące elementy:
Dokument czarterowy. Dokument czarterowy jest żywym dokumentem. Dokument jest aktualizowany w całym projekcie podczas wprowadzania nowych odkryć i zmiany wymagań biznesowych. Kluczem jest iteracja tego dokumentu. Dodaj więcej szczegółów podczas procesu odnajdywania. Poinformuj klienta i innych uczestników projektu o zmianach i ich przyczynach.
Źródła danych. Do obsługi zarządzania źródłami danych można użyć usługi Azure Machine Learning . Zalecamy korzystanie z tej usługi platformy Azure dla aktywnych i szczególnie dużych projektów, ponieważ jest ona zintegrowana z platformą MLflow.
Słowniki danych. Ten dokument zawiera opisy danych, które udostępnia klient. Te opisy obejmują informacje o schemacie (typy danych i informacje dotyczące reguł walidacji, jeśli istnieją) oraz diagramy relacji jednostek, jeśli są dostępne. Twój zespół powinien udokumentować niektóre lub wszystkie te informacje.
Literatura z przeglądem równorzędnym
Naukowcy publikują badania na temat TDSP w literaturze z przeglądem równorzędnym. Cytaty stanowią okazję do zbadania innych aplikacji lub podobnych pomysłów dotyczących dostawcy TDSP, w tym etapu cyklu życia rozumienia biznesowego.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Mark Tabladillo | Starszy architekt rozwiązań w chmurze
Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Powiązane zasoby
W tych artykułach opisano inne etapy cyklu życia TDSP: