Udostępnij za pośrednictwem


Etap analizy biznesowej cyklu życia procesu Nauka o danych zespołowego

W tym artykule opisano cele, zadania i elementy dostarczane skojarzone z etapem zrozumienia biznesowego procesu Nauka o danych zespołu (TDSP). Ten proces zapewnia zalecany cykl życia, którego zespół może używać do tworzenia struktury projektów nauki o danych. Cykl życia przedstawia główne etapy wykonywane przez zespół, często iteracyjne:

  • Informacje biznesowe
  • Pozyskiwanie i zrozumienie danych
  • Modelowania
  • Wdrożenie
  • Akceptacja klienta

Oto wizualna reprezentacja cyklu życia TDSP:

Diagram przedstawiający etapy cyklu życia TDSP.

Cele

Cele etapu zrozumienia biznesowego to:

  • Określ kluczowe zmienne, które służą jako cele modelu. Określ metryki obiektów docelowych, które określają powodzenie projektu.

  • Zidentyfikuj odpowiednie źródła danych, do których firma ma dostęp lub musi uzyskać dostęp.

Jak wykonać zadania

Etap zrozumienia biznesowego obejmuje dwa główne zadania:

  • Definiowanie celów: współpracuj z klientem i innymi uczestnikami projektu, aby zrozumieć i zidentyfikować problemy biznesowe. Formułuj pytania definiujące cele biznesowe, które mogą być przeznaczone dla technik nauki o danych.

  • Identyfikowanie źródeł danych: znajdź odpowiednie dane, które ułatwiają udzielenie odpowiedzi na pytania definiujące cele projektu.

Definiowanie celów

  1. Głównym celem tego etapu jest zidentyfikowanie kluczowych zmiennych biznesowych, które należy przewidzieć w analizie. Te zmienne są nazywane celami modelu, a skojarzone z nimi metryki są używane do określenia sukcesu projektu. Na przykład celem może być prognoza sprzedaży lub prawdopodobieństwo oszustwa zamówienia.

  2. Aby zdefiniować cele projektu, zadaj i uściślij ostre pytania, które są istotne, specyficzne i jednoznaczne. Nauka o danych to proces, który używa nazw i liczb do odpowiadania na takie pytania. Zwykle używasz nauki o danych lub uczenia maszynowego, aby odpowiedzieć na pięć typów pytań:

    • Ile lub ile? (regresja)
    • Która kategoria? (klasyfikacja)
    • Która grupa? (klastrowanie)
    • Czy jest to niezwykłe? (wykrywanie anomalii)
    • Którą opcję należy podjąć? (zalecenie)

    Określ, które z tych pytań należy zadać, i jak odpowiadanie na nie może pomóc w osiągnięciu celów biznesowych.

  3. Aby zdefiniować zespół projektu, określ role i obowiązki swoich członków. Opracuj plan punktu kontrolnego wysokiego poziomu, na którym iterujesz w miarę odnajdywania dodatkowych informacji.

  4. Należy zdefiniować metryki powodzenia. Na przykład możesz chcieć spełnić przewidywanie współczynnika zmian klientów z dokładnością wynoszącą x procent do końca projektu trzymiesięczny. Dzięki tym danym możesz zaoferować promocje klientów, aby zmniejszyć współczynnik zmian. Metryki muszą mieć wartość SMART:

    • Specific
    • Mz możliwością złagodzenia
    • Zmożliwością chievable
    • Relevant
    • Time-bound

Identyfikowanie źródeł danych

Zidentyfikuj źródła danych zawierające znane przykłady odpowiedzi na pytania. Poszukaj następujących danych:

  • Dane, które są istotne dla pytania. Czy masz miary elementu docelowego i funkcji, które są powiązane z obiektem docelowym?
  • Dane, które są dokładną miarą celu modelu i interesującymi go funkcjami.

Na przykład istniejący system może nie mieć danych, których potrzebuje, aby rozwiązać problem i osiągnąć cel projektu. W takiej sytuacji może być konieczne znalezienie zewnętrznych źródeł danych lub zaktualizowanie systemów w celu zbierania nowych danych.

Integracja z platformą MLflow

Na etapie zrozumienia biznesowego zespół nie korzysta z narzędzi MLflow, ale pośrednio może korzystać z dokumentacji i możliwości śledzenia eksperymentów platformy MLflow. Te funkcje mogą udostępniać szczegółowe informacje i kontekst historyczny, aby ułatwić dopasowanie projektu do celów biznesowych.

Artifacts

Na tym etapie twój zespół zapewnia następujące elementy:

  • Dokument czarterowy. Dokument czarterowy jest żywym dokumentem. Dokument jest aktualizowany w całym projekcie podczas wprowadzania nowych odkryć i zmiany wymagań biznesowych. Kluczem jest iteracja tego dokumentu. Dodaj więcej szczegółów podczas procesu odnajdywania. Poinformuj klienta i innych uczestników projektu o zmianach i ich przyczynach.

  • Źródła danych. Do obsługi zarządzania źródłami danych można użyć usługi Azure Machine Learning . Zalecamy korzystanie z tej usługi platformy Azure dla aktywnych i szczególnie dużych projektów, ponieważ jest ona zintegrowana z platformą MLflow.

  • Słowniki danych. Ten dokument zawiera opisy danych, które udostępnia klient. Te opisy obejmują informacje o schemacie (typy danych i informacje dotyczące reguł walidacji, jeśli istnieją) oraz diagramy relacji jednostek, jeśli są dostępne. Twój zespół powinien udokumentować niektóre lub wszystkie te informacje.

Literatura z przeglądem równorzędnym

Naukowcy publikują badania na temat TDSP w literaturze z przeglądem równorzędnym. Cytaty stanowią okazję do zbadania innych aplikacji lub podobnych pomysłów dotyczących dostawcy TDSP, w tym etapu cyklu życia rozumienia biznesowego.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

W tych artykułach opisano inne etapy cyklu życia TDSP: