Pozyskiwanie i zrozumienie etapu cyklu życia procesu Nauka o danych zespołowego
W tym artykule opisano cele, zadania i elementy dostarczane skojarzone z pozyskiwaniem danych i zrozumieniem etapu procesu Nauka o danych zespołu (TDSP). Ten proces zapewnia zalecany cykl życia, którego zespół może używać do tworzenia struktury projektów nauki o danych. Cykl życia przedstawia główne etapy wykonywane przez zespół, często iteracyjne:
- Informacje biznesowe
- Pozyskiwanie i zrozumienie danych
- Modelowania
- Wdrożenie
- Akceptacja klienta
Oto wizualna reprezentacja cyklu życia TDSP:
Cele
Cele etapu pozyskiwania i zrozumienia danych to:
Utwórz czysty, wysokiej jakości zestaw danych, który wyraźnie odnosi się do zmiennych docelowych. Znajdź zestaw danych w odpowiednim środowisku analitycznym, aby twój zespół był gotowy do etapu modelowania.
Opracuj architekturę rozwiązania potoku danych, który regularnie odświeża i ocenia dane.
Jak wykonać zadania
Etap pozyskiwania i zrozumienia danych obejmuje trzy główne zadania:
Pozyskiwanie danych do docelowego środowiska analitycznego.
Eksploruj dane , aby ustalić, czy dane mogą odpowiedzieć na pytanie.
Skonfiguruj potok danych, aby ocenić nowe lub regularnie odświeżane dane.
Pozyskiwanie danych
Skonfiguruj proces przenoszenia danych z lokalizacji źródłowych do lokalizacji docelowych, w których uruchamiasz operacje analityczne, takie jak trenowanie i przewidywania.
Eksplorowanie danych
Przed wytrenowanie modeli należy opracować solidne zrozumienie danych. Zestawy danych w świecie rzeczywistym są często hałaśliwe, brakuje wartości lub mają wiele innych rozbieżności. Za pomocą podsumowania i wizualizacji danych można przeprowadzać inspekcję jakości danych i zbierać informacje na potrzeby przetwarzania danych, zanim będą gotowe do modelowania. Ten proces jest często iteracyjny.
Po zadowoleniu z jakości oczyszczonych danych następnym krokiem jest lepsze zrozumienie wzorców w danych. Ta analiza danych ułatwia wybór i opracowanie odpowiedniego modelu predykcyjnego dla celu. Określ, ile danych odpowiada celowi. Następnie zdecyduj, czy twój zespół ma wystarczające dane, aby przejść do przodu, wykonując kolejne kroki modelowania. Ten proces jest często iteracyjny. Może być konieczne znalezienie nowych źródeł danych z dokładniejszymi lub bardziej odpowiednimi danymi, aby dostosować zestaw danych początkowo zidentyfikowany na poprzednim etapie.
Konfigurowanie potoku danych
Oprócz pozyskiwania i czyszczenia danych zazwyczaj należy skonfigurować proces oceniania nowych danych lub regularnie odświeżać je w ramach trwającego procesu uczenia się. Do oceniania danych można użyć potoku danych lub przepływu pracy. Zalecamy potok korzystający z usługi Azure Data Factory.
Na tym etapie tworzysz architekturę rozwiązania potoku danych. Potok jest tworzony równolegle z następnym etapem projektu nauki o danych. W zależności od potrzeb biznesowych i ograniczeń istniejących systemów, w których to rozwiązanie jest zintegrowane, potok może być następujący:
- Oparta na partii
- Przesyłanie strumieniowe lub czas rzeczywisty
- Połączenie hybrydowe
Integracja z platformą MLflow
Podczas fazy zrozumienia danych możesz użyć śledzenia eksperymentów MLflow do śledzenia i dokumentowania różnych strategii przetwarzania wstępnego danych i eksploracyjnej analizy danych.
Artifacts
Na tym etapie twój zespół zapewnia następujące elementy:
Raport o jakości danych, który zawiera podsumowania danych, relacje między każdym atrybutem i elementem docelowym, klasyfikację zmiennych i inne.
Architektura rozwiązania, taka jak diagram lub opis potoku danych używany przez zespół do uruchamiania przewidywań na nowych danych. Ten diagram zawiera również potok ponownego trenowania modelu na podstawie nowych danych. Jeśli używasz szablonu struktury katalogów TDSP, zapisz dokument w katalogu projektu.
Decyzja dotycząca punktu kontrolnego. Przed rozpoczęciem tworzenia pełnego modelu i inżynierii cech można ponownie ocenić projekt, aby określić, czy oczekiwana wartość jest wystarczająca, aby kontynuować jego realizację. Możesz na przykład przygotować się do kontynuowania, zebrać więcej danych lub porzucić projekt, jeśli nie możesz znaleźć danych, które odpowiadają na pytania.
Literatura z przeglądem równorzędnym
Naukowcy publikują badania na temat TDSP w literaturze z przeglądem równorzędnym. Cytaty zapewniają możliwość zbadania innych aplikacji lub podobnych pomysłów dotyczących dostawcy TDSP, w tym etapu pozyskiwania danych i rozumienia cyklu życia.
Współautorzy
Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.
Główny autor:
- Mark Tabladillo | Starszy architekt rozwiązań w chmurze
Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.
Powiązane zasoby
W tych artykułach opisano inne etapy cyklu życia TDSP: