Proces zespołu Nauka o danych (TDSP) to elastyczna, iteracyjna metodologia nauki o danych, której można użyć do wydajnego dostarczania rozwiązań analizy predykcyjnej i aplikacji sztucznej inteligencji. TDSP pomaga ulepszyć współpracę zespołu i uczyć się, sugerując, jak role zespołu działają najlepiej razem. TDSP zawiera najlepsze rozwiązania i struktury firmy Microsoft i innych liderów branży, aby pomóc zespołowi w pomyślnym wdrożeniu inicjatyw nauki o danych i w pełni wykorzystać zalety programu analitycznego.
Ten artykuł zawiera omówienie dostawcy TDSP i jego głównych składników. Przedstawia wskazówki dotyczące implementowania dostawcy TDSP przy użyciu narzędzi i infrastruktury firmy Microsoft. Więcej szczegółowych zasobów można znaleźć w tym artykule.
Kluczowe składniki TDSP
TDSP ma następujące kluczowe składniki:
- Definicja cyklu życia nauki o danych
- Ustandaryzowana struktura projektu
- Infrastruktura i zasoby zalecane dla projektów nauki o danych
- Narzędzia i narzędzia zalecane do wykonywania projektu
Cykl życia nauki o danych
TDSP zapewnia cykl życia, którego można użyć do tworzenia projektów nauki o danych. Cykl życia przedstawia pełne kroki, które należy wykonać pomyślnie.
Zestaw TDSP oparty na zadaniach można połączyć z innymi cyklami życia nauki o danych, takimi jak proces wyszukiwania danych w różnych branżach (CRISP-DM), odnajdywanie wiedzy w bazach danych (KDD) lub inny proces niestandardowy. Na wysokim poziomie te różne metodologie mają wiele wspólnego.
Należy użyć tego cyklu życia, jeśli masz projekt nauki o danych, który jest częścią inteligentnej aplikacji. Inteligentne aplikacje wdrażają modele uczenia maszynowego lub sztucznej inteligencji na potrzeby analizy predykcyjnej. Możesz również użyć tego procesu do eksploracyjnych projektów nauki o danych i improwizowanych projektów analitycznych.
Cykl życia TDSP składa się z pięciu głównych etapów, które zespół wykonuje iteracyjnie. Te etapy obejmują:
Oto wizualna reprezentacja cyklu życia TDSP:
Aby uzyskać informacje na temat celów, zadań i artefaktów dokumentacji dla każdego etapu, zobacz Cykl życia procesu Nauka o danych zespołu.
Te zadania i artefakty są skojarzone z rolami projektu, na przykład:
- Architekt rozwiązań.
- Menedżer projektu.
- Inżynier danych.
- Analityk danych.
- Deweloper aplikacji.
- Kierownik projektu.
Na poniższym diagramie przedstawiono zadania (w kolorze niebieskim) i artefakty (w kolorze zielonym) skojarzone z każdym etapem cyklu życia (na osi poziomej) dla tych ról (na osi pionowej).
Ustandaryzowana struktura projektu
Twój zespół może używać infrastruktury platformy Azure do organizowania zasobów nauki o danych.
Usługa Azure Machine Edukacja obsługuje bibliotekę MLflow typu open source. Zalecamy używanie platformy MLflow do nauki o danych i zarządzania projektami sztucznej inteligencji. Rozwiązanie MLflow jest przeznaczone do zarządzania pełnym cyklem życia uczenia maszynowego. Trenuje i obsługuje modele na różnych platformach, dzięki czemu można używać spójnego zestawu narzędzi niezależnie od tego, gdzie są uruchamiane eksperymenty. Możesz użyć platformy MLflow lokalnie na komputerze, w zdalnym obiekcie docelowym obliczeniowym, na maszynie wirtualnej lub na maszynie Edukacja wystąpieniu obliczeniowym.
Rozwiązanie MLflow składa się z kilku kluczowych funkcji:
Śledzenie eksperymentów: dzięki platformie MLflow można śledzić eksperymenty, w tym parametry, wersje kodu, metryki i pliki wyjściowe. Ta funkcja pomaga w wydajnym porównywaniu różnych przebiegów i zarządzaniu procesem eksperymentowania.
Kod pakietu: oferuje standardowy format tworzenia pakietów kodu uczenia maszynowego, który obejmuje zależności i konfiguracje. To opakowanie ułatwia odtwarzanie przebiegów i udostępnianie kodu innym osobom.
Zarządzanie modelami: platforma MLflow udostępnia funkcje do zarządzania modelami i ich przechowywania wersji. Obsługuje różne struktury uczenia maszynowego, dzięki czemu można przechowywać, wersje i obsługiwać modele.
Obsługa i wdrażanie modeli: platforma MLflow integruje możliwości obsługi modeli i wdrażania, dzięki czemu można łatwo wdrażać modele w różnych środowiskach.
Rejestrowanie modeli: możesz zarządzać cyklem życia modelu, w tym przechowywanie wersji, przejścia na etapy i adnotacje. Rozwiązanie MLflow jest przydatne do obsługi scentralizowanego magazynu modeli w środowisku współpracy.
Korzystanie z interfejsu API i interfejsu użytkownika: wewnątrz platformy Azure platforma MLflow jest pakowana w ramach interfejsu API Edukacja maszyny w wersji 2, dzięki czemu można programowo korzystać z systemu. Możesz użyć witryny Azure Portal do interakcji z interfejsem użytkownika.
MLflow ma na celu uproszczenie i standaryzację procesu opracowywania uczenia maszynowego, od eksperymentowania po wdrożenie.
Usługa Machine Edukacja integruje się z repozytoriami Git, dzięki czemu można używać usług zgodnych z usługami Git: GitHub, GitLab, Bitbucket, Azure DevOps lub innej usługi zgodnej z usługą Git. Oprócz zasobów już śledzonych w usłudze Machine Edukacja zespół może opracować własną taksonomię w ramach usługi zgodnej z usługą Git, aby przechowywać inne informacje o projekcie, takie jak:
- Dokumentacji
- Projekt, na przykład końcowy raport projektu
- Raport dotyczący danych, na przykład słownik danych lub raporty dotyczące jakości danych
- Model, na przykład raporty modelu
- Kod
- Przygotowywanie danych
- Opracowywanie modeli
- Operacjonalizacja, w tym zabezpieczenia i zgodność
Infrastruktura i zasoby
Przewodnik rozwiązywania problemów zawiera zalecenia dotyczące zarządzania udostępnioną analizą i infrastrukturą magazynu, taką jak:
- Systemy plików w chmurze do przechowywania zestawów danych
- Bazy danych
- Klastry danych big data, na przykład SQL lub Spark
- Usługi uczenia maszynowego
Możesz umieścić infrastrukturę analiz i magazynowania, w której przechowywane są nieprzetworzone i przetworzone zestawy danych, w chmurze lub lokalnie. Ta infrastruktura umożliwia powtarzalną analizę. Zapobiega również duplikowaniu, co może prowadzić do niespójności i niepotrzebnych kosztów infrastruktury. Infrastruktura zawiera narzędzia do aprowizowania udostępnionych zasobów, śledzenia ich i bezpiecznego łączenia się z tymi zasobami przez każdego członka zespołu. Dobrym rozwiązaniem jest również utworzenie spójnego środowiska obliczeniowego przez członków projektu. Różni członkowie zespołu mogą następnie replikować i weryfikować eksperymenty.
Oto przykład zespołu pracującego nad wieloma projektami i współużytkowania różnych składników infrastruktury analizy chmury:
Narzędzia i programy narzędziowe
W większości organizacji trudno jest wprowadzić procesy. Infrastruktura udostępnia narzędzia do implementowania TDSP i cyklu życia, co pomaga obniżyć bariery i zwiększyć spójność ich wdrażania.
Dzięki usłudze Machine Edukacja analitycy danych mogą stosować narzędzia typu open source w ramach potoku lub przepływu pracy nauki o danych. W ramach Edukacja machine firma Microsoft promuje narzędzia odpowiedzialnej sztucznej inteligencji, co pomaga osiągnąć standard odpowiedzialnej sztucznej inteligencji firmy Microsoft.
Recenzowane cytaty równorzędne
TDSP to dobrze ugruntowana metodologia używana w ramach zaangażowania firmy Microsoft, w związku z czym została udokumentowana i zbadana w literaturze z przeglądem równorzędnym. Te cytaty stanowią okazję do zbadania funkcji i aplikacji TDSP. Aby uzyskać listę cytatów, zobacz stronę przeglądu cyklu życia.