Udostępnij za pośrednictwem


Dlaczego potoki danych?

Usługa Azure DevOps Services

Za pomocą potoków danych można wykonywać następujące czynności:

  • Pozyskiwanie danych z różnych źródeł danych
  • Przetwarzanie i przekształcanie danych
  • Zapisywanie przetworzonych danych w lokalizacji przejściowej, z których mogą korzystać inne osoby

Omówienie potoku danych

Potoki danych w przedsiębiorstwie mogą ewoluować w bardziej skomplikowane scenariusze z wieloma systemami źródłowymi i obsługiwać różne aplikacje podrzędne.

Potoki danych zapewniają:

  • Spójność: potoki danych przekształcają dane w spójny format, z których użytkownicy mogą korzystać
  • Redukcja błędów: zautomatyzowane potoki danych eliminują błędy człowieka podczas manipulowania danymi
  • Wydajność: Specjaliści ds. danych oszczędzają czas spędzony na transformacji przetwarzania danych. Oszczędność czasu pozwala następnie skupić się na podstawowej funkcji zadania — uzyskiwanie szczegółowych informacji z danych i pomaganie firmie w podejmowaniu lepszych decyzji

Co to jest ciągła integracja/ciągłe wdrażanie?

Ciągła integracja i ciągłe dostarczanie (CI/CD) to podejście programistyczne, w którym wszyscy deweloperzy współpracują ze sobą w udostępnionym repozytorium kodu — i w miarę wprowadzania zmian proces automatycznego kompilowania w celu wykrywania problemów z kodem. Wynik jest szybszym cyklem życia programowania i niższym współczynnikiem błędów.

Co to jest potok danych ciągłej integracji/ciągłego wdrażania i dlaczego ma to znaczenie dla nauki o danych?

Tworzenie modeli uczenia maszynowego jest podobne do tradycyjnego tworzenia oprogramowania w tym sensie, że analityk danych musi napisać kod w celu trenowania i oceniania modeli uczenia maszynowego.

W przeciwieństwie do tradycyjnego tworzenia oprogramowania, w którym produkt opiera się na kodzie, modele uczenia maszynowego do nauki o danych są oparte zarówno na kodzie (algorytmie, hiperparaparacie), jak i na danych używanych do trenowania modelu. Dlatego większość analityków danych powie, że poświęca 80% czasu na przygotowywanie danych, czyszczenie i inżynierię cech.

Aby jeszcze bardziej skomplikować tę kwestię — aby zapewnić jakość modeli uczenia maszynowego, używane są techniki, takie jak testowanie A/B. W przypadku testowania A/B może istnieć wiele modeli uczenia maszynowego używanych jednocześnie. Zazwyczaj istnieje jeden model kontrolny i co najmniej jeden model leczenia do porównania , dzięki czemu można porównać i utrzymać wydajność modelu. Posiadanie wielu modeli dodaje kolejną warstwę złożoności dla ciągłej integracji/ciągłego wdrażania modeli uczenia maszynowego.

Posiadanie potoku danych ciągłej integracji/ciągłego wdrażania ma kluczowe znaczenie dla zespołu ds. nauki o danych w celu dostarczania modeli uczenia maszynowego do firmy w odpowiednim czasie i jakości.

Następne kroki