Dlaczego potoki danych?
Usługa Azure DevOps Services
Za pomocą potoków danych można wykonywać następujące czynności:
- Pozyskiwanie danych z różnych źródeł danych
- Przetwarzanie i przekształcanie danych
- Zapisywanie przetworzonych danych w lokalizacji przejściowej, z których mogą korzystać inne osoby
Potoki danych w przedsiębiorstwie mogą ewoluować w bardziej skomplikowane scenariusze z wieloma systemami źródłowymi i obsługiwać różne aplikacje podrzędne.
Potoki danych zapewniają:
- Spójność: potoki danych przekształcają dane w spójny format, z których użytkownicy mogą korzystać
- Redukcja błędów: zautomatyzowane potoki danych eliminują błędy człowieka podczas manipulowania danymi
- Wydajność: Specjaliści ds. danych oszczędzają czas spędzony na transformacji przetwarzania danych. Oszczędność czasu pozwala następnie skupić się na podstawowej funkcji zadania — uzyskiwanie szczegółowych informacji z danych i pomaganie firmie w podejmowaniu lepszych decyzji
Co to jest ciągła integracja/ciągłe wdrażanie?
Ciągła integracja i ciągłe dostarczanie (CI/CD) to podejście programistyczne, w którym wszyscy deweloperzy współpracują ze sobą w udostępnionym repozytorium kodu — i w miarę wprowadzania zmian proces automatycznego kompilowania w celu wykrywania problemów z kodem. Wynik jest szybszym cyklem życia programowania i niższym współczynnikiem błędów.
Co to jest potok danych ciągłej integracji/ciągłego wdrażania i dlaczego ma to znaczenie dla nauki o danych?
Tworzenie modeli uczenia maszynowego jest podobne do tradycyjnego tworzenia oprogramowania w tym sensie, że analityk danych musi napisać kod w celu trenowania i oceniania modeli uczenia maszynowego.
W przeciwieństwie do tradycyjnego tworzenia oprogramowania, w którym produkt opiera się na kodzie, modele uczenia maszynowego do nauki o danych są oparte zarówno na kodzie (algorytmie, hiperparaparacie), jak i na danych używanych do trenowania modelu. Dlatego większość analityków danych powie, że poświęca 80% czasu na przygotowywanie danych, czyszczenie i inżynierię cech.
Aby jeszcze bardziej skomplikować tę kwestię — aby zapewnić jakość modeli uczenia maszynowego, używane są techniki, takie jak testowanie A/B. W przypadku testowania A/B może istnieć wiele modeli uczenia maszynowego używanych jednocześnie. Zazwyczaj istnieje jeden model kontrolny i co najmniej jeden model leczenia do porównania , dzięki czemu można porównać i utrzymać wydajność modelu. Posiadanie wielu modeli dodaje kolejną warstwę złożoności dla ciągłej integracji/ciągłego wdrażania modeli uczenia maszynowego.
Posiadanie potoku danych ciągłej integracji/ciągłego wdrażania ma kluczowe znaczenie dla zespołu ds. nauki o danych w celu dostarczania modeli uczenia maszynowego do firmy w odpowiednim czasie i jakości.
Następne kroki
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla