Uwaga
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Azure DevOps Services
W tym artykule opisano potoki danych ciągłej integracji i ciągłego dostarczania (CI/CD) platformy Azure oraz ich znaczenie dla nauki o danych.
Potoki danych umożliwiają:
- Pobieranie danych z różnych źródeł danych.
- Przetwarzanie i przekształcanie danych.
- Zapisz przetworzone dane w lokalizacji przejściowej, aby inne osoby mogły z nich korzystać.
Potoki danych przedsiębiorstwa mogą przekształcić się w bardziej skomplikowane scenariusze z wieloma systemami źródłowymi i różnymi obsługiwanymi aplikacjami podrzędnymi.
Potoki danych zapewniają:
- Spójność, przekształcając dane w spójny format używany przez użytkowników.
- Redukcja błędów przy użyciu zautomatyzowanych potoków danych w celu wyeliminowania błędów człowieka podczas manipulowania danymi.
- Poprawa wydajności poprzez skrócenie czasu poświęcanego na transformację przetwarzania danych.
Potoki danych umożliwiają specjalistom ds. danych skupienie się na podstawowych funkcjach zadań, uzyskiwanie szczegółowych informacji z danych i pomaganie firmom w podejmowaniu lepszych decyzji.
Ciągła integracja i ciągłe dostarczanie (CI/CD)
Ciągła integracja i ciągłe dostarczanie (CI/CD) to podejście programistyczne, w którym wszyscy deweloperzy współpracują ze sobą w udostępnionym repozytorium kodu. W miarę wprowadzania zmian przez deweloperów zautomatyzowane procesy wykrywają problemy z kodem. Wynikiem korzystania z CI/CD jest szybszy cykl rozwoju oprogramowania z niższą liczbą błędów.
Potoki danych CI/CD w dziedzinie nauki o danych
Tworzenie modeli uczenia maszynowego jest podobne do tradycyjnego tworzenia oprogramowania w tym, że analitycy danych piszą kod w celu trenowania i oceniania modeli uczenia maszynowego. Jednak w przeciwieństwie do tradycyjnego oprogramowania opartego na kodzie modele uczenia maszynowego do nauki o danych są oparte na obu kodach, takich jak algorytmy i hiperparametry, oraz dane używane do trenowania modeli. Większość analityków danych twierdzi, że poświęca 80% czasu na przygotowywanie danych, czyszczenie i inżynierię cech.
Aby zapewnić jakość modeli uczenia maszynowego, techniki takie jak testowanie A/B są również używane do porównywania i utrzymania wydajności modelu. Badania A/B zwykle używają jednego modelu kontrolnego i jednego lub większej liczby modeli leczenia.
Wiele modeli uczenia maszynowego może być używanych jednocześnie, dodając kolejną warstwę złożoności dla CI/CD modeli uczenia maszynowego. Potok danych CI/CD ma kluczowe znaczenie dla zespołu ds. data science, aby dostarczać wysokiej jakości modele uczenia maszynowego do firmy na czas.