Udostępnij za pośrednictwem


Potoki danych CI/CD platformy Azure

Azure DevOps Services

W tym artykule opisano potoki danych ciągłej integracji i ciągłego dostarczania (CI/CD) platformy Azure oraz ich znaczenie dla nauki o danych.

Potoki danych umożliwiają:

  • Pobieranie danych z różnych źródeł danych.
  • Przetwarzanie i przekształcanie danych.
  • Zapisz przetworzone dane w lokalizacji przejściowej, aby inne osoby mogły z nich korzystać.

Diagram przedstawiający przegląd potoku danych.

Potoki danych przedsiębiorstwa mogą przekształcić się w bardziej skomplikowane scenariusze z wieloma systemami źródłowymi i różnymi obsługiwanymi aplikacjami podrzędnymi.

Potoki danych zapewniają:

  • Spójność, przekształcając dane w spójny format używany przez użytkowników.
  • Redukcja błędów przy użyciu zautomatyzowanych potoków danych w celu wyeliminowania błędów człowieka podczas manipulowania danymi.
  • Poprawa wydajności poprzez skrócenie czasu poświęcanego na transformację przetwarzania danych.

Potoki danych umożliwiają specjalistom ds. danych skupienie się na podstawowych funkcjach zadań, uzyskiwanie szczegółowych informacji z danych i pomaganie firmom w podejmowaniu lepszych decyzji.

Ciągła integracja i ciągłe dostarczanie (CI/CD)

Ciągła integracja i ciągłe dostarczanie (CI/CD) to podejście programistyczne, w którym wszyscy deweloperzy współpracują ze sobą w udostępnionym repozytorium kodu. W miarę wprowadzania zmian przez deweloperów zautomatyzowane procesy wykrywają problemy z kodem. Wynikiem korzystania z CI/CD jest szybszy cykl rozwoju oprogramowania z niższą liczbą błędów.

Potoki danych CI/CD w dziedzinie nauki o danych

Tworzenie modeli uczenia maszynowego jest podobne do tradycyjnego tworzenia oprogramowania w tym, że analitycy danych piszą kod w celu trenowania i oceniania modeli uczenia maszynowego. Jednak w przeciwieństwie do tradycyjnego oprogramowania opartego na kodzie modele uczenia maszynowego do nauki o danych są oparte na obu kodach, takich jak algorytmy i hiperparametry, oraz dane używane do trenowania modeli. Większość analityków danych twierdzi, że poświęca 80% czasu na przygotowywanie danych, czyszczenie i inżynierię cech.

Aby zapewnić jakość modeli uczenia maszynowego, techniki takie jak testowanie A/B są również używane do porównywania i utrzymania wydajności modelu. Badania A/B zwykle używają jednego modelu kontrolnego i jednego lub większej liczby modeli leczenia.

Wiele modeli uczenia maszynowego może być używanych jednocześnie, dodając kolejną warstwę złożoności dla CI/CD modeli uczenia maszynowego. Potok danych CI/CD ma kluczowe znaczenie dla zespołu ds. data science, aby dostarczać wysokiej jakości modele uczenia maszynowego do firmy na czas.

Następne kroki