Sdílet prostřednictvím


Datové kanály CI/CD Azure

Služby Azure DevOps

Tento článek vysvětluje datové kanály kontinuální integrace a průběžného doručování (CI/CD) Azure a jejich důležitost pro datové vědy.

Datové kanály můžete použít k:

  • Ingestování dat z různých zdrojů dat
  • Zpracování a transformace dat
  • Uložte zpracovaná data do přípravného umístění, aby je ostatní mohli využívat.

Diagram znázorňující přehled datového kanálu

Podnikové datové kanály se můžou vyvíjet v složitějších scénářích s několika zdrojovými systémy a různými podporovanými podřízenými aplikacemi.

Datové kanály poskytují:

  • Konzistence díky transformaci dat do konzistentního formátu, který uživatelé budou využívat.
  • Snížení počtu chyb pomocí automatizovaných datových kanálů k odstranění lidských chyb při manipulaci s daty
  • Efektivita díky zkrácení doby strávené transformací zpracování dat

Datové kanály umožňují odborníkům na data soustředit se na své základní funkce pracovních míst, získávat přehledy z dat a pomáhat firmám při lepším rozhodování.

Průběžná integrace a průběžné nasazování (CI/CD)

Kontinuální integrace a průběžné doručování (CI/CD) je přístup pro vývoj softwaru, kde všichni vývojáři spolupracují ve sdíleném úložišti kódu. Když vývojáři provádějí změny, automatizované procesy detekují problémy s kódem. Výsledkem použití CI/CD je rychlejší životní cyklus vývoje s nižšími mírami chyb.

Datové kanály CI/CD v datových vědách

Vytváření modelů strojového učení se podobá tradičnímu vývoji softwaru v tom, že datoví vědci píší kód pro trénování a hodnocení modelů strojového učení. Na rozdíl od tradičního softwaru založeného na kódu jsou modely strojového učení datové vědy založené na kódu, jako jsou algoritmy a hyperparametry, a data použitá k trénování modelů. Většina datových vědců říká, že tráví 80 % času přípravou, čištěním a technikou funkcí.

K zajištění kvality modelů strojového učení se k porovnání a údržbě výkonu modelu používají také techniky, jako je testování A/B. Testování A/B obvykle používá jeden řídicí model a jeden nebo více testovacích modelů.

Více modelů strojového učení se může používat souběžně a přidává další vrstvu složitosti pro ci/CD modelů strojového učení. Datový kanál CI/CD je pro tým datových věd zásadní, aby do firmy doručil kvalitní modely strojového učení včas.

Další kroky