Fáze získávání dat a pochopení životního cyklu týmového Datová Věda procesu
Tento článek popisuje cíle, úkoly a dodávky spojené s získáváním dat a pochopením fáze týmového Datová Věda procesu (TDSP). Tento proces poskytuje doporučený životní cyklus, který může váš tým použít ke strukturování projektů datových věd. Životní cyklus popisuje hlavní fáze, které váš tým provádí, často iterativním způsobem:
- Obchodní porozumění
- Získávání a porozumění datům
- Modelování
- Nasazení
- Přijetí zákazníka
Tady je vizuální znázornění životního cyklu TDSP:
Cíle
Cílem fáze získávání a pochopení dat je:
Vytvoří čistou vysoce kvalitní datovou sadu, která jasně souvisí s cílovými proměnnými. Vyhledejte datovou sadu v příslušném analytickém prostředí, aby byl váš tým připravený pro fázi modelování.
Vyvíjejte architekturu řešení datového kanálu, který pravidelně aktualizuje a vyhodnotuje data.
Jak dokončit úkoly
Fáze získávání a porozumění dat má tři hlavní úlohy:
Ingestování dat do cílového analytického prostředí
Prozkoumejte data , abyste zjistili, jestli data můžou odpovědět na otázku.
Nastavte datový kanál tak, aby ohodnotoval nová nebo pravidelně aktualizační data.
Ingestace dat
Nastavte proces pro přesun dat ze zdrojových umístění do cílových umístění, kde spouštíte analytické operace, jako jsou trénování a předpovědi.
Zkoumání dat
Před trénování modelů je potřeba vyvinout řádné porozumění datům. Datové sady z reálného světa jsou často hlučné, chybí hodnoty nebo mají řadu dalších nesrovnalostí. Pomocí sumarizace a vizualizace dat můžete auditovat kvalitu dat a shromáždit informace pro zpracování dat, než budou připravené k modelování. Tento proces je často iterativní.
Jakmile budete spokojeni s kvalitou vyčištěných dat, je dalším krokem lepší pochopení vzorů v datech. Tato analýza dat vám pomůže zvolit a vyvinout vhodný prediktivní model pro váš cíl. Určete, kolik dat odpovídá cíli. Pak se rozhodněte, jestli má váš tým dostatek dat, abyste mohli pokračovat s dalšími kroky modelování. Tento proces je opět často iterativní. Možná budete muset najít nové zdroje dat s přesnějšími nebo relevantnějšími daty, aby se datová sada původně identifikovaná v předchozí fázi upravila.
Nastavení datového kanálu
Kromě ingestování a čištění dat obvykle potřebujete nastavit proces, který bude ohodnotit nová data nebo pravidelně aktualizovat data v rámci probíhajícího procesu učení. K určení skóre dat můžete použít datový kanál nebo pracovní postup. Doporučujeme kanál, který používá Azure Data Factory.
V této fázi vytvoříte architekturu řešení datového kanálu. Kanál vytvoříte paralelně s další fází projektu datových věd. V závislosti na vašich obchodních potřebách a omezeních stávajících systémů, do kterých se toto řešení integruje, může kanál být následující:
- Založená na dávce
- Streamování nebo reálný čas
- Hybridní
Integrace s MLflow
Během fáze pochopení dat můžete pomocí sledování experimentů MLflow sledovat a zdokumentovat různé strategie předběžného zpracování dat a průzkumnou analýzu dat.
Artifacts
V této fázi váš tým poskytuje:
Sestava kvality dat, která obsahuje souhrny dat, vztahy mezi jednotlivými atributy a cíli, hodnocení proměnných a další.
Architektura řešení, například diagram nebo popis datového kanálu, který váš tým používá ke spouštění předpovědí na nových datech Tento diagram obsahuje také kanál pro opětovné trénování modelu na základě nových dat. Při použití šablony struktury adresáře TDSP uložte dokument do adresáře projektu.
Rozhodnutí kontrolního bodu. Než začnete s vytvářením kompletních funkcí a modelem, můžete projekt znovu vyhodnotit, abyste zjistili, jestli je očekávaná hodnota dostatečná pro pokračování v jeho provádění. Můžete být například připraveni pokračovat, musíte shromáždit další data nebo opustit projekt, pokud nemůžete najít data, která odpovídají na otázky.
Recenzovaná literatura
Výzkumníci publikují studie o TDSP v peer-reviewed literatury. Citace poskytují příležitost prozkoumat jiné aplikace nebo podobné nápady na TDSP, včetně získávání dat a pochopení fáze životního cyklu.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Mark Tabladillo | Vedoucí architekt cloudových řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Související prostředky
Tyto články popisují další fáze životního cyklu TDSP: