Fáze modelování životního cyklu týmového Datová Věda procesu
Tento článek popisuje cíle, úkoly a dodávky spojené s fází modelování týmového Datová Věda procesu (TDSP). Tento proces poskytuje doporučený životní cyklus, který může váš tým použít ke strukturování projektů datových věd. Životní cyklus popisuje hlavní fáze, které váš tým provádí, často iterativním způsobem:
- Obchodní porozumění
- Získávání a porozumění datům
- Modelování
- Nasazení
- Přijetí zákazníka
Tady je vizuální znázornění životního cyklu TDSP:
Cíle
Cílem fáze modelování je:
Určete optimální datové funkce pro model strojového učení.
Vytvořte informativní model strojového učení, který predikuje cíl nejpřesněji.
Vytvořte model strojového učení, který je vhodný pro produkční prostředí.
Jak dokončit úkoly
Fáze modelování má tři hlavní úlohy:
Příprava funkcí: Vytváření datových funkcí z nezpracovaných dat za účelem usnadnění trénování modelu
Trénování modelu: Najděte model, který odpovídá na otázku nejpřesněji, porovnáním metrik úspěšnosti modelů.
Vyhodnocení modelu: Určete, jestli je váš model vhodný pro produkční prostředí.
Příprava atributů
Příprava funkcí zahrnuje zahrnutí, agregaci a transformaci nezpracovaných proměnných, aby se vytvořily funkce použité v analýze. Pokud chcete získat přehled o tom, jak se model sestavuje, budete muset prozkoumat základní funkce modelu.
Tento krok vyžaduje kreativní kombinaci odborných znalostí v doméně a přehledů získaných z kroku zkoumání dat. Příprava funkcí je vyrovnáváním hledání a zahrnutím informativních proměnných, ale zároveň se snaží vyhnout příliš mnoha nesouvisejícím proměnným. Informativní proměnné zlepšují váš výsledek. Nesouvisející proměnné do modelu zavádějí zbytečný šum. Tyto funkce musíte také vygenerovat pro všechna nová data získaná během vyhodnocování. V důsledku toho může generování těchto funkcí záviset pouze na datech, která jsou k dispozici v době vyhodnocování.
Trénování modelu
Existuje mnoho algoritmů modelování, které můžete použít v závislosti na typu otázky, na kterou se pokoušíte odpovědět. Pokyny k výběru předem připraveného algoritmu najdete v stručné nápovědě k algoritmům machine learning pro návrháře služby Azure Machine Learning. Další algoritmy jsou k dispozici prostřednictvím opensourcových balíčků v R nebo Pythonu. I když se tento článek zaměřuje na Azure Machine Learning, pokyny, které poskytuje, jsou užitečné pro mnoho projektů strojového učení.
Proces trénování modelu zahrnuje následující kroky:
Rozdělte vstupní data náhodně pro modelování do trénovací datové sady a testovací datové sady.
Sestavte modely pomocí trénovací sady dat.
Vyhodnoťte trénování a testovací sadu dat. Použijte řadu konkurenčních algoritmů strojového učení. Použijte různé přidružené parametry ladění (označované jako uklidování parametrů), které jsou zaměřené na zodpovězení otázky zájmu s aktuálními daty.
Určení nejlepšího řešení pro zodpovězení otázky porovnáním metrik úspěšnosti mezi alternativními metodami
Další informace najdete v tématu Trénování modelů pomocí strojového učení.
Poznámka:
Vyhněte se úniku dat: Únik dat můžete způsobit, pokud zahrnete data mimo trénovací sadu dat, která umožňuje algoritmus modelu nebo strojového učení provádět nerealisticky dobré předpovědi. Únik je běžný důvod, proč jsou datoví vědci nervózní, když získají prediktivní výsledky, které se zdají být příliš dobré, aby byly pravdivé. Tyto závislosti můžou být obtížné rozpoznat. Zabránění úniku často vyžaduje iteraci mezi sestavením sady dat analýzy, vytvořením modelu a vyhodnocením přesnosti výsledků.
Vyhodnocení modelu
Po vytrénování modelu se datový vědec ve vašem týmu zaměřuje na vyhodnocení modelu.
Určení: Vyhodnoťte, jestli model funguje dostatečně pro produkční prostředí. Mezi klíčové otázky, které je potřeba položit, patří:
Odpovídá model na otázku s dostatečnou jistotou vzhledem k testovacím datům?
Měli byste vyzkoušet nějaké alternativní přístupy?
Měli byste shromažďovat více dat, provádět další přípravu funkcí nebo experimentovat s jinými algoritmy?
Interpretujte model: K provedení následujících úloh použijte sadu Machine Learning Python SDK :
Vysvětlete celé chování modelu nebo individuální předpovědi na vašem osobním počítači místně.
Povolte techniky interpretovatelnosti pro zkonstruované funkce.
Vysvětlete chování celého modelu a jednotlivých předpovědí v Azure.
Nahrajte vysvětlení do historie spuštění služby Machine Learning.
Pomocí řídicího panelu vizualizace můžete pracovat s vysvětleními modelu, a to jak v poznámkovém bloku Jupyter, tak v pracovním prostoru Machine Learning.
Nasaďte spolu s modelem vysvětlení skóre, abyste mohli sledovat vysvětlení během odvozování.
Posouzení nestrannosti: Použití opensourcového balíčku Pythonu fairlearn se službou Machine Learning k provádění následujících úloh:
Vyhodnoťte nestrannost předpovědí modelu. Tento proces pomáhá vašemu týmu získat další informace o nestrannosti strojového učení.
Nahrajte, vypíšete a stáhnete přehledy posouzení nestrannosti do a ze studia Machine Learning.
Podívejte se na řídicí panel posouzení nestrannosti v nástroji Machine Learning Studio, kde můžete pracovat s přehledy o nestrannosti modelů.
Integrace s MLflow
Machine Learning se integruje s MLflow, aby podporoval životní cyklus modelování. Používá sledování MLflow pro experimenty, nasazení projektu, správu modelů a registr modelů. Tato integrace zajišťuje bezproblémový a efektivní pracovní postup strojového učení. Následující funkce ve službě Machine Learning pomáhají podporovat tento prvek životního cyklu modelování:
Sledování experimentů: Základní funkce MLflow se ve fázi modelování široce používá ke sledování různých experimentů, parametrů, metrik a artefaktů.
Nasazení projektů: Balení kódu pomocí projektů MLflow zajišťuje konzistentní spuštění a snadné sdílení mezi členy týmu, což je nezbytné při iterativním vývoji modelů.
Správa modelů: Správa modelů a správa verzí je v této fázi důležitá, protože různé modely se sestavují, vyhodnocují a upřesňuje.
Registrace modelů: Registr modelů se používá pro správu verzí a správu modelů v průběhu jejich životního cyklu.
Recenzovaná literatura
Výzkumníci publikují studie o TDSP v peer-reviewed literatury. Citace poskytují příležitost prozkoumat jiné aplikace nebo podobné nápady na TDSP, včetně fáze životního cyklu modelování.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Mark Tabladillo | Vedoucí architekt cloudových řešení
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Související prostředky
Tyto články popisují další fáze životního cyklu TDSP: