Volba algoritmu a trénování a testování modelu

Dokončeno

Krok 3 v životním cyklu datových věd spočívá v výběru algoritmu strojového učení a následného trénování a testování modelu. V tomto bodu životního cyklu datových věd máte data, která nejlépe vyjadřují pravdivé informace o tom, co zkoumáte. Takže je čas modelovat strojové učení, aby se začaly objevovat znalosti.

Modelování je proces výběru funkcí dat, které s největší pravděpodobností budou znamenat spolehlivé znalosti. Tyto příznaky dat se mohou lišit. Mohou to být například sloupce v tabulce, sekundární informace jako rozdíl mezi dvěma sloupci nebo něco odlišnějšího, například barva obrázku.

Modelování

U salátové zahrady jsou některé aspekty prostředí pravděpodobně důležitější než jiné. Například vlhkost půdy je důležitější než úroveň hluku. U jiných funkcí ale může být obtížné posoudit, jestli má funkce silnější korelaci s požadovaným výsledkem než jiná funkce. Je například vlhkost půdy lepším ukazatelem růstu v průběhu času než teplota? Featurizace je technika, která pomocí modelu strojového učení pomáhá pochopit, které funkce korelují těsněji s předpovězeným výsledkem.

U startu rakety nemáte přístup k některým pravděpodobně vysoce korelovaným datům, jako je tvar, velikost a klasifikace cloudů očekávaných od tohoto data tři roky. Budete ale mít tři hlavní části dat, které budou pravděpodobně vysoce korelovány: teplota, srážky a vlhkost. V tomto studijním programu je cílem použít data o minulých startech, data o minulých počasích a předpovězená data o počasí k předpovídání toho, jestli start bude pravděpodobně úspěšný.

Stručná nápověda k algoritmům strojového učení

Užitečným prostředkem pro určení toho, jaký druh algoritmu strojového učení bude užitečný pro vaši analýzu, je tahák algoritmu strojového učení.

Flowchart style diagram of the Algorithm cheat sheet.

Volba správného algoritmu strojového učení

Tady je opět vaše centrální otázka: Budou povětrnostní podmínky v konkrétní den podporovat úspěšný start rakety?

Tato otázka je zodpovězena ano nebo ne. Jedná se tedy o problém, kdy může být užitečný klasifikační algoritmus se dvěma třídami. Pokud se podíváte do této kategorie v taháku algoritmu, uvidíte, že si můžete vybrat z mnoha algoritmů. V tomto případě by klasifikátor rozhodovacího stromu dobře fungoval. Tento typ algoritmu přebírá pozorování události, jako jsou klimatické podmínky pro konkrétní den, a vyvozuje závěry o cílové hodnotě. Jeho výsledkem je ano nebo ne na otázku, která se představuje.

Trénování a testování modelů strojového učení

Jakmile zvolíte algoritmus strojového učení, který chcete použít, musíte poskytnout algoritmus s daty, která jsou uzemněna pravdivě. Při zadání složitých dat budete chtít, aby výstupem modelu byla správná volba. V tomto kroku použijete ke trénování modelu existující sadu dat.

V další lekci se podíváme na příklad identifikace plodů, abychom popsali, jak se lidé mohou naučit učit se nové informace. Modely strojového učení se podobají identifikačnímu experimentu s bobuři. Poskytnete data modelu, která mají vstupní i výstupní výstup, aby je vytrénovala. Neudělíte ale všechna data nebo se model převléčí. Vědělo by jen to, jak identifikovat podmnožinu možných dat. Nešlo by zobecnit nové položky, které jsou podobné, ale odlišné. Proto si necháte některá data pro testování modelu. Pokud chcete model otestovat, zadáte ho jenom se vstupními daty. Skutečný výstup použijete ke známkám nebo "skóre" modelu.

Algoritmy strojového učení, které potřebujete, jsou už naštěstí hotové. K dispozici jsou také nástroje potřebné k rozdělení dat, trénování modelu a otestování modelu. K těmto nástrojům můžete přistupovat a používat je jako službu, takže je nemusíte instalovat do počítače.