Vyčištění a oddělení dat pro projekty AI

Dokončeno

Dalším krokem je import dat existujících obrázků hornin, které použijeme k tomu, abychom náš počítač naučili rozpoznávat různé typy hornin.

Před importem obrázků musíme zkontrolovat dva kritické kroky v procesu umělé inteligence: čištění a oddělení dat. Je důležité provést tyto kroky, abyste zajistili, že počítač dokáže přesně klasifikovat obrázky hornin.

Vyčištění dat

Abychom data vyčistili, musíme se ujistit, že jsou úplná a jednotná. V našem příkladu hornin má mnoho souborů obrázků různé velikosti. Pro čistou sadu potřebujeme změnit velikost každého souboru obrázku, aby byly všechny stejné velikosti. Možná budeme muset vyplnit buňky, ve kterých chybí data, a odstranit řádky s nesprávnými daty.

Oddělení dat

Abychom mohli programovat AI, nejprve poskytneme počítači velké množství dat a řekneme mu, co data představují. Tento proces se nazývá školení. Po vytrénování počítače otestujeme počítač, abychom zjistili, jestli dokáže klasifikovat nová data, která zadáváme.

NASA poskytla velké množství dat o různých typech hornin. Potřebujeme říct počítači, která data se mají použít pro trénování a která se mají použít k testování. Rozdělení provedeme náhodným rozdělením dat do těchto dvou skupin. Poměr toho, kolik dat je ve které skupině, se může lišit. V našem příkladu budeme trénovat s 80 % dat a testovat s 20 % dat.