Prozkoumání různých typů dat

Dokončeno

Data jsou jen dalším slovem pro shromážděné informace. Objemy a masy dostupných informací jsou obrovské a pokrývají mnoho různých typů informací.

Data můžeme kategorizovat mnoha způsoby. Abychom mohli pracovat v prostoru strojového učení, musíme porozumět typu i systémům digitálního úložiště dat, která jsou nám k dispozici.

Průběžná, řadová a kategorická data

U operací s daty někdy potřebujeme povědomí o tom, co přesně data představují. Toto povědomí nám může pomoct zvolit správný model strojového učení. Může nám také pomoct uspořádat naše data určitými užitečnými způsoby.

Průběžná data odkazují na číselné informace, které mohou zvýšit nebo snížit o libovolnou částku. Můžete například přidat 1 milimetr na 1 měřič a vypočítat součet jako 1,001 metrů.

Kategorická data odkazují na data, která nespadají do souvislého spektra. V našem scénáři data kategorizuje lidi na Titanic jako "posádku" nebo "cestující". Kategorická data se nedají ukládat jako čísla jasně zřejmém způsobem.

Pořadová data odkazují na kategorická data, která mají definované pořadí, a proto mohou podporovat úložiště jako číselné hodnoty. Můžeme například definovat hodnoty velkých, středních a malých jako pořadová data, protože je můžeme číselně zařadit: velké > střední > malé. Naproti tomu hodnoty jablka, pomeranče a kokosu jsou kategorické, protože je nemůžeme zařadit. Pořadová data mohou také odkazovat na čísla, která mohou zvýšit nebo snížit, ale pouze podle nastavených částek. Například počet lidí, kteří jezdí na loď, je zaručeno, že bude celé číslo: nikdo nemůže polopenzi.

ID odkazují na speciální typ kategorických dat, kde každá ukázka má své vlastní jedinečné ID. Například v naší datové sadě má každá osoba na Titanic danou hodnotu ID, i když má tato osoba stejné jméno jako někdo jiný. Hodnoty identit nám pomáhají procházet datovou sadu, ale naše analýza dat tyto hodnoty přímo nezahrnuje.

Datové typy

Počítač musí ukládat a zpracovávat všechna data, která používáme pro strojové učení. I když můžeme psát téměř jakákoli data na kus papíru tužkou, počítače ukládají informace jako řady 0 a 1. To omezuje způsob, jakým používáme informace.

Datový typ odkazuje na typ dat, která počítač ukládá. Datové typy mají obecně tyto kategorie:

  • celá čísla: počítání čísel: například 2
  • Čísla s plovoucí desetinnou čárkou: čísla s desetinnými místy: například 2,43
  • řetězce: písmena a slova
  • booleans: true a false
  • Žádné, void nebo null: ne data, ale spíše absence dat

Přesné termíny a implementace těchto konceptů se liší od jazyka po jazyk, ale všechny fungují podobným způsobem ve všech počítačových jazycích.

Někdy dva různé datové typy nabízejí ekvivalentní funkce. Počítače můžou například zpracovávat hodnoty true/false jako logické hodnoty (pravda nebo nepravda), řetězce (y nebo n), celá čísla (0 nebo 1) nebo dokonce čísla s plovoucí desetinnou čárkou (0,0 nebo 1,0).

Odvozené datové typy

Když používáme technologii, setkáme se s mnoha základními a primitivními datovými typy nad rámec výše uvedeného seznamu. Počítače můžou ukládat data, obrázky, 3D modely atd. Tyto typy označujeme jako odvozené datové typy. Začneme jedním nebo více primitivními datovými typy pro vytvoření odvozeného datového typu.

Při strojovém učení často pomáhá převádět odvozené typy na jednodušší reprezentace. Můžeme například uložit definovanou hodnotu data (například 1. ledna 2017) jako celé číslo nebo číslo s plovoucí desetinnou čárkou: 20170101. Celočíselná čísla nebo čísla s plovoucí desetinou čárkou usnadňují výpočty za našimi modely.

Příliš mnoho možností?

Znalost typu dat, která máte k dispozici, vám může pomoct vybrat správný datový typ.

Správný datový typ může záviset na balíčku, který používáte ke spouštění modelů, i když obecně platí, že balíčky jsou přesvědčivé. Obecně:

  • Pro práci s průběžnými daty se čísla s plovoucí desetinou čárkou stanou nejlepší volbou.
  • Pořadová data obvykle kódují celočíselné hodnoty.
  • Kategorická data zahrnující pouze dvě kategorie můžou obvykle kódovat jako logická nebo celočíselná data. Práce se třemi nebo více kategoriemi může být trochu složitější. Nemějte obavy – další lekce se bude zabývat tímto tématem!

V dalším cvičení si procvičíme vizualizaci dat, abychom lépe pochopili samotná data. Jak to děláme, pečlivě si poznamenejte zahrnuté datové typy a zkuste identifikovat souvislé, řadové nebo kategorické datové typy.