Co je clustering?
Clustering je forma nesupervisovaného strojového učení, ve kterém se pozorování seskupují do shluků na základě podobností v hodnotách dat nebo funkcích. Tento druh strojového učení se považuje za bez dohledu, protože nepoužívá dříve známé hodnoty popisků k trénování modelu. V modelu clusteringu je popiskem cluster, ke kterému je pozorování přiřazeno, pouze na základě jeho funkcí.
Předpokládejme například, že botanista sleduje vzorek květin a zaznamenává počet okvětních lístků a listů na každé květině.
Může být užitečné tyto květiny seskupit do shluků na základě podobností mezi jejich funkcemi.
Existuje mnoho způsobů, jak určit toto seskupení. Pokud má například většina květin stejný počet listů, můžou být seskupené do květin s mnoha okvětními vs. Případně platí, že pokud se počty okvětních lístků i listů výrazně liší, může se objevit vzor, například květiny s mnoha listy, které mají také mnoho okvětních lístků. Cílem algoritmu clusteringu je najít optimální způsob rozdělení datové sady do skupin. Co optimální znamená, závisí na použitém algoritmu i na zadané datové sadě.
I když je tento příklad květin snadno kategorizován pouze s několika ukázkami, jak datová sada roste na tisíce vzorků nebo na více než dvě funkce, stanou se algoritmy clusteringu užitečné k rychlému seřazení datové sady do skupin.