Úvod
Clustering je proces seskupení objektů s podobnými objekty. Například na obrázku níže máme kolekci 2D souřadnic, které byly seskupené do tří kategorií – vlevo nahoře (žlutá), dole (červená) a vpravo nahoře (modrá).
Hlavním rozdílem mezi clusteringem a klasifikačními modely je, že clustering je metoda bez dohledu , kde se trénování provádí bez popisků. Modely clusteringu identifikují příklady, které mají podobnou kolekci funkcí. Na předchozím obrázku jsou příklady, které jsou v podobném umístění, seskupené dohromady.
Clustering je běžný a užitečný při zkoumání nových dat, ve kterých nejsou dosud známé vzory mezi datovými body, jako jsou kategorie vysoké úrovně. Používá se v mnoha polích, která potřebují automaticky označovat složitá data, včetně analýzy sociálních sítí, připojení mozku, filtrování spamu atd.