Giới thiệu
Phân cụm là quá trình nhóm các đối tượng có các đối tượng tương tự. Ví dụ, trong hình ảnh dưới đây, chúng ta có một bộ sưu tập tọa độ 2D đã được phân cụm thành ba thể loại - trên cùng bên trái (vàng), dưới cùng (đỏ) và trên cùng bên phải (màu lam).
Sự khác biệt lớn giữa các mô hình phân cụm và phân loại là phân cụm là phương pháp không được hỗ trợ, trong đó quá trình đào tạo được thực hiện mà không có nhãn. Mô hình phân cụm xác định các ví dụ có bộ sưu tập tính năng tương tự. Trong hình ảnh trước đó, các ví dụ nằm ở một vị trí tương tự được nhóm cùng nhau.
Phân cụm rất phổ biến và hữu ích cho việc khám phá dữ liệu mới trong đó các mẫu hình giữa các điểm dữ liệu, chẳng hạn như các danh mục mức cao, chưa được biết đến. Nó được sử dụng trong nhiều lĩnh vực cần tự động gắn nhãn dữ liệu phức tạp, bao gồm phân tích các mạng xã hội, kết nối bộ não, lọc thư rác, v.v.