常見的分組演算法 grouping algorithm (1)

  • Hierarchical clustering

是一種聚類演算法,透過將資料集分割成階層式的群集,使相似的資料彼此接近,並形成樹狀結構。該演算法的核心概念是利用一個距離矩陣,以階層方式將相似的資料分組,直到所有的資料點都屬於同一群集為止。

優點缺點
– 與k-means相比,其可以識別出不同大小、形狀和密度的群集。
– 結果可視化,並且可以生成樹狀圖來觀察群集之間的相似度。
– 群集內的資料相對於總體資料的比例可較為均勻,進一步進行資料分析更具有代表性。
– 該演算法的時間複雜度較高,對於大型資料集的運算效率較低。
– 由於該演算法生成的群集是階層式的,因此對於群集的切分方式需要仔細設計。
– 該演算法對於噪音和極端值比較敏感。
適用場景不適用場景
資料量較小且資料維度較低。
資料集中有明顯的群集結構。
資料集中存在層次結構。
資料量較大且資料維度較高。
資料分布比較雜亂,群集之間沒有明顯的界限。
資料集中存在較多的噪音和極端值。
  • DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

DBSCAN是一種基於密度的聚類算法,它的核心概念是根據資料點的密度將資料分為不同的聚類,而不是事先指定聚類的數量。DBSCAN將資料點劃分為核心點、邊界點和雜點三種類型,核心點是指在指定半徑內具有足夠多相鄰資料點的點,邊界點是指在指定半徑內不具有足夠多相鄰資料點但鄰近核心點的點,而雜點是指既不是核心點也不是邊界點的點。

優點缺點
– 可以發現任意形狀的聚類,而不僅僅是凸形聚類。
– 不需要指定聚類數量,且能夠檢測和忽略雜點。
– 對噪聲和異常值有較好的容錯性,且對初始值不敏感。
– 適合處理大數據集,能夠高效地處理高維度資料。
– 資料量較大且資料維度較高。
– 資料分布比較雜亂,群集之間沒有明顯的界限。
– 資料集中存在較多的噪音和極端值。
適用場景不適用場景
– 資料分佈較為分散或稠密的資料集。
– 聚類內部密度變化較大的資料集。
– 含有噪聲或異常值的資料集。
– 欲探索聚類內部形狀和大小差異較大的資料集。
– 資料集中包含多個具有相同密度的聚類,且聚類之間密度差異較小的資料集。
– 資料集中聚類形狀不規則,且聚類之間距離相差較大的資料集。
– 資料集中聚類的大小變化較大且數量巨大的資料集。

Next …

  • OPTICS (Ordering Points To Identify the Clustering Structure)
  • Mean Shift
  • Spectral clustering
  • Agglomerative clustering
  • Affinity propagation
  • Fuzzy C-means clustering
  • Birch (Balanced Iterative Reducing and Clustering using Hierarchies)
  • GMM (Gaussian Mixture Model) clustering

Add a Comment

發佈留言必須填寫的電子郵件地址不會公開。