分群與輪廓係數(Silhouette Coefficient)

一句話理解

輪廓係數量化「群內越近、群間越遠」的目標;手肘法找最佳分群數,是效能與成本的 trade-off。

分群目標

  • 內部距離最小化:同一群內的點要越近越好
  • 外部距離最大化:不同群之間的點要越遠越好

輪廓係數就是量化這兩個目標的指標。

如何決定最佳分群數量?——手肘法(Elbow Method)

  • X 軸:分群數量
  • Y 軸:輪廓係數(KPI)
  • 曲線通常先快速下降,再趨於平緩
  • 肘點(Elbow Point)= 最佳解:KPI 改善幅度開始變小的轉折點

核心觀念:Trade-off 效能 v.s. 成本

  • 分群數量越多 → 建模成本越高
  • 分群之後會建模,分群數量越多,後續建模成本增加
  • 肘點是「相對好的效能 + 合理成本」的平衡點

分類與分群的質化評估

問題類型質化評估方式
分類挑正常與極端案例討論即可
分群想辦法證明同一群內的資料類似(case by case)

MMSAI2 | 分類與ConfusionMatrix | AI演算法分類