分群與輪廓係數(Silhouette Coefficient)
一句話理解
輪廓係數量化「群內越近、群間越遠」的目標;手肘法找最佳分群數,是效能與成本的 trade-off。
分群目標
- 內部距離最小化:同一群內的點要越近越好
- 外部距離最大化:不同群之間的點要越遠越好
輪廓係數就是量化這兩個目標的指標。
如何決定最佳分群數量?——手肘法(Elbow Method)
- X 軸:分群數量
- Y 軸:輪廓係數(KPI)
- 曲線通常先快速下降,再趨於平緩
- 肘點(Elbow Point)= 最佳解:KPI 改善幅度開始變小的轉折點
核心觀念:Trade-off 效能 v.s. 成本
- 分群數量越多 → 建模成本越高
- 分群之後會建模,分群數量越多,後續建模成本增加
- 肘點是「相對好的效能 + 合理成本」的平衡點
分類與分群的質化評估
| 問題類型 | 質化評估方式 |
|---|---|
| 分類 | 挑正常與極端案例討論即可 |
| 分群 | 想辦法證明同一群內的資料類似(case by case) |