執行大數據分析在產業中的定位所需的流程(必考)
一句話理解
BDA 八步驟:從定義題目到最後報告,每一步都可能是失敗的原因。
核心流程
- 定義題目:找出目標問題的輸入與輸出,判斷解題類型(迴歸、預測、分類、分群、最佳化…),實務上還需考慮環境與條件限制
- 收集資料:收集所有與本問題有關的資料集(內部 + 外部)
- 清洗資料:觀察資料、找出與修正不合理或缺值的資料、合併資料欄位;檢查缺值、異常狀況、資料分布
- 取特徵值:(早期)由「人工」找出對資料分析有用的欄位;(近期)更改資料欄位型態以提升辨識準確率
- 降維概論:由「電腦」及「資料集」找出對資料分析有用的欄位,不同資料集答案可能不同
- 建模:給予輸入輸出後,建立起輸入輸出間的數學函數
- 分類:將未知資料分到多個定義好的群組中
- 報告製作:按照廠商的需求製作分析說明書
常見錯誤
- 步驟1定義不清 → 整個流程做白工
- 步驟3清洗不完整 → garbage in, garbage out
- 步驟5降維選錯方法 → 準確度下降