執行大數據分析在產業中的定位所需的流程(必考)

一句話理解

BDA 八步驟:從定義題目到最後報告,每一步都可能是失敗的原因。

核心流程

  1. 定義題目:找出目標問題的輸入與輸出,判斷解題類型(迴歸、預測、分類、分群、最佳化…),實務上還需考慮環境與條件限制
  2. 收集資料:收集所有與本問題有關的資料集(內部 + 外部)
  3. 清洗資料:觀察資料、找出與修正不合理或缺值的資料、合併資料欄位;檢查缺值、異常狀況、資料分布
  4. 取特徵值:(早期)由「人工」找出對資料分析有用的欄位;(近期)更改資料欄位型態以提升辨識準確率
  5. 降維概論:由「電腦」及「資料集」找出對資料分析有用的欄位,不同資料集答案可能不同
  6. 建模:給予輸入輸出後,建立起輸入輸出間的數學函數
  7. 分類:將未知資料分到多個定義好的群組中
  8. 報告製作:按照廠商的需求製作分析說明書

常見錯誤

  • 步驟1定義不清 → 整個流程做白工
  • 步驟3清洗不完整 → garbage in, garbage out
  • 步驟5降維選錯方法 → 準確度下降

MMSAI1 | 不成功的分析案 | 降維概論