MMSAI_1 大數據分析與 AI 之關係 (I)

簡報:https://lms2020.nchu.edu.tw/media/doc/290262


大數據發展的契機

人類定的規則總是有漏洞的(以前寫程式時) 所以我們要讓電腦看大量資料 → 大數據的「大」是指能代表所有狀況 並從中找出規則,才能避免此問題


何謂大數據分析

成功案例

麥當勞報報 當使用者在麥當勞報報 App 按下領券時,系統透過定位與行為數據分析其所屬商圈與消費模式,建立精準的大數據客群經營模型。當大量使用者位於既有門市服務範圍外仍頻繁領券,即可透過定位與行為大數據判斷潛在客群密度與商圈成熟度,作為新店選址與展店決策依據。

新光三越的櫃位配置 透過櫃位位置分級抽成(手扶梯出入口高價、邊緣區低價)與貴賓卡 App 蒐集消費數據分析來動態調整櫃位配置,同時依餐廳業態屬性規劃樓層分布,以最大化人流動線與整體營收效率。


不成功的分析案(必考)

不成功的分析案遠多於成功的分析案,需判斷問題出在哪個環節:題目 / 資料 / 演算法

案例問題出在原因
XX醫院的「超大」數據分析資料容量大但無法涵蓋所有情況
第一屆高速公路數據競賽資料用1~6月預測9月(中秋連假),資料未加入節慶與連假結構特徵,模型只學到日期本身而非節慶行為模式
某某花園的許願籤詩分析資料非電子化資料
塑膠射出機廠商良率改善題目良率已達99.n%,很難再提升,題目本身無意義
國家太空中心太陽能板分析資料福衛五號解析度2m²,太陽能板一塊50cm²,辨識目標不到1個像素,資料品質不佳
資料分析廠商刀具磨耗預測系統方法論工業用電腦跑不了Deep-Learning參數設計模型,換電腦成本太高,無法落地

大數據分析在產業中的定位

事前規劃

  • 生產管理、設施規劃、作業研究、演算法
  • 優點:不需要事先收集資料
  • 缺點:常發生沒有考慮到的地方
  • 關鍵:由專業知識與經驗設計方法

事後分析

小數據:統計、品質管理、機器學習

大數據:大數據分析

  • 優點:只要數據夠大,就不會思考不周
  • 缺點:需要事先收集資料與 Labeling
  • 關鍵:不需要大量知識就可以設計方法

數據方法的效能分析(必考)

效能與資料量高度相關

資料量最佳方法特性
0~1,000 筆統計方法依賴數學假設;人為介入程度高;小樣本下有效
1,000~10,000 筆機器學習人決定架構,電腦學參數;中等資料量表現佳
10,000 筆以上深度學習多層神經網路自動學特徵;需大量資料;完全依賴數據

執行大數據分析所需的流程(必考)

  1. 定義題目:找出目標問題的輸入與輸出,判斷解題類型(迴歸、預測、分類、分群、最佳化…),實務上還需考慮環境與條件限制
  2. 收集資料:收集所有與本問題有關的資料集(內部 + 外部)
  3. 清洗資料:觀察資料、找出與修正不合理或缺值的資料、合併資料欄位;檢查缺值、異常狀況、資料分布
  4. 取特徵值:(早期)由「人工」找出對資料分析有用的欄位;(近期)更改資料欄位型態以提升辨識準確率
  5. 降維概論:由「電腦」及「資料集」找出對資料分析有用的欄位,不同資料集答案可能不同
  6. 建模:給予輸入輸出後,建立起輸入輸出間的數學函數
  7. 分類:將未知資料分到多個定義好的群組中
  8. 報告製作:按照廠商的需求製作分析說明書

AI 是什麼?

模糊邏輯(模糊邏輯-FuzzyLogic Logic)(必考)

精確:現在 23.5°C
模糊:現在好熱喔 → 人類的想法

仿照人類想法的推論系統。

以冷氣為例(一維)

  • 覺得熱的人超過 50%
  • 或覺得熱的人比覺得冷的多

以冷氣為例(二維 + 濕度)

  • 同時考慮溫度與濕度兩個維度

在 2000 年以前,所有家電產品都需要硬體電路控制,邏輯越簡單越好

Fuzzy 的結果很好換成 if-else → 簡單易實作

if 溫度 > 25 and 濕度 > 60:
    開冷氣

類神經網路的學習

類神經具有學習的功能,其學習流程就像:做完考卷後,透過訂正的過程來讓自己學會考題上的知識。


AI 與大數據分析的關係

  • 大數據提供足夠的訓練資料
  • AI(深度學習)能從大數據中自動學習規則
  • 兩者相輔相成:大數據 → 訓練 AI → AI 從中找規則 → 解決人類規則有漏洞的問題