MMSAI_1 大數據分析與 AI 之關係 (I)
簡報:https://lms2020.nchu.edu.tw/media/doc/290262
大數據發展的契機
人類定的規則總是有漏洞的(以前寫程式時) 所以我們要讓電腦看大量資料 → 大數據的「大」是指能代表所有狀況 並從中找出規則,才能避免此問題
何謂大數據分析
成功案例
麥當勞報報 當使用者在麥當勞報報 App 按下領券時,系統透過定位與行為數據分析其所屬商圈與消費模式,建立精準的大數據客群經營模型。當大量使用者位於既有門市服務範圍外仍頻繁領券,即可透過定位與行為大數據判斷潛在客群密度與商圈成熟度,作為新店選址與展店決策依據。
新光三越的櫃位配置 透過櫃位位置分級抽成(手扶梯出入口高價、邊緣區低價)與貴賓卡 App 蒐集消費數據分析來動態調整櫃位配置,同時依餐廳業態屬性規劃樓層分布,以最大化人流動線與整體營收效率。
不成功的分析案(必考)
不成功的分析案遠多於成功的分析案,需判斷問題出在哪個環節:題目 / 資料 / 演算法
| 案例 | 問題出在 | 原因 |
|---|---|---|
| XX醫院的「超大」數據分析 | 資料 | 容量大但無法涵蓋所有情況 |
| 第一屆高速公路數據競賽 | 資料 | 用1~6月預測9月(中秋連假),資料未加入節慶與連假結構特徵,模型只學到日期本身而非節慶行為模式 |
| 某某花園的許願籤詩分析 | 資料 | 非電子化資料 |
| 塑膠射出機廠商良率改善 | 題目 | 良率已達99.n%,很難再提升,題目本身無意義 |
| 國家太空中心太陽能板分析 | 資料 | 福衛五號解析度2m²,太陽能板一塊50cm²,辨識目標不到1個像素,資料品質不佳 |
| 資料分析廠商刀具磨耗預測系統 | 方法論 | 工業用電腦跑不了Deep-Learning參數設計模型,換電腦成本太高,無法落地 |
大數據分析在產業中的定位
事前規劃
- 生產管理、設施規劃、作業研究、演算法
- 優點:不需要事先收集資料
- 缺點:常發生沒有考慮到的地方
- 關鍵:由專業知識與經驗設計方法
事後分析
小數據:統計、品質管理、機器學習
大數據:大數據分析
- 優點:只要數據夠大,就不會思考不周
- 缺點:需要事先收集資料與 Labeling
- 關鍵:不需要大量知識就可以設計方法
數據方法的效能分析(必考)
效能與資料量高度相關
| 資料量 | 最佳方法 | 特性 |
|---|---|---|
| 0~1,000 筆 | 統計方法 | 依賴數學假設;人為介入程度高;小樣本下有效 |
| 1,000~10,000 筆 | 機器學習 | 人決定架構,電腦學參數;中等資料量表現佳 |
| 10,000 筆以上 | 深度學習 | 多層神經網路自動學特徵;需大量資料;完全依賴數據 |
執行大數據分析所需的流程(必考)
- 定義題目:找出目標問題的輸入與輸出,判斷解題類型(迴歸、預測、分類、分群、最佳化…),實務上還需考慮環境與條件限制
- 收集資料:收集所有與本問題有關的資料集(內部 + 外部)
- 清洗資料:觀察資料、找出與修正不合理或缺值的資料、合併資料欄位;檢查缺值、異常狀況、資料分布
- 取特徵值:(早期)由「人工」找出對資料分析有用的欄位;(近期)更改資料欄位型態以提升辨識準確率
- 降維概論:由「電腦」及「資料集」找出對資料分析有用的欄位,不同資料集答案可能不同
- 建模:給予輸入輸出後,建立起輸入輸出間的數學函數
- 分類:將未知資料分到多個定義好的群組中
- 報告製作:按照廠商的需求製作分析說明書
AI 是什麼?
模糊邏輯(模糊邏輯-FuzzyLogic Logic)(必考)
精確:現在 23.5°C
模糊:現在好熱喔 → 人類的想法
仿照人類想法的推論系統。
以冷氣為例(一維)
- 覺得熱的人超過 50%
- 或覺得熱的人比覺得冷的多
以冷氣為例(二維 + 濕度)
- 同時考慮溫度與濕度兩個維度
在 2000 年以前,所有家電產品都需要硬體電路控制,邏輯越簡單越好
Fuzzy 的結果很好換成 if-else → 簡單易實作
if 溫度 > 25 and 濕度 > 60:
開冷氣類神經網路的學習
類神經具有學習的功能,其學習流程就像:做完考卷後,透過訂正的過程來讓自己學會考題上的知識。
AI 與大數據分析的關係
- 大數據提供足夠的訓練資料
- AI(深度學習)能從大數據中自動學習規則
- 兩者相輔相成:大數據 → 訓練 AI → AI 從中找規則 → 解決人類規則有漏洞的問題