MMSAI_1 大數據分析與 AI 之關係 (I)

簡報：https://lms2020.nchu.edu.tw/media/doc/290262

大數據發展的契機

人類定的規則總是有漏洞的（以前寫程式時）所以我們要讓電腦看大量資料 → 大數據的「大」是指能代表所有狀況並從中找出規則，才能避免此問題

何謂大數據分析

成功案例

麥當勞報報 當使用者在麥當勞報報 App 按下領券時，系統透過定位與行為數據分析其所屬商圈與消費模式，建立精準的大數據客群經營模型。當大量使用者位於既有門市服務範圍外仍頻繁領券，即可透過定位與行為大數據判斷潛在客群密度與商圈成熟度，作為新店選址與展店決策依據。

新光三越的櫃位配置 透過櫃位位置分級抽成（手扶梯出入口高價、邊緣區低價）與貴賓卡 App 蒐集消費數據分析來動態調整櫃位配置，同時依餐廳業態屬性規劃樓層分布，以最大化人流動線與整體營收效率。

不成功的分析案（必考）

不成功的分析案遠多於成功的分析案，需判斷問題出在哪個環節：題目 / 資料 / 演算法

案例	問題出在	原因
XX醫院的「超大」數據分析	資料	容量大但無法涵蓋所有情況
第一屆高速公路數據競賽	資料	用1~6月預測9月（中秋連假），資料未加入節慶與連假結構特徵，模型只學到日期本身而非節慶行為模式
某某花園的許願籤詩分析	資料	非電子化資料
塑膠射出機廠商良率改善	題目	良率已達99.n%，很難再提升，題目本身無意義
國家太空中心太陽能板分析	資料	福衛五號解析度2m²，太陽能板一塊50cm²，辨識目標不到1個像素，資料品質不佳
資料分析廠商刀具磨耗預測系統	方法論	工業用電腦跑不了Deep-Learning參數設計模型，換電腦成本太高，無法落地

大數據分析在產業中的定位

事前規劃

生產管理、設施規劃、作業研究、演算法
優點：不需要事先收集資料
缺點：常發生沒有考慮到的地方
關鍵：由專業知識與經驗設計方法

事後分析

小數據：統計、品質管理、機器學習

大數據：大數據分析

優點：只要數據夠大，就不會思考不周
缺點：需要事先收集資料與 Labeling
關鍵：不需要大量知識就可以設計方法

數據方法的效能分析（必考）

效能與資料量高度相關

資料量	最佳方法	特性
0～1,000 筆	統計方法	依賴數學假設；人為介入程度高；小樣本下有效
1,000～10,000 筆	機器學習	人決定架構，電腦學參數；中等資料量表現佳
10,000 筆以上	深度學習	多層神經網路自動學特徵；需大量資料；完全依賴數據

執行大數據分析所需的流程（必考）

定義題目：找出目標問題的輸入與輸出，判斷解題類型（迴歸、預測、分類、分群、最佳化…），實務上還需考慮環境與條件限制
收集資料：收集所有與本問題有關的資料集（內部 + 外部）
清洗資料：觀察資料、找出與修正不合理或缺值的資料、合併資料欄位；檢查缺值、異常狀況、資料分布
取特徵值：（早期）由「人工」找出對資料分析有用的欄位；（近期）更改資料欄位型態以提升辨識準確率
降維概論：由「電腦」及「資料集」找出對資料分析有用的欄位，不同資料集答案可能不同
建模：給予輸入輸出後，建立起輸入輸出間的數學函數
分類：將未知資料分到多個定義好的群組中
報告製作：按照廠商的需求製作分析說明書

AI 是什麼？

模糊邏輯（模糊邏輯-FuzzyLogic Logic）（必考）

精確：現在 23.5°C
模糊：現在好熱喔 → 人類的想法

仿照人類想法的推論系統。

以冷氣為例（一維）

覺得熱的人超過 50%
或覺得熱的人比覺得冷的多

以冷氣為例（二維 + 濕度）

同時考慮溫度與濕度兩個維度

在 2000 年以前，所有家電產品都需要硬體電路控制，邏輯越簡單越好

Fuzzy 的結果很好換成 if-else → 簡單易實作

if 溫度 > 25 and 濕度 > 60:
    開冷氣

類神經網路的學習

類神經具有學習的功能，其學習流程就像：做完考卷後，透過訂正的過程來讓自己學會考題上的知識。

AI 與大數據分析的關係

大數據提供足夠的訓練資料
AI（深度學習）能從大數據中自動學習規則
兩者相輔相成：大數據 → 訓練 AI → AI 從中找規則 → 解決人類規則有漏洞的問題

Quartz 4

Explorer

MMSAI 1 - 大數據分析與AI之關係(I)