圖片來源:博客來
前一陣子寫了一篇關於BigData的基本問題 - 到底要多大?要多快? 原本嘗試著要用物理性質的角度來思考到底多大才算是大數據,何時才需要使用不同於傳統的技術?
但是看了這本書才看了第二章馬上就給我不同的思考角度,首先他先說明巨量資料是關於三種思維的改變:
- 是要針對特定主題分析龐大資歷料整理的能力,而不是退而求其次分析較小的資料集
- 願意接受真實資料會雜亂不清的事實,而不是一味追求精確
- 要更看重相關性,而不是追求難以捉摸的因果關係
針對第一點, 他不是用一般傳統的4V去解釋Big Data,他是用如何處理資料的角度來解釋何謂Big Data。
在這章節給Big Data (巨量資料) 下了一個定義:
巨量資料的"巨量"不是絕對、而是相對的概念,指的是要有完整的資料集。
在過去因為受到收集與計算技術的限制,難以全面性的收集資料,所以統計學才因此誕生,而其中最核心的方法就是在抽樣,不過統計學家也證實要提高抽樣的準確度,最好的方式並非增加樣本術,而是要做到隨機抽樣 (不過要如何設計一個好的隨機抽樣永遠都是一個難題,而且會有局限性)
因此真正得巨量資料判斷標準,在於是否使用隨機抽樣*, 也就是說就算全部的資料(樣本=母體)資料量不一定很龐大,但是不再使用抽樣的方法去操作資料就是所謂的巨量資料。
不過第三點就很值得玩味,作者舉了Google 流感,與Jobs DNA定序的例子,指出很多時候我們只要能透過全面資料運算,看到有這樣的模式/現象,其實就足夠了,不一定要去追求為什麼會有這樣的現象/模式或是嘗試去了解它們交互關係原理是什麼。
(謎之音:找到能賺錢的價值就夠了,至於原因上帝知道就夠了~)
圖片來源:Only God knows
(謎之音:看樣子這大數據這本書比雲端時代的殺手級應用:Big Data海量資料分析 有內容多了,也多了一份哲理在~:P 就讓我們繼續看下去....)
延伸閱讀:
[1] 抽樣方法
[2] 抽樣與代表性 (Sampling and representativeness)
沒有留言:
張貼留言