[書摘] 大數據 - 第二章- 更多的資料

2013年6月16日星期日

[書摘] 大數據 - 第二章- 更多的資料

圖片來源：博客來

前一陣子寫了一篇關於BigData的基本問題 - 到底要多大?要多快? 原本嘗試著要用物理性質的角度來思考到底多大才算是大數據，何時才需要使用不同於傳統的技術?

但是看了這本書才看了第二章馬上就給我不同的思考角度，首先他先說明巨量資料是關於三種思維的改變：

是要針對特定主題分析龐大資歷料整理的能力，而不是退而求其次分析較小的資料集
願意接受真實資料會雜亂不清的事實，而不是一味追求精確
要更看重相關性，而不是追求難以捉摸的因果關係

針對第一點，他不是用一般傳統的4V去解釋Big Data，他是用如何處理資料的角度來解釋何謂Big Data。

在這章節給Big Data (巨量資料) 下了一個定義：

巨量資料的"巨量"不是絕對、而是相對的概念，指的是要有完整的資料集。

在過去因為受到收集與計算技術的限制，難以全面性的收集資料，所以統計學才因此誕生，而其中最核心的方法就是在抽樣，不過統計學家也證實要提高抽樣的準確度，最好的方式並非增加樣本術，而是要做到隨機抽樣 (不過要如何設計一個好的隨機抽樣永遠都是一個難題，而且會有局限性)

因此真正得巨量資料判斷標準，在於是否使用隨機抽樣*，也就是說就算全部的資料(樣本=母體)資料量不一定很龐大，但是不再使用抽樣的方法去操作資料就是所謂的巨量資料。

不過第三點就很值得玩味，作者舉了Google 流感，與Jobs DNA定序的例子，指出很多時候我們只要能透過全面資料運算，看到有這樣的模式/現象，其實就足夠了，不一定要去追求為什麼會有這樣的現象/模式或是嘗試去了解它們交互關係原理是什麼。

(謎之音：找到能賺錢的價值就夠了，至於原因上帝知道就夠了~)