2013年12月22日 星期日

[書摘] 精準預測 - (1)


如果要了解這個作者,建議可以先看作者在TED也有演講:納特希爾弗:種族背景會影響選票嗎? ,可以對這位作者有個初步了解。

話說討論Big Data 通常會以 4V (Volume、Velocity、Variety、Veracity) 的面象來檢視,而精準預測這本書我覺得應該屬於在討論Veracity(真實性)的範疇,正如書名的副標題,如何從巨量的雜訊中看出重要的訊號。我們如何才能把我們的判斷運用到資料上,又不致於屈服於自己的偏見?整本書的核心問題就是 - 預測,如何做出更好的預測?

這不是一本在對於Big Data 歌功頌德 - Big Data 怎麼改變世界,怎麼幫你賺大錢的書,這是一本科普的書,是本告訴我們在大學時期所學的機率 、統計..等學科到底是怎麼用在真實的世界做預測。
 

 圖片來源:In Data We Trust


如同In Data We Trust 這篇文章裡說的,利用Data 在做任何預測前,都應該先問幾個問題:
  • What is (are) your hypothesis(es)?
  • What are your biases?
  • What is the sample size?
  • What is the data source?
  • How good are your customer measures?

第一章 - 慘烈的預測失誤


以2008年金融海嘯房事泡沫為例,解釋無視錯誤的假設,使用錯誤的方法,如何造成慘烈的預測失誤。
未知而不自知 (unknow unknow)的危險,也就是那些我們根本察覺不到的風險。而比這更大的威脅,可能只有哪種我們以為自己可以控制,卻控制不了的風險。在後者的狀況中,我們不只愚弄自己,我們錯誤的信心更可能會膨脹,以評等機構而言,錯誤的信心更感染了整個金融體系。 [可能出錯的是和不可能出錯的事,兩者之間最主要的差別在於,不可能出錯的事一旦出錯,結果常常讓人搞不清楚狀況,無法修補]                                                                                            - p41

第二章 - 你比電視名嘴還聰明嘛?


跟股票預測一樣,所謂的政治預測名嘴,其實跟猴子設飛鏢的結果是差不多,但是這代表真的不能預測嘛?作者在這個章節舉出兩種分析預測家的人格:
  • 刺蝟 [獵人] - 相信偉大的想法Big Idea,相信可以用一個類似物理定義的自然法則預測分析所有事
  • 狐狸 [採集者] - 相信許多小想法,對問題會用各式各樣的手段來處理,他們比較能包容細微差別,不確定性,複雜的局面和異議。

而節目比較愛的名嘴幾乎都是刺蝟,而真正能預測準確的卻往往是狐狸,那什麼是狐狸的思考原則?
  • 用機率思考(不管是政治還是其他領域都是機率,沒有絕對數字只有可能範圍)
  • 今天的預測就是你餘生的第一個預測 (事實改變的時候,就該改變想法)
  • 尋求共識 (刺蝟都愛說出大膽出戶意料的預測,其實根據證據顯示:集團預測比單獨預測準確 - 檢視多元觀點)

第三章 - 我在乎的只有輸贏


本章節算是"魔球"這本書發表之後的後續Update,老實說我不太看棒球,也不太了解,但是至少看過魔球的電影,於是在腦袋終究留下刻板印象,這是球探與統計專家的戰爭,可能越來越多老球探工作不保,但真的是這樣嘛?

其實魔球出版後的十年,從2004年紅襪隊在相隔86年之後贏得第一次世界大賽冠軍,就是同時注重統計與球探的融合方式。

此外這個章節也解答了我一個問題,為什麼棒球比較容易透過統計機率預測:
棒球提供的資料集也許是全世界最豐富的:過去一百四十年來在大聯盟球場上發生的事差不多全部都有人見則而精準的記錄下來,每年在大聯盟還有數百位球員在打球。同時,雖然棒球是團隊運動,但是棒球又是用非常有條理的方式進行:投手輪值投球,打者案打擊續輪流,他們要位自己大部分的統計數字負責。比較少會牽涉到複雜性與非線性的問題,要理出因果關係比較容易。

不過因為不愛看棒球,所以看到這張真的沒啥fu~:P

第四章 - 多年來你一直告訴我們雨是綠的


這章節在講氣象預測,首先先引用拉普拉斯假設(Laplace's Demon):
我們可以將宇宙現在的狀況,是為過去的果與未來的因。有智慧的人在某個時間會知道所有推動自然的力量,還有構成自然所有物體的位置,如果人的智慧大到足以將所有這些資料拿來分析,那麼就能把宇宙最大的星體和最小的原子所有的運動包含在一條單一的公式裡,對這樣有智慧的人來說,沒有什麼是無法確定的,而未來就如同過去,在他眼前一如現在。
而如同量子物理學家所證實,人類試辦不到的,我想也唯有神才辦的到~:p 不過氣象卻是在分子發生的Level 不是在原子(量子物理層次),所以稍稍的修改拉普拉斯假設的話是可以達到的,這也就是現在氣象預測嘗試在做的事。

氣象分析就把從真實世界觀測到的數據(除了三為空間+ 時間),以矩陣的方式來加以運算,而電腦隨著摩爾定律也越來越快,為什麼預測氣象仍然這麼難呢?因為混沌理論:
  • 系統是動態的 - 這表示系統某個時間點的行為表現會影響其未來的行為表現
  • 系統是非線性的 - 這表示他們遵守的事等比級數的關係,不是等差的關係。
因此光是收集資料的小數點位數的差異,可能都會引起預測的差異(蝴蝶效應),每個階段輕微的錯誤數據,在等比級數的威力下,將會越錯越離譜....

這也解釋了我們對於天氣預報的疑問:如果氣象預報員說明天降雨機率40%,解釋這句話的方式之一就是在他的各次模擬中,有40%出現風雨,而其他60%(用的是稍稍不同的初始參數)則沒有。

此外預報員另一個武器就是視覺化的圖表+ 經驗,可以彌補電腦的不足或過於保守的預測,就算隨著電腦越來越進步,這些預報員的經驗可以讓降雨量預測改善25%,溫度預測10%。

有趣的是氣象是科學預測成功的故事,而且還是比較例外的例子,不是常態....囧rz..



這本書真的又厚又硬...:P

To be continued....





張貼留言