2013年6月22日 星期六

[書摘] 大數據 - 第三章- 雜亂


圖片來源:博客來


知名物理學家課耳文勛爵(Lord Kelvin)主張測量就是瞭解,這也變成科學的依據:要能夠量化,記錄,還得呈現出可重複的驗證。不過到了1920年量子力學 - 測不準原理的出現推翻了全面完整測量事物的夢想,

所以面對資料我們要改變的第二種心態就是 - 開始容忍種種不精確

很多時候"越多",會比"品質越好"更重要 ,由於我們收集技術精確性會受到物理性質限制,與技術限制,所以我們必須改以透過增加取樣頻率,增加收集資料量來克服這些問題。

也就是說,巨量資料的概念,就讓數據的重點從精確走向可能性。 (阿~又是機率和統計~)

案例連結:

1. 自然語言處理 - 在這個領域已經證明資料的量比品質還重要

對於所有的Machine Learning 的研究來說,都會遇到一個問題,是要把資源投給改善更好的演算法,還是要收集更多的資料?這結果也由Googel 證實,Google 人工智慧專家諾威格等人,在一篇名為"資料的非理性效果"文中提到:簡單的模型,加上大量的資料,就會打敗很複雜,但是資料較少的模型。


2. 拋棄昂貴費時的精確資料收集方式 - PriceStats  

MIT教授創業的公司,透過網路抓取全美超過50項產品價格,現在更是蒐集超過70個國家,數百名零售商銷售的產品價格,來分析消費者物價指數(CPI),雖然充滿了混亂和不乾淨的資料,但是即時性與準確度已經超越官方公布的數據。


圖片來源:PriceStats 





3. 資料庫設計的改變 - NoSQL崛起

在這個章節罩慣例有提到 Hadoop 的技術(但是描述怪怪的 --> 與過去的關聯式資料庫相比,Hadoop輸出的結果比較不準確....=_=?)


應用案例 - ZestFinance

這間由前Google 資訊長所成立的公司,透過許多過去信用評分公司認為相對不重要的指標來判斷是否要提供小額短期貸款。

圖片來源:ZestFinance



心得:

心態與觀念改變的確很重要,但是前提是要有相對應的技術能量(數學與分析能力)去處理,否則縱使擁有越多的資料,還是無法挖掘出有價值的東西...



張貼留言