2014年3月10日 星期一

書摘 Lean Analytics: Use Data to Build a Better Startup Faster - Data driven vs Data Informed


Chapter 2 和 Chapter 3 的內容主要都是在複習Lean Startup,所以不用特別記錄。

第四章的重點是LinkedIn Data Scientist 所提到創業家在處理Data 時容易遇到的十大 pitfalls (陷阱):

1. Assuming the data is clean


這邊舉的例子是用Zip Code 來分析客戶的來源,但是卻沒注意到很多客戶都是來自某個Zip Code其實是因為系統Default 預設,用這樣的資料來分析就會造成很大的錯誤...

2. Not normalizing


分析資料要用比例來分析,不能用絕對數字來分析,這邊舉例統計某個觀光景點是不是熱門結婚地區,不能單就來結婚的旅客數計算,應該要除以全部的旅客數這個數字才有意義。



3. Excluding outliers


對於異常值,有時候不能隨便排除,舉例來說,網站有某幾個人瘋狂的愛用或愛看你的網頁,這時他不是你的超級粉絲就可能是Bot,這時就應該要拉近來分析。


4. Including outliers


位於異常值,該排除的時候也必須要排除,舉例來說你要建立一般化的模型(General Model),這時就必須要把異常值排除,才有利建議Model


5. Ignoring seanality


很多現象是季節性的,也必須要排除,比如說每年畢業季Intern的職業就會異常增多,這不代表是Intern 的個職位/職業便熱門。


6. Ignoring size when reporting growth


當在統計成長率時,必須要考慮總數,舉例來說,你網站成立第二天你爸上來註冊,此時你只有兩個使用者,但是卻有100%的增長。

7. Dta Vomit (嘔吐)


就算你有很絢麗花俏的Dashboard 顯示分析資料,如果不知道該怎麼看也是沒用的,只是徒增煩惱。
(就像Google Analytic 一樣...:P)

8.  Metric that cry wolf


狼來了....當你要監控某個數值,要小心不要把alert 調的太敏感,免得監控系統一直發出警訊,看久了就麻痺了...


9. The Not Collected Here syndrome (綜合徵)


不要只著眼於收集到的數據表象,有時候也要把數據組合起來分析,也會有意不到的結果,比如說你的最好的客戶的住址都來自於壽司店很集中的區域?


10. Focusing on noise

太專注於研究這些數據和虛榮指標,有時候必須要退一步看一下Big picture
(這句話也太玄了吧...)

感想...Data Scientist or Product Marketing 就是要整天亂搞這些數據找出產品方向~:P


張貼留言